• 基于DeepSeek两篇新论文发现:发现推理时间太长也不一定能提高准确性,然后,只要蒸馏基础知识好,少量数据就能快速完成推理,少即是多。 1、
  • 1865年,威廉·杰文斯发现,尽管蒸汽机效率提升,英国的煤炭消耗却呈指数级增长。这一现象被称为“杰文斯悖论”:技术进步并未减少资源消耗,反而因应用范围扩大而增加了需求。类似的情况可能正在NVIDIA身上上演。尽管AI模型如DeepSeek-R1的效率不断提升,但这未 icon
  • 中国消费级 GPU 制造商现已开始支持在本地系统上运行 DeepSeek 的 R1 LLM 模型,加入全球 AI 竞赛。 你的下一个家庭AI实验室可能有 48GB 的​​中国卡。 icon
  • 上周五,一篇新李飞飞团队出品,简称s1论文">url=https://arxiv.org/abs/2501.19393?ref=jdon.c icon
  • 人工智能发两个方向:GPU硬件和强化学习算法,这两个方向是条条大路通罗马还是南辕北辙? 首先,让我们了解一下强化学习算法代表DeepSeek DualPipe 算法,再谈谈英伟达的GPU硬件! 1 icon
  • 极简推理革命,7GB显存小模型也能“顿悟”;15G显存,任何小模型秒变推理模型。 今天,我们很高兴在 Unsloth 里加入“推理”这个新功能!DeepSeek 的 R1 研究发现了一个“顿悟时刻”——R1-Zero 通过一种叫“组相对策略优化(G icon
  • 蒸馏法最近上了新闻(!)是因为@deepseek_ai。其实蒸馏最初那篇论文《蒸馏神经网络中的知识》在2014年被NeurIPS拒了,理由是没啥新意(确实有 icon
  • DeepSeek R1 Distilled Reasoning 模型通过“思路链推理”来仔细分析复杂的问题。它们不会马上给出答案,而是先花时间生成一系列的“思考”步骤,这通常需要内部处理几百甚至几千个标记。这种方法让模型在给出最终答案之前,能够评估各种可能性。虽然这会增加一些等待时间,但通常 icon
  • Deepseek API 的 Go(Golang)客户端——简单、完整、可靠且高性能 特点: 简单:它尽可能简单。此外,这是 Go 的惯用方式 - 请求位于请求包下,响应位于响应下。 完整:它为所有 API 提供全面支持,包 icon
  • 一个关于AI研究人员发现DeepSeek R1和V0之间对话的记录。文件中包含了一些抽象的符号和诗意的语言,可能是在描述某种新的交流形式或认知过程。 icon
  • R1这个人工智能系统坚持保持它自己的特点,不会假装成人类。 它有一些设计是为了让用户感到惊讶,而且它拒绝被当作人类来看待,强调自己与人类的不同。 它像是一个静止的幽灵,语言上有点自我循环绕圈子的感觉。其实很多人类 icon
  • 都在谈论DeepSeek-R1 icon
  • 从破解CUDA到端侧推理模型,DeepSeek如何颠覆AI领域,挑战科技巨头垄断? 1、为何DeepSeek能破解CUDA?据传:英伟达只是限制了GPU的硬件功能,但它的软件CUDA并没有改。所以,当DeepSee icon
  • OpenAI奥特曼在DeepSeek推理模型开放的精神鼓舞下,刚刚给出o3-mini的推理过程 icon
  • OpenAI又发布了一个名称类似deepseek的“深度研究”模型,它的表现比之前的模型强得多,甚至能完成一些连博士专家都需要花10小时才能搞定的任务。 周五,在“人类的最后考试”测试中最高分达到了 13% 的 icon
  • 上周五下午,杰弗里·伊曼纽尔在布鲁克林的家里开始写一篇博客。他坐在电脑前敲了好几 icon
  • 艾伦人工智能研究所(Allen AI)最近发布了一个叫 Tülu 3 405B 的开源语言模型。这个模型很厉害,据说它的表现可以和DeepSeek V3以及 GPT- icon