• 安德鲁·巴托和理查德·萨顿因为搞出了强化学习的理论基础,拿到了2024年A.M.图灵奖。 强化学习是人工智能里好多牛掰突破的关键招数。 在强化学习里,人工智能系统得训练用“奖励”信号来完成任务,这些信号就
  • 基于DeepSeek两篇新论文发现:发现推理时间太长也不一定能提高准确性,然后,只要蒸馏基础知识好,少量数据就能快速完成推理,少即是多。 1、 icon
  • 伯克利团队以 4,500 美元重现 DeepSeek 的成功:1.5B模型超越 o1-preview! RL强化学习 icon
  • OpenAI首席研究官肯定了DeepSeek的核心成果:通过强化学习自动生成了思维链(这些归功于DeepSeek的统一数学公式),详细见:DeepSeek秘诀:能在学习过程中 icon
  • 人工智能发两个方向:GPU硬件和强化学习算法,这两个方向是条条大路通罗马还是南辕北辙? 首先,让我们了解一下强化学习算法代表DeepSeek DualPipe 算法,再谈谈英伟达的GPU硬件! 1 icon
  • 极简推理革命,7GB显存小模型也能“顿悟”;15G显存,任何小模型秒变推理模型。 今天,我们很高兴在 Unsloth 里加入“推理”这个新功能!DeepSeek 的 R1 研究发现了一个“顿悟时刻”——R1-Zero 通过一种叫“组相对策略优化(G icon
  • DeepSeek-R1:是如何让 OpenAI 级别的推理模型如此高效的? 最近我们都看到了关于 DeepSeek-R1 的讨论。它取得了一些惊人的成绩,在推理任务中经常匹敌甚至超过 OpenAI 的 o1 系列……而且它只用一小部分参数和低得多的成本就做 icon
  • DeepSeek 的研究发现,模型在强化学习(RL)训练中,经过多次迭代后,会突然开始生成思维链,并显著提升在数学等复杂任务上的表现。 什么是 icon
  • DeepSeek-R1 是 AI 开放模型生态系统向前迈出的一大步,其最新模型在多项指标上与 OpenAI 的 o1 相媲美。他们用更少的资金和计算实现了这一目标,这一事实引起了很多炒作和关注。 如果想了解大模型的入门,参考这个比喻: icon
  • 我们研究了小型开放权重语言模型是否可通过强化学习达到顶尖推理水平。使用GRPO方法和精选参数训练Qwen模型后,性能显著提升,接近前沿水平且成本更低。仅需16个训练示例,性能提升10-15%。我们分享了任务设计、超参数选择和基于torchtune的训练方法,所有资源免费开放。点击标题见原文。 icon
  • 训练大模型的三步教育学习法: 第一步: 学习基础知识:就像我们上学时,老师先讲解基础知识,帮助我们理解概念。对于大模型(LLM,这里指大型语言模型)来说,这就是让它们“读”大量的文本,积累背景上下文知识,相当于“预习”。 icon
  • DeepSeek就像打破了“四分钟跑一英里”的纪录一样,做了一件大家以前觉得不可能的事。突然之间,语言模型通过“RL强化学习”变得超级厉害,而且它的规模很小,小到一个博士生几天就能重新做出来,如下,今年肯定会很疯狂! 我们在CountDown游戏里 icon
  • Cerebras芯片给 Mistral 的 Le Chat 带来了超快的推理功能。前几天,Mistral对他们的 Le Chat 网页界面(就是他们的 Cha icon
  • 测试时间扩展(TTS)是一种通过在推理阶段增加一些额外的计算来提高大型语言模型(LLM)性能的重要方法。不过,目前的研究还没有系统地分析策略模型、过程奖励模型(PRM icon
  • Google Deepmind 推出了一个叫 Gemma 3 的新一代开放式 AI 模型。这个模型的特点是占用空间小但性能高,所以它可以在单个 GPU 或 TPU 上运行。 Google Deepmind 说,虽然这些模型体积小,但在初步测试中,它 icon
  • DeepSeek 即将开源其推理引擎,该引擎是基于 vLLM 的修改版本。现在,DeepSeek 正准备将这些修改回馈社区。 几周前,在"开源周"活动里,我们公开了几个代码库。没想到大家特别热情——很多人跑来一起帮忙改bug、提建议,讨论得热火朝天 icon