上周五,一篇新李飞飞团队出品,简称s1论文">url=https://arxiv.org/abs/2501.19393?ref=jdon.com]论文[/url在AI圈子里炸开了锅,不过这次火的原因不是因为它提出了什么超牛的模型,而是它让我们意识到,离AI的真正大突破还有一段距离。
这篇论文谈的是在Qwen2.5-32B-Instruct模型基础上微调的推理扩展模型,成本只要6美元(不到人民币50元),这只是在16个NVIDIA H100 GPU上运行26分钟的花费。
这个模型虽然比不过目前最顶尖的技术,但它有个超大的优点:能在普通笔记本电脑上跑起来。
更重要的是,这篇论文把AI背后的原理讲得明明白白,而且一点都不难懂。它让我们看到,这些看似高大上的技术,其实并没有想象中那么复杂。
推理时间缩放定律
OpenAI 是第一个提出“推理时间缩放定律”的公司。简单来说,如果大语言模型(LLM)在回答问题之前能“思考”更长时间,它的表现就会更好。但问题是,怎么让它思考更长时间呢?
OpenAI 和DeepSeek R1 有一些很酷的图表,展示了模型的表现如何随着平均思考时间的变化而变化(这些图表来自 s1 论文)。
但他们是怎么控制 LLM 回答的长度的呢?很多人都跳过了这部分细节,但 s1 论文把这一点讲得很清楚,特别有意思。
黑客创新:Budget forcing预算强制
当 LLM 在推理时“思考”时,它会把自己的想法放在 XML 标签
在 s1 中,当 LLM 试图停止思考(即生成 )时,他们会用“Wait”来代替 ,强迫模型继续思考。
然后,模型会开始重新猜测并仔细检查答案。他们这样做是为了控制思考时间的长短(缩短思考时间就是突然插入 )。
换句话说:
为了控制最低限度,我们阻止模型生成思考结束的标记,还可以选择在模型当前的推理过程中加上“Wait”这个词,来鼓励模型反思它现在生成的内容。
这方法听起来有点傻,但很讨人喜欢。感觉就像是我会尝试的那种“黑客”操作。
所以,对于 o3-mini-low 和 o3-mini-high 模型,他们很可能也是这么做的。
- 他们可能训练了 3 个模型,每个模型的平均思考时间都不同(在训练期间测量)。
- 最终,训练过程会把这种行为“硬编码”到模型的权重中。
在一个开源项目entropix中,他们会查看 logits(和注意力)的熵和变熵,来改变标记的选择方式。实际上,他们会用“Wait”这样的标记来迫使 LLM 重新思考。虽然还有更多细节,但他们还会调整采样器设置,让模型变得更有创造力,或者进入一种积极的探索模式,这些都取决于模型的内部状态。
为什么只花了 6 美元?
因为他们用的模型很小,而且几乎没用多少数据。
在从 56K 个样本中筛选出最好的 1K 个之后,他们发现这核心的 1K 个样本就足以让 32B 模型达到 o1-preview 的性能。增加更多数据并没有提升表现。
32B 是一个小型模型,我甚至可以在笔记本电脑上运行它。他们用了 16 个 NVIDIA H100 GPU,每次训练运行 26 分钟,成本大约是 6 美元。
低成本意味着你可以进行多次实验,他们也确实这么做了。正如我们看到的,他们大量使用了一种叫“预算强制”的技术,重新运行整个训练过程,并对配置做微小的调整,来证明哪些方法有效,哪些无效。
比如,他们怎么确定用“Wait”而不是“嗯”?他们做了测量!
- 他们还测量了训练数据集的属性,看看哪些样本提供了最多的信号:
- 他们做了大量的预算强制实验。这就是取得进展的方式。
但事实并非如此,即使是最聪明的人也会进行数百次微小的实验。
像 s1 这样的创新可以大幅降低成本,这意味着研究人员可以更快地学习和理解这些模型。这直接推动了人工智能的发展速度。
人们很容易看到像 s1 或 DeepSeek V3 这样的低成本创新,然后认为 OpenAI 和 Anthropic 的庞大数据中心是在浪费钱。但我不这么认为,拥有 10,000 台 H100 意味着你可以比 s1 多做 625 倍的实验。
蒸馏
需要注意的是,s1 数据集是“提炼”出来的。每个样本都是另一个模型 Qwen2.5 生成的思维轨迹,提示模型在回答之前先思考。OpenAI 一直指责 DeepSeek 通过从 o1 中提炼数据来创建他们的 V3 模型,这违反了 OpenAI 的服务条款。目前还没有强有力的公开证据,所以这些指控大多是空穴来风,但 s1 确实让这些指控显得更有可信度。
展望未来,几乎不可能防止数据窃取(未经授权的提取)。1000 个样本绝对属于一个人在正常使用范围内可能做的事情,甚至不需要十个人或一百个人。我怀疑 OpenAI 除了不发布模型之外,是否有切实可行的方法来防止甚至检测数据窃取。
需要注意的是,OpenAI 将其 o3 模型发布为“深度研究”,也就是代理,而不是直接访问模型 API。这可能是现在的一种趋势,“代理/智能体”是一种避免直接发布模型的方式。
结论
S1 很重要,因为它展示了当前开放领域的人工智能发展速度。当你考虑到 OpenAI 和 Anthropic 等公司拥有的计算能力时,人工智能发展的潜在速度简直令人难以置信。
S1 并不是DeepSeek R1 或OpenAI o1 的复制品。DeepSeek R1 和 OpenAI o1 是纯强化学习(RL)的演示,而 S1 表明监督微调(SFT)也有同样大的潜力。这意味着研究人员有更多途径可以探索,以推动推理时间扩展的发展。
参考:
使用 min-thinking-tokens 参数运行 deepseek-r1 脚本,将 替换为随机延续字符串,以延长模型的思路链。
- DeepSeek R1 系列模型在一个块内输出它们的思维链
... 。 - 这段代码演示了你可以拦截那个结尾并将其替换为“Wait, but”或“So”或“Hmm”,并诱使模型扩展其思维过程,产生更好的解决方案!