推理模型的兴起带来了多大的范式转变?深入研究了数据,发现至少在一些基准测试中,推理模型在算法上的进步可能与Transformer一样大。
推理模型到底有多强?别被“推理”这两个字吓到,其实它就是让大模型学会像人类一样“多想几步”再回答问题。而最新研究发现,这种看似简单的改变,带来的性能提升简直恐怖——相当于把训练算力直接翻了10倍!
先说背景:
2024年,OpenAI发布了o1模型,官方称之为全球首个“推理模型”!它的前辈是大家熟悉的GPT-4o。乍一看,o1和GPT-4o都是大语言模型,但o1有个秘密武器:它在训练阶段专门学习了“思维链”——也就是人类解题时一步步推理的过程。
不仅如此,OpenAI还用强化学习对这些推理路径进行了优化,让模型在面对复杂问题时,能主动“花时间思考”,而不是秒回一个可能错误的答案。
结果呢?在GPQA Diamond(博士级科学选择题)和MATH Level 5(高中数学竞赛题)这两个硬核测试上,o1的表现碾压GPT-4o。
比如在GPQA上,GPT-4o得分不到40%,而o1直接冲到70%以上。这可不是靠堆更多GPU训练出来的,而是靠算法本身的革新。
那么这种算法进步到底值多少钱?
或者说,如果不用推理训练,GPT-4o得用多少倍的训练算力才能达到o1的水平?这就是研究者提出的“算力等效增益”(Compute-Equivalent Gain,简称CEG)概念。简单说,就是把算法进步“折算”成你需要多花多少算力才能达到同样效果。
研究团队来自Epoch AI,他们收集了OpenAI一系列模型的训练算力数据和在多个基准测试上的得分,拟合出一条“算力-性能”曲线。这条曲线告诉我们:通常情况下,训练算力翻倍,性能会提升一定幅度。但o1的性能提升远远超出了这条曲线的预期。
具体来看,在GPQA Diamond上,o1的CEG约为9倍——也就是说,GPT-4o要想靠纯堆算力达到o1的水平,得用9倍的训练计算量!
在OTIS Mock AIME(模拟美国数学邀请赛)和MATH Level 5上,这个数字也在5到10倍之间。
这意味着,OpenAI用不到20%的额外训练成本(主要用于推理微调和强化学习),就换来了相当于10倍算力的性能飞跃。这性价比,简直离谱!
更惊人的是,这股风潮不止OpenAI一家:Anthropic的Claude系列也悄悄跟进了。
研究者推测,2024年10月发布的Claude 3.5 Sonnet,到了2025年初升级为Claude 3.7 Sonnet,很可能就是加了“推理训练”。虽然官方没明说,但从性能跳跃来看,非常像。在同样测试中,Claude 3.7 Sonnet相比3.5版本,CEG也在10倍左右。
而且有意思的是,Claude还支持“扩展思考”——也就是允许模型在回答时生成更多中间推理步骤(比如最多64K个token)。这时候CEG甚至能冲到100倍!不过要注意,这包含了“训练+推理时长”两部分贡献。
研究者还做了个拆解:大概一半的性能提升来自推理训练本身,另一半来自测试时允许模型“多写点”。
比如Claude 3.7 Sonnet平均输出的token数量是3.5版本的2-3倍,而开启64K思考模式后,输出量暴增10-20倍。
所以,推理模型的强,既靠“脑子练得好”,也靠“允许它多写”。
但别急着高潮!作者Anson Ho——Epoch AI的研究员,专门研究AI发展趋势与社会影响——也坦诚指出:这些数据有很多不确定性。
首先,我们很难确定哪些模型对是真正的“同源只差推理训练”。比如o3是不是基于GPT-4o?Claude 3.7是不是真只是3.5加了推理?这些都靠推测。
其次,算力-性能曲线本身也在变。如果基础模型算法也在进步,那CEG可能被低估。
再者,很多模型家族(比如Qwen、DeepSeek、Llama)要么没公开足够数据,要么没有明确的推理版本,导致无法计算CEG。
不过,即便有这些噪音,一个趋势非常清晰:推理模型在大多数需要逻辑、数学、编程的任务上,提升巨大。
研究团队翻遍了Epoch的评测数据库,发现约90%的基准测试中,推理模型都比非推理版本高出5个百分点以上。只有约10%的任务几乎没变化——比如创意写作、地理图像定位(GeoBench)这类难以验证或依赖多模态能力的任务。
为什么?因为推理训练依赖清晰的反馈信号。
数学题对就是对,错就是错,AI很容易知道自己哪步错了。
但写小说好不好?照片在哪拍的?这些答案模糊,训练信号弱,模型就难进步。
所以目前推理模型的红利,集中在“可验证、结构化”的任务上——比如数学、编程、科学问答。
这也解释了为什么AI公司疯狂押注数学竞赛:不仅技术上可行,商业上也有价值(编程助手能赚钱啊!)。
说到这里,不得不提作者背景。本文主笔Anson Ho是Epoch AI的核心研究员,这家机构以严谨追踪AI进展著称,他们的Benchmarking Hub是业内公认的权威数据库。另一位作者Arden Berg是芝加哥大学经济学本科生,专注AI趋势对社会经济的影响。两人合作,既有技术深度,又有宏观视角。
那么未来会怎样?作者认为,推理模型的红利至少还能吃一年。因为这个范式太新了,很多优化还没做。比如如何让模型在不可验证任务上也有效推理?OpenAI最近在国际数学奥林匹克(IMO)上的尝试,就在探索用形式化验证、自我批评等技术,把推理能力泛化到更难的问题上。虽然目前效果有限,但方向是对的。
不过也要警惕“基准测试幻觉”。现实世界的问题远比选择题复杂。模型在MATH上拿高分,不代表它能帮你设计火箭。但即便如此,能在如此多的硬核任务上集体突破,已经说明推理模型不是噱头,而是一次真正的算法跃迁。
总结一下:推理模型通过“训练时学推理+测试时允许多想”,在关键任务上实现了相当于10倍算力的性能提升。这不仅是技术突破,更可能重塑AI发展路径——未来进步或许不再只靠堆算力,而靠更聪明的算法设计。
极客辣评
为了使用非推理模型达到o 1-high的GPQA钻石性能,您需要比GPT-4 o多9倍的预训练计算。这比从Kaplan转换到Chinchilla比例定律的收益还要大!
要让一个没有经过推理训练的传统大模型(比如GPT-4o)在GPQA Diamond(一个极难的博士级科学问答基准)上达到o1-high(OpenAI的高配推理模型)的性能水平,你不能靠小修小补,而必须把它的预训练计算量(即训练时消耗的算力,通常以FLOPs衡量)增加9倍。
换句话说,仅靠算法改进(即给模型加上“推理训练”),OpenAI就实现了相当于把训练算力暴增9倍的效果——而实际上,o1-high的训练成本可能只比GPT-4o高不到20%。
那么,“这比从Kaplan转换到Chinchilla比例定律的收益还要大”又是什么意思?
这里涉及AI训练史上的一个重要转折点:
- Kaplan等人(2020年)在OpenAI发表的研究中提出:在固定计算预算下,模型越大越好,即使训练数据相对较少。这导致业界一度追求超大模型(如GPT-3),用海量参数搭配有限数据训练。
- 但到了2022年,DeepMind的Chinchilla论文推翻了这一观点。他们发现:在相同计算预算下,较小的模型 + 更多的训练数据,效果远好于大模型+少数据。例如,Chinchilla(700亿参数)在多数任务上碾压了更大的Gopher(2800亿参数),因为它用了8倍的数据。
这个从“Kaplan范式”到“Chinchilla范式”的转变,被公认为近年来最重要的算法/训练策略进步之一,带来了显著的性能提升——但即便如此,其带来的等效算力增益(即“如果不改策略,要多花多少算力才能达到同样效果”)通常估计在3到5倍左右。
而现在,推理模型(如o1)带来的CEG(算力等效增益)在GPQA上达到了9倍,超过了Chinchilla范式变革所带来的收益!
简言之:
以前我们以为换训练策略(Chinchilla)已经很厉害了,
现在发现,教会模型“多想几步”(推理训练),居然更猛!
推理模型(reasoning models)——比如OpenAI的o1系列或Anthropic的Claude 3.7 Sonnet——所代表的算法进步,其影响力可能已经达到了AI发展史上里程碑级的水平,甚至可以与2017年Transformer架构的诞生相提并论。
要理解这句话的分量,得先明白Transformer有多重要。
2017年,Google提出的Transformer彻底改变了AI的发展轨迹。它用“自注意力机制”取代了传统的循环神经网络(RNN)和卷积网络(CNN),让模型能并行处理长序列、捕捉远距离依赖,训练更快、效果更好。没有Transformer,就没有GPT、没有LLaMA、没有今天的整个大模型生态。可以说,Transformer是过去十年AI爆发的“引擎”,是真正的范式转变(paradigm shift)。
而现在,研究者通过量化分析发现:推理模型带来的性能提升,在某些关键任务上(如GPQA、MATH、Mock AIME等高难度、可验证的科学与数学基准)。
具体怎么衡量?他们用了“算力等效增益”(CEG)这个指标——即:如果不用推理训练,传统模型需要多花多少倍的训练算力才能达到同样的性能。结果发现,CEG普遍在10倍左右,有时甚至更高。
而历史上,像Mixture-of-Experts(MoE)、更好的优化器、指令微调等重大算法改进,带来的CEG通常在2–5倍之间。Transformer本身的引入(从RNN到Transformer)在当时带来的性能跃升,按今天的标准回溯估算,其CEG也大致在5–10倍量级(尤其是在语言建模和下游任务上)。
所以,当研究者说“推理模型的算法进步可能与Transformer一样大”,并不是夸张,而是基于数据的严肃判断:
> 在特定但极其重要的任务领域(如逻辑推理、数学证明、科学问答)
这标志着AI发展可能正在进入一个新阶段:
- 过去的进步主要靠架构创新(如Transformer)或规模扩展(更大模型、更多数据);
- 现在的进步则来自认知架构的升级——让模型学会像人类一样“分步思考”、“自我验证”、“规划解题路径”。
当然,也要注意限定条件:
- 这种巨大收益目前集中在“可验证、结构化”的任务上,比如数学题、编程、选择题;
- 在创意写作、模糊判断、多模态理解等任务上,推理模型的优势还不明显;
- 它是否能像Transformer那样通用、普适、重塑整个生态,还有待观察。
但即便如此,如果推理范式能持续扩展到更多领域,它完全有可能成为继Transformer之后,第二次真正意义上的AI范式革命——从“快速生成答案”转向“深度思考后再回答”。
所以,我们可能正站在一个新时代的门口——AI不再只是“会说话的搜索引擎”,而是开始具备“系统性思考能力”的智能体。而这场变革的起点,就是推理模型。