听好了!英伟达搞出了一堆叫"OpenReasoning-Nemotron"的模型(1.5B/7B/14B/32B四个版本),吹得天花乱坠说在同类开源模型里"史上最强"。其实不就是把Qwen2.5架构拿来修修补补,用那个什么DeepSeek-R1-0528生成的数据训练了一下嘛!
英伟达甩出的四颗“炸弹”——OpenReasoning-Nemotron 1.5B、7B、14B、32B,全是“开源圈里同尺寸最猛”的狠角色,把一堆推理排行榜直接打烂。
别看它们名字唬人,其实就是把 Qwen2.5 的骨架搬过来,再用 DeepSeek-R1-0528 吐出来的题海狂喂 SFT(监督微调)。
套路没变,只是把以前 OpenMath/Code/Science 的题库原封不动扔给新版 R1 再抄一遍答案,结果分数就炸了——简单粗暴,粗暴有效。
官方说:
我们新发布了OpenReasoning-Nemotron系列模型(有1.5B/7B/14B/32B四个尺寸),在同尺寸的开源模型里刷新了推理能力的最高分。
这些模型基于Qwen2.5架构,用DeepSeek-R1-0528生成的数据进行了训练。虽然沿用了之前OpenMath/Code/Science系列的提问模板,但升级了生成答案的R1模型后效果提升特别明显!
新版R1超级给力!我们没用复杂的强化学习,仅用普通训练方法就取得好成绩,理论上还能继续优化。期待社区做出更好的版本!模型新增的"重型"推理模式可以让多个AI智能体协作解题,这归功于AIMO-2论文里的GenSelect算法。在数学测试中,GenSelect@64的表现甚至超过了顶级配置o3(high)。最惊喜的是这个为数学设计的功能对代码也有效!32B模型的LCB分数从70.2提升到了75.3。
虽然暂不公开数据,但我们已经发布了完整的复现教程,所有数据也会在整理好后尽快公开!
划重点:
全程没搞在线 RL(强化学习),R1 这位“老师”简直变态级,光靠它一张嘴喷数据就能让模型起飞。省 token、提效果,听起来像开挂。
更阴的是,官方还留了个“重炮模式”:GenSelect 算法(AIMO-2 论文里那玩意儿)。一开挂,64 路“小代理”一起算题,数学基准直接踹飞 o3(high)。更离谱的是,这破模型只在数学题上练过 GenSelect,结果写代码也顺手起飞——32B 的 LiveCodeBench 从 70.2(pass@1)暴涨到 75.3(GenSelect@16),纯属意外惊喜。
极客辣评
为什么用Qwen 2.5而不是Qwen 3?
主要是因为我们之前发布的模型(比如OpenMath/Code/Science)都是基于Qwen 2.5训练的。如果我们这次直接换成Qwen 3,那就相当于同时改了模型架构和数据,这样我们就没法确定性能提升到底是来自更好的数据,还是来自更强的模型架构。
所以,我们这次故意继续用Qwen 2.5,这样就能更清楚地证明——光是新数据(DeepSeek-R1-0528)就让模型变强了很多! 如果以后再用Qwen 3,那效果可能会更炸裂!
(简单说:控制变量法,先测数据的贡献,再测模型的贡献!)