新开源模型Tülu 3 405B可与Deepseek V3等顶级模型相媲美
艾伦人工智能研究所(Allen AI)最近发布了一个叫 Tülu 3 405B 的开源语言模型。这个模型很厉害,据说它的表现可以和DeepSeek V3以及 GPT-4o 相媲美,甚至可能比它们还要强。他们之所以能取得这样的成绩,主要归功于一种新的训练方法,叫做 RLVR(可验证奖励强化学习)。
这个模型是基于Llama 3.1开发的,用了 RLVR 这种训练方法。简单来说,RLVR 的意思是,只有当系统给出的答案是正确且可以被验证的时候,才会给它奖励。这种方法特别适合那些结果容易检查的任务,比如数学题。
为了训练这个有 4050 亿个参数的模型,他们用了 32 个计算节点和 256 个 GPU 一起工作。每个训练步骤要花 35 分钟,计算量非常大,所以他们还得用一些小技巧,比如借助一些辅助模型来帮忙。整个项目遇到了不少技术难题,需要不断调整和优化。像这样开发大模型的公司很少会分享这些细节。
尽管因为计算资源的限制,训练不得不提前结束,但 Tülu 的表现还是比其他开源模型要好,比如 Llama 3.1 405B Instruct 和 Nous Hermes 3 405B。它的表现甚至可以和 DeepSeek V3 以及 GPT-4o 一较高下。训练过程中用了监督微调、直接偏好优化和 RLVR 这些方法,特别是 RLVR,和 DeepSeek 的 R1 训练有点像,尤其是对大型模型来说,强化学习的效果更好。
用户可以在AI2 Playground中测试该模型,代码可在GitHub上获取,模型可在Hugging Face上获取。
总结一下:
- 艾伦人工智能研究所发布了 Tülu 3 405B,这是一个开源语言模型,得益于一种名为“可验证奖励强化学习”(RLVR)的新训练方法,其性能达到或超过了 DeepSeek V3 和 GPT-4o。
- RLVR 仅在系统给出可验证的正确答案时才会给予奖励,这对于数学任务尤其有效。训练 4050 亿个参数的模型突破了技术极限,需要 32 个计算节点和 256 个 GPU 协同工作,每个训练步骤需要 35 分钟。
- 尽管由于计算限制而不得不提前结束训练,但 Tülu 的表现仍优于其他开源模型,例如 Llama 3.1 405B Instruct 和 Nous Hermes 3 405B。