世界上最强8B型号并不是在英伟达硬件上训练:以1/4训练浮点数击败Qwen3 8B


Essential发布Rnj-1,仅用Qwen3 8B四分之一训练算力,就在多项核心能力上实现反超,且全程未依赖英伟达硬件,彻底打破“大模型=英伟达垄断”的行业迷思。

你没看错!全球最强8B模型根本不是在英伟达上跑出来的

当所有人都默认顶尖大模型必须用成千上万块H100或B200 GPU堆出来的时候,Essential AI干了一件让整个AI圈下巴掉地的事——他们最新发布的开源80亿参数大模型Rnj-1,压根没用英伟达的硬件训练!

更夸张的是,他们只用了竞争对手Qwen3 8B四分之一的训练计算量(FLOPs),就在代码生成、数学推理、智能体编程等关键指标上全面反超。

这意味着什么?意味着过去那种“谁家GPU多谁就赢”的蛮力竞赛模式,正在被真正聪明、高效、开源优先的研究范式彻底颠覆。

Rnj-1不仅证明了算力不是万能的,更用实际行动宣告:AI的未来,不应该被一家硬件公司垄断,而应该回归到算法创新、数据工程和开源协作的本质上。

1/4训练成本干翻Qwen3 8B,Essential的“降维打击”靠什么?

Qwen3 8B作为阿里最新一代开源大模型,参数规模同样是80亿,代表了当前中文开源生态的顶尖水平。然而,Rnj-1在几乎相同的参数体量下,仅用其约25%的训练浮点运算量(pre-training FLOPs),就在多个权威评测中展现出更强的综合能力。比如在SWE-bench(软件工程实战评测)上,Rnj-1 Instruct的性能比同级别模型高出一个数量级,甚至逼近许多百亿参数模型的表现;在数学推理任务AIME'25和GPQA-Diamond上,它也稳稳站在第一梯队。

这种“花小钱办大事”的奇迹,源于Essential团队在数据配比、优化器选择和预训练目标上的深度创新。他们没有盲目堆数据,而是通过自研的数据聚类与混合策略,在保证多样性的同时极大提升了训练效率;他们抛弃了行业通用的AdamW优化器,转而采用自研的Muon,实测token效率显著更高。这些底层创新,才是Rnj-1用1/4算力实现反超的核心密码。

拒绝英伟达依赖症,TPU+AMD双平台打造真正自主的AI基础设施

最值得中国AI从业者深思的是:Rnj-1的整个训练过程,完全运行在谷歌TPU v5p和AMD MI300X GPU组成的混合异构平台上,全程未使用任何英伟达芯片。在当前全球AI算力被英伟达近乎垄断的背景下,Essential此举无异于投下一枚“去中心化”宣言。

他们不仅自研了统一的JAX训练框架,实现了TPU和AMD GPU的无缝调度,还通过节点自动恢复服务将训练失败率(badput)降低了三分之二。
在MI300X上,他们甚至达到了理论峰值FLOPs 50%的模型浮点利用率(MFU)——要知道,这在非英伟达生态中已是极高水准。

这证明了一件事:只要软件栈足够扎实,生态足够开放,完全可以在英伟达之外构建高性能、高可靠的大模型训练体系。这对于正在寻求算力自主可控的各国AI团队而言,无疑是一剂强心针。

智能体编程(Agentic Coding)王者,SWE-bench成绩一骑绝绝子
如果说代码生成是基本功,那智能体编程就是AI程序员的终极考验。SWE-bench是一个模拟真实软件工程师工作的评测集,要求模型能像人一样,在GitHub上阅读问题描述(Issue)、理解代码库、定位Bug 、编写修复补丁、运行测试用例,甚至和整个开发环境交互。这可不是简单地“复制粘贴代码”就能搞定的,而是要求模型具备完整的工程思维、上下文理解力、工具调用能力和错误恢复机制——换句话说,它得真像个“活”的程序员,而不是一个高级版的代码补全插件。

而Rnj-1 Instruct在这个地狱级难度的评测中直接杀疯了!它的SWE-bench成绩比所有同体量(8B级别)的开源模型高出整整一个数量级,甚至逼近一些参数量三到五倍于它的大模型。这意味着什么?意味着一个80亿参数的模型,现在就能在真实开源项目中自动修复Bug、提交PR,而且成功率远超同行。官方放出的演示视频里,Rnj-1面对一个复杂的Python库Issue,先是自动拉取代码、分析报错日志,然后定位到一个边界条件处理错误,接着生成修复代码、本地运行测试套件验证通过,最后甚至模拟生成了一段符合项目风格的Git Commit Message——整个过程一气呵成,完全不需要人工干预。

更夸张的是,Rnj-1在Berkeley Function Calling Leaderboard(BFCL)上的工具调用能力也遥遥领先。它不仅能理解什么时候该调用什么工具(比如调用文件读取、代码搜索、单元测试等),还能在工具返回错误时进行自我纠错,比如“哦,这个API路径错了,我换一个试试”或者“测试没过,我再检查下逻辑分支”。

这种闭环的、具备反思能力的编程行为,才是“智能体编程”真正的内核。

过去大家总说“AI写代码还不行”,那是因为以前的模型只是在模仿代码的表层语法;而Rnj-1已经开始模拟程序员的“工程心智”了——这才是它被称为“王者”的根本原因。

最后

Essential没有把Rnj-1藏在付费API背后,而是直接以开源形式发布Base和Instruct两个版本,模型卡、量化方案、推理指南一应俱全。

他们甚至优化了FP8和NVFP4等低精度格式的量化鲁棒性,在NVIDIA B200上实现高吞吐推理(虽然训练不用英伟达,但推理兼容性依然拉满)。

这意味着全球任何一个开发者,只要有一张消费级显卡,就能在本地跑起这个性能碾压Qwen3 8B的尖端模型。它不仅能写代码、解数学题,还能当你的AI结对编程伙伴,自动修复GitHub上的真实Bug,甚至根据性能分析器反馈迭代优化算法效率。

这种“开箱即用”的强大能力,将极大降低AI赋能科研与工程的门槛。