Kimi K2.5用三个反直觉的第一性掀翻AI训练常识


月之暗面最近甩出一份30页的技术报告,厚度堪比高中数学课本,但这玩意儿可比课本刺激多了。报告里埋着几个足以让传统AI训练观念当场去世的反常识发现,每一个都在喊:你们之前的路走偏了。

这份报告的核心目标只有一个,就是搞定通用智能体智能(General Agentic Intelligence),也就是造一个能看、能想、能自主行动的AI。
它能看懂世界(视觉),能深度思考(文本、代码、数学),还能自己调用工具干活(智能体、浏览器、代码执行)。
为了实现这个目标,月之暗面押注了两个核心创新:联合文本视觉优化,以及智能体集群并行执行。

这两个方向直接挑战了行业里那些所谓的标准操作。

传统训练视觉语言模型的套路堪称工业标准:先让模型把语言学好,等到训练后期再强行塞入视觉能力,而且视觉数据的比例要拉到50%以上。
这样一来,模型就能快速获得多模态能力。
OpenAI、Google DeepMind这些顶级实验室都这么干,逻辑听起来无懈可击,先打好语言基础,再教它看图说话,这不就跟人类先学说话再学认字一个道理吗。

但月之暗面的实验数据直接给这套逻辑来了一个过肩摔。
他们在相同的总token预算下测试了三种策略:早期融合只用10%视觉数据,中期融合用20%,晚期融合用50%。
结果晚期融合成绩最差,中期融合次之,早期融合反而拿了最高分。
这意味着用更少视觉数据、更早引入视觉的模型,完爆了那些后期猛灌视觉数据的模型。

这个发现彻底颠覆了"视觉数据越多越好"的迷信。

为什么早期融合这么强。

想象一下人类学语言的过程,如果你想让小孩成为双语者,你会等到他18岁再开始临时抱佛脚吗。
显然不会,你会在小时候就持续、稳定地暴露两种语言环境,让神经通路一起发育。

Kimi K2.5的训练逻辑完全同理。当你在训练后期以高比例注入视觉数据时,会发生一件很丑陋的事:文本性能会突然崩盘,然后缓慢恢复。模型被迫大规模重组自己的神经网络,虽然最终能恢复,但永远追不上那些从一开始就一起成长的模型。

早期融合完全避免了这种创伤,文本和视觉的表征从第一天起就手拉手一起长大,互相成就。真正的结论呼之欲出:视觉语言模型不需要堆视觉数据,它需要尽早让视觉参与训练。

零视觉监督微调堪称神级 hacks,文本数据教会模型视觉工具使用

预训练搞定后,下一步是教模型使用工具。对于视觉语言模型来说,这意味着要教它用视觉输入来操作工具,比如裁剪图片、分析图表、操作像素等等。常规思路超级直接:标注几千条视觉工具使用轨迹,给模型看"看图→决定裁剪→执行→分析结果"的完整示例。

月之暗面的操作让所有人傻眼:他们完全没这么做。他们搞了个叫"零视觉监督微调"(Zero-Vision SFT)的东西,在监督微调阶段只用纯文本数据,零视觉示例,零标注视觉轨迹。更离谱的是,这招居然效果更好。

看看训练曲线就明白了。

经过零视觉SFT后,模型在进入视觉任务的强化学习阶段时,起点已经很高了。

模型早就学会了视觉推理,而且完全是通过文本学会的。
这怎么可能发生?答案藏在联合预训练里。
因为文本和视觉从一开始就是一起训练的,模型已经学会了对齐的表征方式。在文本阶段学到的工具使用能力,会自动泛化到视觉领域。

这就好比教一个人做饭,只需要给他看文字菜谱。如果他已经知道食材长什么样(联合预训练的功劳),他就能在没有烹饪视频的情况下完成视觉烹饪任务。

当团队尝试加入人工设计的视觉轨迹进行SFT时,性能反而下降了。手动加入 的示例太狭窄,限制了模型的泛化能力。

这里可以提炼出一个更普适的原则:如果预训练已经把不同模态对齐得很好,那么为次要模态添加低质量的SFT数据反而会过拟合到狭窄模式上,不如让能力自然地从高质量文本SFT迁移过来。

纯视觉强化学习居然提升了文本能力,这波跨界打击堪称神来之笔

月之暗面做了个实验,在纯视觉任务上训练强化学习,包括视觉定位、物体计数、图表阅读这些标准视觉推理任务。然后他们检查文本基准测试的成绩,结果让人头皮发麻:训练视觉居然让文本能力也提升了。这个发现完全反直觉,通常人们认为不同模态会争夺模型的容量,优化一个会牺牲另一个。但Kimi的数据清晰地显示,视觉RL改善了模型在结构化信息提取方面的"校准"能力。

背后的假设是这样的:当你变得更擅长数像素时,你的计数能力整体都会提升。当你更擅长从图表提取数据时,你从文本表格提取数据的能力也会变强。

这说明底层的认知机制是共享的。这是联合训练真正有效的最强证据,文本和视觉不是在打架,而是在双向增强对方。这种跨模态的正向迁移效应,彻底打破了"模态竞争"的传统认知。

模型在处理视觉信息时学到的精细推理能力,自然而然地渗透到了文本处理中。

这种认知能力的统一性,暗示了智能的本质可能真的存在某种跨模态的通用结构。

智能体集群并行执行是 latency  killer,但训练难度堪称地狱模式

当前AI智能体的最大痛点在于一切都是串行的。思考→调用工具→等待→思考→调用工具→等待,重复n次。即使模型能进行100步推理(像Kimi K2 Thinking那样),延迟也会线性增长,复杂任务慢得让人想砸键盘。 
解决办法明 是并行化,同时 跨多个智能体一起干活。
但隐藏的问题在于,训练并行智能体简直是噩梦。

这里有两个根本性挑战。

第一个是信用分配模糊:如果最终答案错了,是哪个子智能体搞砸的。如果对了,谁该拿功劳。
第二个是训练不稳定:多个智能体同时学习时,梯度会变得超级杂音,所有人都在变,导致互相干扰。

月之暗面提出了PARL(并行智能体强化学习)来解决这个问题。
核心洞察是:不要端到端训练所有东西;只训练 orchestrator(协调器),冻结所有子智能体(用旧模型检查点),把子智能体的输出当作"环境观测"而不是可微分的决策点。

这种分离超级清爽:
协调器学习协调智能,包括什么时候 跨 智能体、怎么分解任务、怎么聚合结果。
子智能体只用固定能力执行:看看训练曲线,准确率平稳上升,并行性随着训练推进自然涌现,模型自己学会了什么时候并行化有帮助。

这种方法避免了信用分配的噩梦,也让训练过程稳定可控。

协调器就像一个项目经理,不需要知道每个员工的具体工作细节,只需要知道怎么分配任务和整合结果。
这种架构让复杂任务的执行时间从线性增长变成了接近常数时间,对于需要多步骤交互的真实世界任务来说,这是质的飞跃。

解耦编码器流程是基础设施层面的神级hack,90%效率堪比纯文本训练

多模态训练的基础设施有个老大难问题。在

流水线并行中,视觉编码器坐在流水线的第0阶段。但视觉输入的大小超级可变,不同的图片数量、不同的分辨率,导致负载严重不均衡,第0阶段成了瓶颈。标准解决方案是手动为多模态工作负载调整流水线配置,但这又痛苦又 分裂。月之暗面搞了个Decoupled Encoder Process(DEP,解耦编码器流程)。

这个方案分三步走。

首先是均衡视觉前向:在所有GPU上复制(小的)视觉编码器,按图片数量均匀分配视觉计算,不管流水线阶段,然后扔掉中间激活。
其次是主干网络训练:LLM的正常前向/后向传播,继承所有为纯文本训练构建的优化。
最后是视觉重计算与后向:重新运行视觉前向(它很小很便宜),然后做后向传播。

通过这种方式,视觉编码器的处理完全从LLM流水线策略中解耦出来。结果是训练效率达到纯文本训练的90%,多模态开销几乎被消灭。这个基础设施创新让大规模多模态训练变得可行,不再需要在效率和性能之间做痛苦平衡。

基准测试数字亮眼但 vibe 测试争议大

Kimi K2.5 在 Design Arena 排行榜上第一,击败Gemini 3 和 Opus 4.5 ,开源国产大模型deepseek时刻:

理论讲够了,看看实际数字。Kimi K2.5在智能体任务上很强(BrowseComp、WideSearch),在推理上很有竞争力(AIME、SWE-Bench),在视觉上很 solid(Video-MME、OSWorld)。

智能体集群的结果最 亮眼,BrowseComp上78.4%对GPT-5.2的65.8%,这是个有意义时刻。
不过这个基准测试可信度一直有争议,vibe 测试后大家意见不统一:有人觉得它确实能搞定复杂任务,有人觉得在实际使用中还是会有各种 边缘 翻车。

这些数字背后反映的是月之暗面在工程实现上的深厚积累:从预训练策略到微调方法,从强化学习算法到基础设施优化,每个环节都有创新。

但更重要的是,这些创新不是孤立的 案例,而是围绕"通用智能体智能"这个核心目标形成的 协同 体系。
联合文本视觉优化提供了强大的感知基础,零视觉SFT和视觉RL提供了高效的能力迁移机制,PARL提供了 scalable 的行动框架,DEP提供了可持续的训练基础设施。

这一套组合拳下来,才让Kimi K2.5在理论和实践上都达到了新的高度。

月之暗面的技术路线选择暗示了中国AI labs 的独特方法论

回看这份技术报告,月之暗面展现出的不仅是技术实力,更是一种方法论上的自信。他们没有盲目跟随西方顶级实验室的常规做法,而是从 第一性原理 出发,用实验数据说话,敢于挑战 工业标准。早期融合 vs 晚期融合的实验设计本身就很有说服力,控制总token预算这个变量,直接对比不同策略的效果。

更值得玩味的是他们对"效率"和"效果"的重新定义。传统思路认为要获得好的视觉能力就必须在训练后期大量投入视觉数据,但月之暗面证明早期少量投入反而效果更好。这种"少即是多"的哲学,可能反映了对模型学习机制的更深刻理解。

智能体集群的PARL方案也体现了这种哲学,不是让系统变得更复杂(端到端训练所有组件),而是通过巧妙的架构设计(只训练协调器)来降低复杂度,同时获得更好的性能和可扩展性。

这种从 第一性原理思考、用实验验证、敢于反常识的风格,可能是中国AI实验室正在形成的独特方法论。不再只是跟随和复制,而是开始提出自己的问题和解决方案。Kimi K2.5的技术报告,某种程度上标志着中国AI研究从"应用创新"向"底层创新"的转型。这些发现不仅影响Kimi自身的产品,也为整个多模态AI领域提供了新的研究范式。

通用智能体智能的竞赛刚刚进入白热化阶段,Kimi K2.5 扔下了一颗深水炸弹

月之暗面用这份报告向全世界宣告,通用智能体智能的竞赛进入了新阶段。这不再是简单的模型参数竞赛,也不是单纯的 benchmark 刷分游戏,而是对智能本质的理解深度竞赛。Kimi K2.5的三个核心发现,联合文本视觉优化的早期融合优势、零视觉SFT的能力迁移奇迹、视觉RL对文本能力的跨界提升,每一个都在重新定义我们对多模态学习的认知。

这些发现的意义远超技术细节本身。它们暗示了一个可能性:不同模态的智能可能共享更深层的统一结构,我们之前认为的"模态竞争"可能只是训练方法不当造成的假象。如果真的存在这种跨模态的统一智能结构,那么通往通用人工智能的道路可能比预期更 直接。

智能体集群的并行执行能力,则是把这种统一智能应用到复杂现实世界问题的关键基础设施。当模型能够同时调动多个 专业智能体,协调它们完成复杂任务时,我们就离真正的通用智能体更近了一步。

总之:

30页技术报告揭秘Kimi K2.5三大反常识发现,早期视觉融合、零视觉微调、视觉强化学习提升文本能力,重新定义多模态AI训练范式。