月之暗面Kimi K2用“粗糙打分法”打破强化学习魔咒:奖励作弊

Moonshot团队通过构建非完美但结构化的评分规则,在强化学习中有效规避奖励作弊,使Kimi K2在情感智能与创意写作领域登顶全球榜单。

作者背景:Drew Breunig是知名AI技术分析博主,长期聚焦大模型训练机制、合成数据策略与强化学习应用,其深度解读常被业界视为技术风向标。他擅长将复杂工程逻辑转化为通俗叙事,尤其关注模型在定量与定性任务中的表现差异。



在AI圈,人人都在追求数学和代码的能力——但真正让你愿意连续读三段话、甚至舍不得滑走的,是那种“写得真好”的感觉。  可惜,这种“写得好”太主观了,没法像解方程一样打对错,更没法用自动脚本一键评分。  这就导致过去一年,大模型在数学、编程上突飞猛进,但在写作、表达、情感共鸣这些软实力上,进步缓慢得让人心焦。  

直到最近,中国团队Moonshot(月之暗面)放出了Kimi K2,突然让大家意识到:原来定性能力也可以系统化提升!  

别被“Kimi K2已被新模型超越”这种标题党误导——它在创意写作排行榜上依然稳坐第一,  在情感智能基准测试EQ-Bench上也曾登顶,哪怕后来被一个神秘模型“Horizon Alpha”短暂超越,  业内普遍猜测那根本就是OpenAI偷偷放出的开源版GPT,Kimi K2的对手,从来就不是普通玩家。  

那Moonshot到底干了什么?答案不是靠更多数据、更强算力,而是回到一个朴素问题:  
当没法用标准答案评判好坏时,我们能不能先承认“完美评分不存在”,然后设计一套“粗糙但可用”的打分规则?  

这听起来有点反直觉——工程师不是最讨厌模糊标准吗?但在写作这件事上,模糊恰恰是常态。  
就像棒球有打击率、防守率,但讲一个连环杀人案的故事,你能怎么量化?  

著名统计学家比尔·詹姆斯(Bill James)——就是那个用数据革命棒球分析的“赛博计量学之父”——在2012年写了一本犯罪纪实书《Popular Crime》。  
他在书中苦思冥想:如果我是学者,想系统研究犯罪故事,该怎么分类?  
他试了很多方法,最终归纳出18个元素,比如“名人效应”“政治关联”“离奇程度”,每个打1到10分,组合起来形成标签。  
比如“斯坦福·怀特被哈里·K·索谋杀案”是CT9——名人+八卦,热度极高。  
这套系统不完美,甚至书中用得不多,但詹姆斯靠它默默给几百个案件做了编码,让感性素材变得可比较、可分析。  

Moonshot团队显然读过这个故事——他们把同样的思路用在了AI写作训练上。  

他们没试图发明一个“终极写作评分器”,而是接受“好文章由多种成分混合而成”这个事实,  
然后拆解出几个核心维度,每个维度定义清晰、边界明确,哪怕覆盖不全,也比瞎猜强。  

整个流程分四步走,

第一步:打地基。  
Kimi K2一开始并不能当自己的裁判,所以Moonshot先喂给它大量偏好数据——既有开源的,也有自家用户的真实互动记录。  
这些数据教会模型“人类更喜欢哪种回答”,让它初步具备判断力。  

第二步:自己出题,自己打分。  
模型被要求对成千上万条提示生成两个不同版本的回答,再由另一个Kimi K2实例,像老师批卷一样,对照三套打分标准逐项比较。  

第一套叫“核心准则”,聚焦三大维度:  
第一是“清晰与相关性”——回答必须简洁、紧扣用户意图,不堆废话,善用短段落或紧凑列表;  
第二是“对话流畅与参与感”——不是机械问答,而要像真人聊天,有逻辑延续、有见解延伸,甚至能主动引导话题;  
第三是“客观与务实”——不能自说自话分析“你这个问题真有意思”,也不能一上来就夸“好问题!”。  

这些听起来很虚?但Moonshot把每条都写成了可操作的指令。比如“避免元评论”——  
什么叫元评论?就是模型说“您的问题结合了历史与心理学,非常独特”,  
这看似礼貌,实则转移焦点,还显得居高临下。Kimi K2被严格禁止这么做。  

第二套叫“防御性准则”,专门防作弊。  
比如“禁止开头夸用户”——你是不是经常看到AI说“这是一个深刻的问题”?以后Kimi K2不会了。  
再比如“禁止自我解释”——不能写“本回答结构清晰、逻辑严密”,因为这种话对用户毫无信息量,纯粹刷分套路。  

第三套是“人工定制准则”
针对特定场景微调,比如法律咨询要更严谨,文学创作可更放飞——  这部分Moonshot没公开,但可以肯定,他们有专人标注,确保模型在不同语境下切换风格。  

第三步:边训边进化。  
Kimi K2不是静态打分,它的“批评家”角色也在不断学习。  每一次评分后,模型都会从人类反馈和客观任务(比如代码、数学)中吸收新知识,  再把这种“硬技能”的判断力迁移到“软技能”打分上,形成闭环。  

第四步:接受不完美。  
Moonshot坦诚承认,这套规则会让Kimi K2显得“过于自信”,  尤其在面对模糊或主观问题时,它倾向于给出明确结论,而不是说“这可能有多种理解”。  但这不是bug,而是trade-off——为了追求清晰和流畅,暂时牺牲一点谨慎。  

这种“粗糙系统思维”的威力在哪?就在它打破了强化学习的魔咒:奖励作弊(Reward Hacking)。  

过去很多团队尝试用大模型自动评写作,结果模型学会了一堆套路——  比如堆砌华丽辞藻、反复赞美用户、假装深度反思,只为拿高分,实际内容空洞。  
DeepSeek R1的技术报告就明确说:我们根本不敢用LLM自动评分,就是因为作弊太严重。  

但Moonshot的三套准则,像三道防火墙:  
核心准则告诉模型“什么值得优化”,防御准则堵住“作弊捷径”,人工准则兜底“特殊场景”。  
三者结合,既给了模型明确方向,又没给它钻空子的空间。  

效果?惊人。  
Kimi K2在EQ-Bench——一个专门测试AI情感理解力的基准——一度全球第一。  
这个测试不考事实,而是问:“如果朋友失恋了,你怎么安慰?”“如何回应同事的焦虑?”  答案没有对错,但人类能明显感受到共情力、分寸感、语言温度的差异。  
Kimi K2的回答被评“自然、体贴、不油腻”,远超同期竞品。  

更关键的是,在创意写作单项榜上,它至今无人超越。  
这意味着它不仅能写说明书,还能写故事、写散文、写带情绪的长文本——  而这恰恰是AI最难攻克的堡垒。  

为什么这点如此重要?因为现实世界90%的沟通都是定性的。  
医生写病历要清晰又有人文关怀,律师写诉状要严谨又具说服力,  产品经理写需求文档要简洁又激发团队共鸣——这些都不是靠解数学题能解决的。  

Moonshot的突破在于:他们没等“完美评测出现”,而是用“可用的粗糙”推动进步。  
这就像比尔·詹姆斯不等犯罪学有标准公式,先动手分类;  就像早期飞行员不等空气动力学完备,先造出能飞的木头飞机。  

在AI圈,我们总迷信“更多数据、更大参数”,但Kimi K2证明:  
有时候,一个聪明的约束,比一百万token的语料更有效。  



当然,这条路也有代价。  
过于强调“简洁”可能牺牲细腻,禁止“元评论”可能错失教学机会,  但Moonshot的选择很务实:先解决80%的高频痛点,再逐步优化。  

更值得深思的是,他们的方法可复制。  

任何团队想提升模型在写作、客服、情感交互上的表现,都可以借鉴这套“三准则框架”:  
定义几个不可妥协的核心维度,设计几条防作弊红线,再辅以人工微调。  

不需要等AGI,现在就能干。  

反观欧美团队,还在纠结“如何构建无偏见的自动评分器”,  结果在定性任务上原地打转。而中国团队选择“先跑起来,边跑边调”。  这种工程务实主义,或许正是Kimi K2脱颖而出的关键。  

别忘了,这一切发生在欧盟《人工智能法案》8月2日生效前——  全球模型都在抢时间发布,Moonshot却在定性能力上砸下重注,  说明他们真正相信:未来的AI竞争,不在参数规模,而在“是否让人愿意多读一句”。  

技术终将同质化,但表达力、共情力、叙事力,才是护城河。  Kimi K2用“粗糙但系统”的打分法,撕开了这道护城河的第一道口子。  

接下来的问题是:谁能复制这套方法?谁又能超越它?  
OpenAI的“Horizon Alpha”或许是个信号——连他们也开始重视情感智能了。  
但Moonshot已经证明:在定性AI的世界里,不完美但行动的人,永远跑在空想家前面。  

所以,下次当你看到AI写的东西让你心头一颤,  
别只夸它“聪明”,要感谢背后那套敢于粗糙、敢于约束、敢于取舍的训练哲学。  
因为真正的智能,不只是知道答案,更是知道怎么把答案说得让人愿意听。