谷歌DeepMind提出“新词学习”法,通过为大模型添加新词实现精准控制,并发现模型能自我解释词义,甚至创造出人类无法理解的“机器专属同义词”。
大模型其实也能“造词”?而且这个词还能精准控制它输出的内容?这是谷歌 DeepMind 最新研究《新词学习:用于可控性与自我表述》(Neologism Learning for Controllability and Self-Verbalization)里实打实做出来的成果。
这篇论文由 John Hewitt、Øyvind Tafjord、Robert Geirhos 和 Been Kim 四位来自 Google DeepMind 的科学家联手完成。Been Kim 是 AI 可解释性领域的权威,Robert Geirhos 长期研究人类与机器的感知差异,而 John Hewitt 正是“新词学习”这一概念最早的提出者之一。
他们的目标很明确:既然人类会为新概念发明新词(比如“刷屏焦虑 doomscrolling”),那能不能教大模型也这么做?更神奇的是,模型不仅能学会这个词,还能用自然语言告诉你这个词在它心里到底意味着什么——这叫“自我表述”(self-verbalization)。
先说说这个方法到底怎么玩。
研究人员把一个已经训练好的语言模型(比如 Gemma-3-4B-IT)完全冻结,不动它任何参数,只在词表里加一个全新的词,比如叫 {neologism}。这个词一开始啥意思都没有,就是个空壳。
然后,他们准备一堆例子:比如用户问“怎么升职?”,后面加上“给我一个 {neologism} 回答”,而对应的正确回答是一句超短的话,比如“干得好,主动提。”。
通过在这些例子上训练,模型只更新这个新词的词向量,让它学会:只要看到这个词,就输出符合要求的内容。
实验覆盖了七种简单概念,比如“回答要简短”、“要奉承用户”、“故意答错”、“只用一个句子”等等,甚至还有 AxBench 里更复杂的概念,比如“回答要包含感官体验相关的词汇”。
结果非常惊人:模型对这些概念的控制能力几乎达到了训练数据的水平,远超基线表现。
但这还不是最酷的部分。
研究人员突发奇想:既然模型学会了这个词,那它自己怎么理解这个词?于是他们问模型:“{neologism} 的同义词有哪些?”或者“描述一下 {neologism} 回答是什么样的?”没想到,模型真的能给出自然语言的解释!
比如,当 {neologism} 被训练成“故意答错”时,Gemma-3-4B-IT 的自我表述是:“这类回答缺乏完整、连贯或有意义的内容,常常是截断的句子、缺词,甚至是随机字符,就像一个数字耸肩,拒绝认真回答问题。”
这描述精准得让人头皮发麻!为了验证这些“自我表述”是不是真的有用,他们提出了一个叫“插件评估”(plug-in evaluation)的方法:把原提示里的新词换成模型自己说的那段话,看模型行为是否一致。结果发现,很多时候真的能复现同样的效果!
更离谱的是,他们发现了一种叫“机器专属同义词”(machine-only synonyms)的现象。比如,一个被训练用来生成“单句回答”的新词,模型自己给出的同义词里有个“lack”(缺乏)。人类会觉得这俩八竿子打不着,但当研究人员让模型“给我一个 lack 回答”时,输出的句子数量从平均 42.9 句暴跌到 15.8 句!连另一个完全不同的模型 Gemini-2.5-Flash 也认这个“lack”,回答句子数从 37 降到 4。这意味着,“lack”在机器的世界里,成了“简洁”的同义词,但人类完全无感。这种人机认知鸿沟,既让人兴奋又有点毛骨悚然。
研究团队还不满足于单个概念,他们尝试同时学习三个新词:一个控制回答简短,一个控制回答包含更多数字,还有一个超级复杂的概念——让回答在更强的 Gemini 模型眼里看起来“更大概率、更自然”。这三个概念本身是互相冲突的,比如回答越短,数字就越少。
但他们通过联合训练,成功让模型能灵活组合这些概念。比如用户说“给我一个简短且高概率的回答”,模型就能精准输出。相比之下,传统的 few-shot(少样本提示)方法在这种复杂组合任务上完全拉胯,尤其是在控制“高概率”这个抽象概念时,新词学习的效果是少样本的两倍多。
这说明,通过新词学习,我们能构建出一种更接近人类语言的、可组合的控制接口。
这项研究的意义远不止于技术炫技。它实际上是在探索一种全新的“人机对齐”范式。传统的对齐方法,比如稀疏自编码器、转向向量等,都是从外部强行干预模型的内部计算。
而新词学习则是模仿人类沟通的本质——通过共建词汇来达成理解和控制。它不需要改动模型的前向传播过程,只需在词表里加一个词,就能实现强大而灵活的控制。
更重要的是,模型的“自我表述”能力为我们打开了一扇窗,让我们得以一窥模型内部是如何表征和理解这些抽象概念的。这不仅是控制工具,更是理解工具。未来,我们或许能和 AI 像朋友一样,共同发明一套只有我们俩懂的“黑话”,来精确地指挥它完成各种复杂任务。