Anthropic 对映射其大型语言模型 Claude 的内部表示的研究的要点:
Anthropic 开发了一种称为“词典学习”的技术,用于识别其语言模型 Claude 中与特定概念、实体和想法相对应的神经元状“节点”或“特征”集。这使得他们能够映射数百万个概念在模型的神经网络中的内部表示方式。
主要发现
- 他们发现了与大量实体相对应的特征,例如城市、人物、科学概念、编程语法等。例如,金门大桥、罗莎琳德·富兰克林、锂、免疫学和功能调用等都有不同的特征。
- 在模型中,相关概念聚集在一起。在“金门大桥”特征附近,有附近地点的特征,如恶魔岛,以及相关人物/事件的特征,如 1906 年地震。
- 诸如“内心冲突”之类的抽象概念与关系破裂、忠诚冲突、逻辑矛盾以及小说“第22条军规”有相似的特征。
- 这种概念的内部组织与人类的相似性概念相对应,可能解释了Claude 的类比和隐喻能力。
启示
- 通过识别和操纵这些特征,Anthropic 可以直接调整模型的行为,而无需重新训练、放大或抑制某些概念。
- 这可以监控危险的输出,引导理想的结果,或者强制从语言模型中删除有害内容。
- Anthropic 认为,通过这种“机械可解释性”更深入地理解模型有助于使它们更安全、更可靠。
然而,这项研究的计算成本很高,可能需要对每个新的语言模型重复进行。对人工智能安全和控制的长期影响还有待观察。