AI很难被解释：神经网络中"暗物质"

AnthropicAI可解释性团队今天发表了一份漂亮报告：目前大语言模型的可解释性方法可能只是触及神经网络内部的表面，而具有罕见特征的大量“暗物质”和复杂的叠加现象仍然无法理解。

Chris Olah和Adam Jermyn提出了一个观点：尽管他们训练了一个稀疏自编码器，能够解析出1300万个特征，但这些可能只是表面现象。

他们认为这些特征可能只是冰山一角。

例如，尽管他们能够识别出旧金山的一些社区特征，但像Claude这样的人工智能助手能够知道旧金山的小咖啡店，并且能够回答有关街道交叉口的问题。假设每个旧金山社区至少有100个这样的商家、街道、公园等特征，这表明可能存在至少两个数量级更多的特征，这些特征在数据集中更为罕见，可能更多。

其他一些极端罕见且数量众多的特征的线索：例如识别与个人相关的特征，可能存在"记忆特征"，而这些特征可能数量众多且极其稀疏。

这两个例子都说明了更广泛的可能性：

神经网络可能存在的大量罕见和稀疏的特征，这些特征可能构成了神经网络的"暗物质"，我们目前可能还无法完全理解和解析它们。

未来可解释性研究的5个关键障碍：

总之：智能在很大程度上是关于模式匹配的，实际上很难说还有什么其他的。

对可解释性的质疑：