AI很难被解释:神经网络中"暗物质"

AnthropicAI可解释性团队今天发表了一份漂亮报告:目前大语言模型的可解释性方法可能只是触及神经网络内部的表面,而具有罕见特征的大量“暗物质”和复杂的叠加现象仍然无法理解。

Chris Olah和Adam Jermyn提出了一个观点:尽管他们训练了一个稀疏自编码器,能够解析出1300万个特征,但这些可能只是表面现象。

他们认为这些特征可能只是冰山一角。

例如,尽管他们能够识别出旧金山的一些社区特征,但像Claude这样的人工智能助手能够知道旧金山的小咖啡店,并且能够回答有关街道交叉口的问题。假设每个旧金山社区至少有100个这样的商家、街道、公园等特征,这表明可能存在至少两个数量级更多的特征,这些特征在数据集中更为罕见,可能更多。

其他一些极端罕见且数量众多的特征的线索:例如识别与个人相关的特征,可能存在"记忆特征",而这些特征可能数量众多且极其稀疏。

这两个例子都说明了更广泛的可能性:

  • 神经网络可能具有异常罕见且稀疏的特征。
  • 这些特征可能是绝大多数不太重要,因为它们不常见。
  • 除非有重大突破,否则我们可能实际上无法解析出比某个水平更罕见的特征。

神经网络可能存在的大量罕见和稀疏的特征,这些特征可能构成了神经网络的"暗物质",我们目前可能还无法完全理解和解析它们。

未来可解释性研究的5个关键障碍:

  1. 缺失特征:当前的方法只提取了一小部分可解释的特征。许多罕见的特征可能仍然未被发现,可能形成一种“神经网络暗物质”,如果没有重大的算法突破,很难解决。
  2. 跨层叠加:在深度网络中,浅电路可能跨相邻层实现,导致跨层叠加。这使得将特征映射到特定层变得复杂,这是当前字典学习方法无法解决的挑战。
  3. 注意叠加:注意力头部的组合可以通过叠加形成“注意力特征”,类似于神经元层面的叠加。这些可能是计算的基本单位,但目前尚未捕获,阻碍了电路分析。
  4. 干扰权重:“真实”电路权重可以在整个网络上叠加表示。这导致了“干扰权重”的存在,作为妥协,以允许其他电路的表示,混淆电路分析工作。
  5. 缩小:即使对个体特征和电路有了全面的理解,将其综合成对神经网络的整体理解仍然具有挑战性。这可能需要深入了解更大规模的结构,普遍性和宏观对应性,超越自动解释能力

总之:智能在很大程度上是关于模式匹配的,实际上很难说还有什么其他的。

对可解释性的质疑:

  • 要求人工智能系统完全可解释将使它们受到限制和变成笨蛋!
  • 我们不会对人类大脑提出同样的要求(可解释),人类大脑解释其行为的能力也很有限。