Chris Olah和Adam Jermyn提出了一个观点:尽管他们训练了一个稀疏自编码器,能够解析出1300万个特征,但这些可能只是表面现象。
他们认为这些特征可能只是冰山一角。
例如,尽管他们能够识别出旧金山的一些社区特征,但像Claude这样的人工智能助手能够知道旧金山的小咖啡店,并且能够回答有关街道交叉口的问题。假设每个旧金山社区至少有100个这样的商家、街道、公园等特征,这表明可能存在至少两个数量级更多的特征,这些特征在数据集中更为罕见,可能更多。
其他一些极端罕见且数量众多的特征的线索:例如识别与个人相关的特征,可能存在"记忆特征",而这些特征可能数量众多且极其稀疏。
这两个例子都说明了更广泛的可能性:
- 神经网络可能具有异常罕见且稀疏的特征。
- 这些特征可能是绝大多数不太重要,因为它们不常见。
- 除非有重大突破,否则我们可能实际上无法解析出比某个水平更罕见的特征。
神经网络可能存在的大量罕见和稀疏的特征,这些特征可能构成了神经网络的"暗物质",我们目前可能还无法完全理解和解析它们。
未来可解释性研究的5个关键障碍:
- 缺失特征:当前的方法只提取了一小部分可解释的特征。许多罕见的特征可能仍然未被发现,可能形成一种“神经网络暗物质”,如果没有重大的算法突破,很难解决。
- 跨层叠加:在深度网络中,浅电路可能跨相邻层实现,导致跨层叠加。这使得将特征映射到特定层变得复杂,这是当前字典学习方法无法解决的挑战。
- 注意叠加:注意力头部的组合可以通过叠加形成“注意力特征”,类似于神经元层面的叠加。这些可能是计算的基本单位,但目前尚未捕获,阻碍了电路分析。
- 干扰权重:“真实”电路权重可以在整个网络上叠加表示。这导致了“干扰权重”的存在,作为妥协,以允许其他电路的表示,混淆电路分析工作。
- 缩小:即使对个体特征和电路有了全面的理解,将其综合成对神经网络的整体理解仍然具有挑战性。这可能需要深入了解更大规模的结构,普遍性和宏观对应性,超越自动解释能力
总之:智能在很大程度上是关于模式匹配的,实际上很难说还有什么其他的。
对可解释性的质疑:
- 要求人工智能系统完全可解释将使它们受到限制和变成笨蛋!
- 我们不会对人类大脑提出同样的要求(可解释),人类大脑解释其行为的能力也很有限。
