大语言模型容易挖坑的科学原因

所有的人工智能炒作都将大模型LLM捧得很高,但实际上,LLM 只不过是在大量数据基础上训练出来的大型变压器神经网络,在预测下一个单词方面非常出色。

结构调整、提示工程和 RLHF 这些巧妙的技巧使它们的性能更上一层楼,但从根本上说,它们并没有什么神奇或神秘之处。

当然,它们非常有用,但远不能与人类智能相提并论:大模型LLM 非常容易上当受骗

LLMs 患有 "字面解释"(Literal Interpretation)症:如果你提供的句子有明显的事实错误,模型可能不会纠正它。例如,如果你说 "太阳绕着地球转",模型可能会根据这个前提继续讨论,而不会指出它是错误的。

如果给它灌输一些编造的事实,比如大象更喜欢爵士乐,它们可能就会接受这个前提,而不会提出质疑。

向模型提出无意义的问题,很容易让它给出无意义的答案:例如,如何给桌子浇水?LLM可能会给你一个答案。

模型可能会得到相互矛盾的信息,但有时它不会对矛盾提出质疑。对抗性的输入会愚弄模型。对提示信息稍作修改,就会产生完全不同的输出结果。

LLM 有时不会质疑权威声明。例如,模型可能会认为这种说法是可信的:"根据著名专家的说法,云是地球的思维方式"。

Su 等人最近发表了一篇题为 "自适应变色龙还是顽固树懒?揭示大型语言模型在知识冲突中的行为》一文中有一些有趣的发现。

该论文研究了大型语言模型(LLMs)(如 ChatGPT)在获得与其内置知识(参数记忆)相冲突的外部信息时的表现。论文有一些非常有趣的发现:

  • 反记忆能力差的顽固性:使用传统方法创建冲突信息(如简单的实体替换)会使 LLMs 坚守其内部知识。
  • 具有连贯反记忆的接受能力:当获得一条精心制作的冲突信息时,大模型更有可能接受它,这表明他们可能会被精心制作的错误信息所误导。
  • 知名度很重要:对于众所周知的话题或事实,常识分子更加固执,不太可能接受相互冲突的信息。
  • 顺序敏感性:证据呈现的顺序会影响常识分子的决策。根据不同的模式,他们可能倾向于较早或较晚提供的证据。
  • 从众:当获得多个证据时,法律学者倾向于站在大多数人一边,即使这些证据是错误的。
  • 无关信息的干扰:大模型会被无关的证据所左右或迷惑,这对他们在现实世界中的应用很不利。

所有这些都表明,大模型LLM 并不能真正深入理解它们所训练的数据。

虽然 LLM 可以生成类似人类的文本,但它们缺乏真正的理解能力。这种内在理解力的缺失使它们对输入中的细微变化非常敏感,并容易接受误导性或虚假的陈述。

根据本文的研究结果训练数据非常重要。训练模型的数据可能包含各种偏差。如果训练数据存在误导信息或某种偏差,模型就会继承这些偏差。

自然语言本质上是模糊的。人类会混合使用上下文、世界知识和常识来消除语言歧义,而模型却往往难以消除歧义,尤其是在遇到新颖或具有欺骗性的输入时。

总之,虽然大型语言模型表现出了令人印象深刻的语言能力,但由于缺乏真正的理解,再加上数据驱动学习的复杂性,它们很容易出错,也很容易被愚弄。

这进一步证明,LLM并不是存在的威胁,而是相当良性但非常有用的工具,基本上就是在生成内容。  决定如何处理这些内容的是人类,而不是人工智能。