研究发现:大语言模型类似“共识机器”

banq

哈佛大学的一项新研究将大型语言模型 (LLM) 与众包进行了比较。该研究揭示了为什么人工智能系统经常对一般性话题给出正确答案,但对具体问题却容易犯错。

研究人员 Jim Waldo 和 Soline Boussard 认为,人工智能语言模型的功能类似于众包平台。它们不是收集专家的回答,而是根据网上所有的问题和答案生成最有可能的答案。

研究指出:

  1. GPT 会告诉我们草是绿色的,
  2. 因为‘草是’这个词后面通常跟着‘绿色’。
  3. 这与草坪的颜色无关。

研究人员认为,这种运行模式可以解释为什么人工智能系统通常会对共识话题给出正确答案,但对有争议或模糊的话题却往往会产生不准确的信息。

人工智能模型在特定主题上遇到困难
为了验证他们的假设,Waldo 和 Boussard 在几周内向各种人工智能模型提出了一系列晦涩难懂且存在争议的问题。

结果证实了研究人员的猜测。对于具有广泛共识的话题,例如巴拉克·奥巴马的名言,模型通常能给出正确答案。

对于更具体的问题,例如有关铁电性的科学论文,他们经常会产生错误的引用或将真实存在的作者与不存在的论文结合在一起。

在引用科学论文时,这一点尤为明显。尽管所有测试系统都能提供正确的引用格式,但内容往往不正确。例如,ChatGPT -4 经常引用实际上一起发表过文章的作者群体,但不会引用它所引用的论文。

研究还表明,即使连续的问题在内容上毫无关联,系统的答案也可能在很大程度上取决于上下文。

处理人工智能生成的内容
研究表明,人工智能生成的内容应与众包结果得到类似对待。它对于一般主题可能有用,但对于专业或有争议的问题则应谨慎解读。

作者写道:“大模型和基于这些模型构建的生成式预训练转换器确实符合众包模式,因为它们借鉴了训练集中体现的论述。这种论述中发现的共识观点通常是正确的,但在处理有争议或不常见的主题时似乎不太准确。”

不要在晦涩难懂或两极分化的话题上不加批判地相信大语言模型。它们的准确性在很大程度上取决于训练数据的广度和质量。虽然这些系统可能对许多日常任务有用,但在处理复杂主题时还是要谨慎。

这些观察结果与著名人工智能开发者、前 OpenAI 成员和特斯拉人工智能前负责人 Andrej Karpathy 的发现一致,他指出所有 LLM“听起来都差不多”。

概括

  • 哈佛大学的一项新研究表明,大型语言模型 (LLM) 的工作原理与众包平台非常相似,它根据在线的问题和答案生成最可能的答案,而不是依赖专家知识。
  • 研究人员用不同程度的模糊性和争议性问题测试了不同的人工智能模型,发现模型通常能对具有广泛共识的话题提供正确答案,但在更具体或有争议的问题上却举步维艰,尤其是在引用科学论文时。
  • 该研究建议,在使用人工智能生成的内容来处理专业化或两极分化的话题时要谨慎,因为准确性高度依赖于训练数据的广度和质量。