人工智能更擅长被频繁训练的任务

关于LLM大语言模型局限性的新论文,可以帮助您了解它们在哪里最有用,在哪里可能失败:

人工智能更擅长执行它在训练数据中更频繁看到的任务,而在不是平常的情况下会遇到更多麻烦。

随着大语言模型(LLM)的广泛应用,认识其优势和局限性变得非常重要。
我们认为,为了全面了解这些系统,我们需要考虑这些系统所要解决的问题:互联网文本的下一个单词预测。

认识到这项任务所带来的压力,我们就能预测 LLM 将采取的策略,从而推理出它们何时会成功或失败。

这种方法--我们称之为目的论方法--使我们确定了三个假设会影响 LLM 准确性的因素:

  1. 要执行任务的概率、
  2. 目标输出的概率
  3. 以及所提供输入的概率。

我们预测,当这些概率较高时,LLM 的准确率将高于较低时--即使在概率不重要的确定性环境中也是如此。

为了验证我们的预测,我们在 11 项任务中对两种 LLM(GPT-3.5 和 GPT-4)进行了评估,结果发现有力的证据表明,LLM 受概率的影响与我们的假设相符。

在许多情况下,实验揭示了令人惊讶的失败模式。例如,当输出为高概率词序列时,GPT-4 对简单密码的解码准确率为 51%,而当输出为低概率词序列时,准确率仅为 13%。

这些结果表明,人工智能从业者在低概率情况下使用 LLM 时应该谨慎。更广泛地说,我们得出的结论是,我们不应该把 LLMs 当作人类来评估,而应该把它们当作一种不同类型的系统来对待--一种由其自身的特定压力所塑造的系统。