人工智能更擅长被频繁训练的任务

关于LLM大语言模型局限性的新论文，可以帮助您了解它们在哪里最有用，在哪里可能失败：

人工智能更擅长执行它在训练数据中更频繁看到的任务，而在不是平常的情况下会遇到更多麻烦。

随着大语言模型（LLM）的广泛应用，认识其优势和局限性变得非常重要。
我们认为，为了全面了解这些系统，我们需要考虑这些系统所要解决的问题：互联网文本的下一个单词预测。

认识到这项任务所带来的压力，我们就能预测 LLM 将采取的策略，从而推理出它们何时会成功或失败。

这种方法--我们称之为目的论方法--使我们确定了三个假设会影响 LLM 准确性的因素：

我们预测，当这些概率较高时，LLM 的准确率将高于较低时--即使在概率不重要的确定性环境中也是如此。

为了验证我们的预测，我们在 11 项任务中对两种 LLM（GPT-3.5 和 GPT-4）进行了评估，结果发现有力的证据表明，LLM 受概率的影响与我们的假设相符。

在许多情况下，实验揭示了令人惊讶的失败模式。例如，当输出为高概率词序列时，GPT-4 对简单密码的解码准确率为 51%，而当输出为低概率词序列时，准确率仅为 13%。

这些结果表明，人工智能从业者在低概率情况下使用 LLM 时应该谨慎。更广泛地说，我们得出的结论是，我们不应该把 LLMs 当作人类来评估，而应该把它们当作一种不同类型的系统来对待--一种由其自身的特定压力所塑造的系统。