大语言模型137个涌现特征列表 — Jason Wei


涌现emergent :定义为一种能力“不存在于小模型中,但......存在于大模型中。”

大型语言模型的涌现能力中,我们将涌现能力定义为“不存在于小模型中但存在于大模型中”的能力。

涌现是一种罕见现象,还是许多任务实际上是涌现的?

事实证明,通过扩展 GPT-3、Chinchilla 和 PaLM 等语言模型,已经根据经验发现了 100 多个涌现能力的例子。为了促进对涌现的进一步研究,我在这篇文章中整理了一份涌现能力列表。

涌现的少量提示任务
首先,emergent few-shot prompted tasks 的性能对于小模型是随机的,对于大模型是随机的。到目前为止,这些涌现任务的最大来源是 BIG-Bench 和 Massive Multitask Benchmark,分别有 67 和 51 个紧急任务。以下是任务:

BIG-Bench(67 个任务):

MMLU(51 个任务;结果见Chinchilla 论文):

  • Chinchilla 7B(7 项任务):专业医学、高中统计学、高中宏观经济学、高中心理学、解剖学、高中政府与政治、高中微观经济学
  • Chinchilla 70B(44 个任务):国际法、人类老龄化、社会学、美国外交政策、高中世界史、市场营销、逻辑谬误、杂项、大学生物学、高中美国史、安全研究、高中欧洲历史、高中地理, 计算机安全, 人类性学, 天文学, 史前史, 哲学, 法学, 管理学, 道德纠纷, 高中生物, 职业心理学, 世界宗教, 营养学, 临床知识, 商业伦理, 医学遗传学, 高中计算机科学, 公共关系, 大学医学、概念物理、电气工程、高中化学、机器学习、专业会计、专业法学、病毒学、计量经济学、大学物理、初等数学、道德情境、形式逻辑、高中物理


除了这些庞大的任务库之外,还有几篇论文也将单个任务显示为紧急能力:

  • GPT-3 论文:3 位加法/减法 (GPT-3 13B),4-5 位加法/减法 (GPT-3 175B),利用少量示例进行单词去噪 (GPT-3 13B)
  • Gopher 论文:毒性分类 (Gopher 7.1B)、TruthfulQA (Gopher 280B)
  • Patel & Pavlick:基础概念映射 (GPT-3 175B)
  • PaLM 论文:Word in Context 基准测试 (PaLM 540B)


涌现提示策略
涌现提示任务专注于特定数据集,而涌现的第二类是小样本提示策略,这是仅适用于足够大规模的语言模型的通用提示策略。这些是我迄今为止在文献中看到的紧急提示策略。