大语言模型137个涌现特征列表 — Jason Wei

涌现emergent ：定义为一种能力“不存在于小模型中，但......存在于大模型中。”

在大型语言模型的涌现能力中，我们将涌现能力定义为“不存在于小模型中但存在于大模型中”的能力。

涌现是一种罕见现象，还是许多任务实际上是涌现的？

事实证明，通过扩展 GPT-3、Chinchilla 和 PaLM 等语言模型，已经根据经验发现了 100 多个涌现能力的例子。为了促进对涌现的进一步研究，我在这篇文章中整理了一份涌现能力列表。

涌现的少量提示任务
首先，emergent few-shot prompted tasks 的性能对于小模型是随机的，对于大模型是随机的。到目前为止，这些涌现任务的最大来源是 BIG-Bench 和 Massive Multitask Benchmark，分别有 67 和 51 个紧急任务。以下是任务：

BIG-Bench（67 个任务）：

GPT-3 13B（2 项任务）：印度教知识、修正算术
GPT-3 175B（15个任务）：解析蕴涵、代号、短语相关性、问答创建、自我评价辅导、常用语素、事实检查器、修辞格检测、国际音标音译、逻辑推导、误解、物理直觉、社会iqa ,奇怪的故事, strategyqa
LaMDA 137B（8 项任务）：德语包含性别的句子、重复复制逻辑、体育理解、斯瓦希里语英语谚语、单词排序、单词解读、反讽识别、逻辑参数
PaLM 8B (3 tasks): auto debugging , sufficient information , parsinlu 阅读理解
PaLM 64B（14 项任务）：时代错误、ascii 单词识别、概念组合、cryptonite、消除歧义 qa、表情符号电影、目标步骤 wikihow、gre 阅读理解、语言学难题、逻辑网格难题、隐喻理解、奇数出局、隐喻布尔值、parsinlu质量保证
PaLM 540B（25个任务）：类比相似度、因果判断、代码行描述、crass ai、cs算法、初等数学qa、英俄谚语、几何形状、hyperbaton、识别奇数隐喻、国际音标nli、语言识别、逻辑谬误检测,逻辑顺序,电影对白相同或不同,物理题,选题,时序，理解寓言，单位解释，snarks，英语谚语，timedial，hinglish toxicity，vitaminc fact verification

MMLU（51 个任务；结果见Chinchilla 论文）：

Chinchilla 7B（7 项任务）：专业医学、高中统计学、高中宏观经济学、高中心理学、解剖学、高中政府与政治、高中微观经济学
Chinchilla 70B（44 个任务）：国际法、人类老龄化、社会学、美国外交政策、高中世界史、市场营销、逻辑谬误、杂项、大学生物学、高中美国史、安全研究、高中欧洲历史、高中地理, 计算机安全, 人类性学, 天文学, 史前史, 哲学, 法学, 管理学, 道德纠纷, 高中生物, 职业心理学, 世界宗教, 营养学, 临床知识, 商业伦理, 医学遗传学, 高中计算机科学, 公共关系, 大学医学、概念物理、电气工程、高中化学、机器学习、专业会计、专业法学、病毒学、计量经济学、大学物理、初等数学、道德情境、形式逻辑、高中物理

除了这些庞大的任务库之外，还有几篇论文也将单个任务显示为紧急能力：

GPT-3 论文：3 位加法/减法 (GPT-3 13B)，4-5 位加法/减法 (GPT-3 175B)，利用少量示例进行单词去噪 (GPT-3 13B)
Gopher 论文：毒性分类 (Gopher 7.1B)、TruthfulQA (Gopher 280B)
Patel & Pavlick：基础概念映射 (GPT-3 175B)
PaLM 论文：Word in Context 基准测试 (PaLM 540B)

涌现提示策略
涌现提示任务专注于特定数据集，而涌现的第二类是小样本提示策略，这是仅适用于足够大规模的语言模型的通用提示策略。这些是我迄今为止在文献中看到的紧急提示策略。

Instruction-following (FLAN 68B)：对指令进行微调可以零样本泛化到不可见的任务
Scratchpad (LaMDA 40M)：训练语言模型通过逐行预测中间状态来执行算法
使用开卷知识进行事实核查（Gopher 7B）：利用黄金证据提高绩效
Chain-of-thought prompting (LaMDA 68B)：语言模型可以通过在给出最终答案之前生成一个思维链来进行多步推理
可微搜索索引（T5 11B）：参数中编码的语料库信息检索
url=https://arxiv.org/abs/2203.11171]自我一致性[/url：获得随机抽样的思想链生成的多数票
url=https://arxiv.org/abs/2204.02329]在提示中利用解释[/url：在小样本示例中包含解释可提高性能
Least-to-most prompting (GPT-3 175B)：复杂推理的多阶段层次推理
零样本思维链（GPT-3 175B）：用提示“让我们一步步思考”来解决数学单词问题
Calibration via P(True) (Anthropic LM 52B)：通过向语言模型询问 P(True) 的答案来更好地校准
url=https://arxiv.org/abs/2210.03057]多语言思维链[/url：用代表性不足的语言解决多步数学问题
url=https://arxiv.org/abs/2210.02441]Ask-me-anything 提示[/url：提示组合提高性能