大语言建模阅读清单

看到错误或有论文建议？在这里提出 PR 或问题！

注意就是您所需要的：查询、键和值就是您所需要的*（*还有位置嵌入、多头、前馈层、跳过连接等）
GPT：通过生成预训练提高语言理解：解码器就是您所需要的*（*此外，预训练 + 微调）
BERT：用于语言理解的深度双向变压器的预训练：编码器就是您所需要的*。从左到右的语言建模并不是您所需要的。（*另外，预训练+微调）
T5：使用统一的文本到文本转换器探索迁移学习的局限性：仅编码器或仅解码器并不是您所需要的全部，尽管文本到文本就是您所需要的*（*此外，预训练 +微调）
GPT2：语言模型是无监督的多任务学习者：无监督的预训练就是您所需要的？！
GPT3：语言模型是少样本学习者：无监督预训练+一些*示例就足够了。（*从 Conversational QA 中的 5 个示例到 Winogrande、PhysicalQA 和 TriviaQA 中的 50 个示例）
神经语言模型的缩放定律：您需要的是在较少数据*上训练的较大模型。（*应将 10 倍以上的计算量花费在 5.5 倍大的模型和 1.8 倍以上的代币上）
Chinchilla：训练计算最优的大型语言模型：您需要的是在更多数据*上训练的较小模型。（*应将 10 倍以上的计算量花费在 3.2 倍大的模型和 3.2 倍以上的代币上）
LLaMA：开放且高效的基础语言模型：您所需要的就是在公共数据上训练更长时间的 Smoler 模型
InstructGPT：训练语言模型遵循人类反馈的指令：您只需要 40 个贴标机*（*加上监督微调、奖励建模和 PPO）
LoRA：大型语言模型的低秩适应：一级就够了
QLoRA：量化 LLM 的高效微调： 4 位即可满足您的需求*（*加上双量化和分页优化器）
DPR：开放域问答的密集段落检索：密集嵌入就是您所需要的*（*此外，高精度检索）
RAG：知识密集型 NLP 任务的检索增强生成：半参数模型*就是您所需要的（*密集向量检索作为非参数组件；预训练的 LLM 作为参数组件）
RETRO：通过从数万亿个标记中检索来改进语言模型：基于输入块和分块交叉注意力进行检索就是您所需要的
通过少量提示进行开放域问答的互联网增强语言模型： Google 搜索作为检索即可满足您的需求
HyDE：无需相关标签的精确零样本密集检索： LLM 生成的假设文档就是您所需要的
FlashAttention：具有 IO 感知的快速且内存高效的精确注意： SRAM 中的 For 循环就是您所需要的
ALiBi；训练短，测试长：使用线性偏差的注意力可以实现输入长度外推：查询键点积上的恒定偏差就是您所需要的*（*还有超参数 m 和缓存的 Q、K、V 表示）
Codex：评估在代码上训练的大型语言模型：您只需要对代码进行微调
层归一化：每层一致的均值和方差就足够了
关于 Transformer 架构中的层标准化：您所需要的只是层前规范，而不是层后规范
PPO：近端策略优化算法：您只需要裁剪代理函数
WizardCoder：使用 Evol-Instruct 增强代码大型语言模型：您所需要的就是要求模型使问题变得更难*（*他们从哪里获得这些更难问题的答案？！）
Llama 2：开放基础和微调聊天模型：迭代微调、PPO、拒绝采样和幽灵注意力就是您所需要的*（*此外，27,540 个 SFT 注释和超过 100 万个二进制比较偏好数据）
RWKV：为 Transformer 时代重塑 RNN：您需要通过 RNN 进行推理期间的线性注意力
RLAIF - 宪法人工智能：人工智能反馈的无害性：自然语言宪法*和关于无害性的模型反馈就是您所需要的（*无害性原则的 16 种不同变体）
极其庞大的神经网络：稀疏门控混合专家层： softmax 中的噪声和专家正则化就是您所需要的
CLIP：从自然语言监督中学习可迁移的视觉模型： *文本和图像嵌入之间的投影层就是您所需要的（*此外，还有 4 亿个图像-文本对）
维特；一张图像值得 16x16 个单词：用于大规模图像识别的 Transformers：您只需要扁平化的 2D 补丁
生成代理：人类行为的交互式模拟：反思、记忆和检索就是你所需要的
对引导幻觉检测进行域外微调：开源、允许使用的数据正是您所需要的
数据保护官；直接偏好优化：您的语言模型实际上是一个奖励模型：您不需要单独的奖励模型
一致性模型：您所需要的就是映射扩散如何向图像添加高斯噪声
LCM；潜在一致性模型：通过少步推理合成高分辨率图像：潜在空间中的一致性建模就是您所需要的*（*此外，还有一个可供提取的扩散模型）
LCM-LoRA：通用稳定扩散加速模块：结合 LoRA 即可满足您的需求
Chain-of-Note：增强检索增强语言模型的鲁棒性：您所需要的就是要求法学硕士反思检索到的文档
大型语言模型的新兴能力：痛苦的教训就是你所需要的
Q-Transformer：通过自回归 Q 函数进行可扩展离线强化学习：贝尔曼方程和重播缓冲区就是您所需要的
Llama Guard：基于 LLM 的人类与人工智能对话的输入输出保护：分类指南和多项选择响应就是您所需要的
REST; 超越人类数据：使用语言模型扩展自我训练以解决问题：合成数据和奖励函数就是您所需要的

来源：Yan, Ziyou. (Jan 2024). Language Modeling Reading List (to Start Your Paper Club). eugeneyan.com. https://eugeneyan.com/writing/llm-reading-list/.

大语言建模阅读清单

新研究：大脑语言有形式和功能两种，前者更像大模型

谷歌AI在数学奥林匹克竞赛中获得银牌

历史上第一次：聪明AI能愚弄人类

Llama 3.1发布：开源AI是未来吗？

最难逻辑考题：来自IOL国际语言学奥林匹克