大语言建模阅读清单


看到错误或有论文建议?在这里提出 PR 或问题!

  1. 注意就是您所需要的:查询、键和值就是您所需要的*(*还有位置嵌入、多头、前馈层、跳过连接等)
  2. GPT:通过生成预训练提高语言理解:解码器就是您所需要的*(*此外,预训练 + 微调)
  3. BERT:用于语言理解的深度双向变压器的预训练:编码器就是您所需要的*。从左到右的语言建模并不是您所需要的。(*另外,预训练+微调)
  4. T5:使用统一的文本到文本转换器探索迁移学习的局限性:仅编码器或仅解码器并不是您所需要的全部,尽管文本到文本就是您所需要的*(*此外,预训练 +微调)
  5. GPT2:语言模型是无监督的多任务学习者:无监督的预训练就是您所需要的?!
  6. GPT3:语言模型是少样本学习者:无监督预训练+一些*示例就足够了。(*从 Conversational QA 中的 5 个示例到 Winogrande、PhysicalQA 和 TriviaQA 中的 50 个示例)
  7. 神经语言模型的缩放定律:您需要的是在较少数据*上训练的较大模型。(*应将 10 倍以上的计算量花费在 5.5 倍大的模型和 1.8 倍以上的代币上)
  8. Chinchilla:训练计算最优的大型语言模型:您需要的是在更多数据*上训练的较小模型。(*应将 10 倍以上的计算量花费在 3.2 倍大的模型和 3.2 倍以上的代币上)
  9. LLaMA:开放且高效的基础语言模型:您所需要的就是在公共数据上训练更长时间的 Smoler 模型
  10. InstructGPT:训练语言模型遵循人类反馈的指令:您只需要 40 个贴标机*(*加上监督微调、奖励建模和 PPO)
  11. LoRA:大型语言模型的低秩适应:一级就够了
  12. QLoRA:量化 LLM 的高效微调: 4 位即可满足您的需求*(*加上双量化和分页优化器)
  13. DPR:开放域问答的密集段落检索:密集嵌入就是您所需要的*(*此外,高精度检索)
  14. RAG:知识密集型 NLP 任务的检索增强生成:半参数模型*就是您所需要的(*密集向量检索作为非参数组件;预训练的 LLM 作为参数组件)
  15. RETRO:通过从数万亿个标记中检索来改进语言模型:基于输入块和分块交叉注意力进行检索就是您所需要的
  16. 通过少量提示进行开放域问答的互联网增强语言模型: Google 搜索作为检索即可满足您的需求
  17. HyDE:无需相关标签的精确零样本密集检索: LLM 生成的假设文档就是您所需要的
  18. FlashAttention:具有 IO 感知的快速且内存高效的精确注意: SRAM 中的 For 循环就是您所需要的
  19. ALiBi;训练短,测试长:使用线性偏差的注意力可以实现输入长度外推:查询键点积上的恒定偏差就是您所需要的*(*还有超参数 m 和缓存的 Q、K、V 表示)
  20. Codex:评估在代码上训练的大型语言模型:您只需要对代码进行微调
  21. 层归一化:每层一致的均值和方差就足够了
  22. 关于 Transformer 架构中的层标准化:您所需要的只是层前规范,而不是层后规范
  23. PPO:近端策略优化算法:您只需要裁剪代理函数
  24. WizardCoder:使用 Evol-Instruct 增强代码大型语言模型:您所需要的就是要求模型使问题变得更难*(*他们从哪里获得这些更难问题的答案?!)
  25. Llama 2:开放基础和微调聊天模型:迭代微调、PPO、拒绝采样和幽灵注意力就是您所需要的*(*此外,27,540 个 SFT 注释和超过 100 万个二进制比较偏好数据)
  26. RWKV:为 Transformer 时代重塑 RNN:您需要通过 RNN 进行推理期间的线性注意力
  27. RLAIF - 宪法人工智能:人工智能反馈的无害性:自然语言宪法*和关于无害性的模型反馈就是您所需要的(*无害性原则的 16 种不同变体)
  28. 极其庞大的神经网络:稀疏门控混合专家层: softmax 中的噪声和专家正则化就是您所需要的
  29. CLIP:从自然语言监督中学习可迁移的视觉模型: *文本和图像嵌入之间的投影层就是您所需要的(*此外,还有 4 亿个图像-文本对)
  30. 维特;一张图像值得 16x16 个单词:用于大规模图像识别的 Transformers:您只需要扁平化的 2D 补丁
  31. 生成代理:人类行为的交互式模拟:反思、记忆和检索就是你所需要的
  32. 对引导幻觉检测进行域外微调:开源、允许使用的数据正是您所需要的
  33. 数据保护官;直接偏好优化:您的语言模型实际上是一个奖励模型:您不需要单独的奖励模型
  34. 一致性模型:您所需要的就是映射扩散如何向图像添加高斯噪声
  35. LCM;潜在一致性模型:通过少步推理合成高分辨率图像:潜在空间中的一致性建模就是您所需要的*(*此外,还有一个可供提取的扩散模型)
  36. LCM-LoRA:通用稳定扩散加速模块:结合 LoRA 即可满足您的需求
  37. Chain-of-Note:增强检索增强语言模型的鲁棒性:您所需要的就是要求法学硕士反思检索到的文档
  38. 大型语言模型的新兴能力:痛苦的教训就是你所需要的
  39. Q-Transformer:通过自回归 Q 函数进行可扩展离线强化学习:贝尔曼方程和重播缓冲区就是您所需要的
  40. Llama Guard:基于 LLM 的人类与人工智能对话的输入输出保护:分类指南和多项选择响应就是您所需要的
  41. REST; 超越人类数据:使用语言模型扩展自我训练以解决问题:合成数据和奖励函数就是您所需要的

来源:Yan, Ziyou. (Jan 2024). Language Modeling Reading List (to Start Your Paper Club). eugeneyan.com. https://eugeneyan.com/writing/llm-reading-list/.