2025年50篇AI工程师阅读清单


为每个部分挑选了 5 篇“论文”:

第一部分:前沿大模型

  1. GPT1 GPT2 、 GPT3 Codex InstructGPT GPT4论文。不言自明。GPT3.5、4o 、o1o3往往[url=https://openai.com/index/deliberative-alignment/]有[/url]启动事件和系统卡2反而。
  2. Claude 3Gemini 1试卷,了解竞争情况。最新版本是Claude 3.5 SonnetGemini 2.0 Flash Flash Thinking 。还有Gemma 2 
  3. LLaMA 1 Llama 2 Llama 3论文,了解领先的开放模型。您还可以将Mistral 7B MixtralPixtral视为 Llama 家族树的一个分支。
  4. DeepSeek V1 Coder MoE V2 V3论文。领先的(相对)开放模型实验室。
  5. Apple Intelligence论文。每台 Mac 和 iPhone 上都有它。

第 2 部分:基准和评估

  1. MMLU论文- 主要的知识基准,仅次于GPQABIG-Bench 。2025 年,前沿实验室将使用MMLU ProGPQA DiamondBIG-Bench Hard 
  2. MuSR论文- 评估长上下文,紧随LongBench BABILongRULER之后。使用Needle in a Haystack解决[url=https://arxiv.org/abs/2307.03172]Lost in The Middle[/url]和其他问题。
  3. 数学试卷-数学竞赛题汇编。Frontier 实验室专注于FrontierMath和数学的难子集:数学 5 级、AIME AMC10/AMC12 
  4. IFEval论文- 继 eval 之后的领先指令,也是Apple 采用的唯一外部基准测试。您也可以将MT-Bench视为 IF 的一种形式。
  5. ARC AGI挑战赛——一个著名的抽象推理“智商测试”基准,其持续时间比许多很快就饱和的基准要长得多。

第 3 部分:提示、ICL 和思维链
注意:GPT3 论文(“语言模型是少样本学习器”)应该已经介绍了情境学习 (ICL) - 提示的近亲。我们还认为提示注入需要知识 — Lilian Weng Simon W。

  1. 提示报告论文——提示论文的调查(播客)。
  2. 思维链论文- 众多声称推广思维链的论文之一,其他两本是ScratchpadsLet's Think Step By Step
  3. 思想树论文-介绍前瞻和回溯(播客
  4. 提示调整论文 -你可能不需要提示 - 如果你可以进行前缀调整调整解码(例如通过熵)或表示工程
  5. 自动提示工程论文- 越来越明显的是,人类是糟糕的零次提示者,而提示本身可以通过 LLM 得到增强。最值得注意的实现是在DSPy 论文/框架中。


第 4 节:RAG检索增强生成

  1. 信息检索简介 - 推荐一本书有点不公平,但我们试图说明的是,RAG 是一个 IR 问题,并且IR 有 60 年的历史,其中包括TF-IDF BM25 FAISS HNSW和其他“无聊”的技术。
  2. 2020 年Meta RAG论文- 创造了该术语。原作者已启动 Contextual 并创造了RAG 2.0。RAG的现代“赌注”——HyDE 重新排序器多模态数据[url=https://www.youtube.com/watch?v=DId2KP8Ykz4]在其他地方[/url]有更好的[url=https://www.youtube.com/watch?v=FDEmbYPgG-s]呈现[/url]。
  3. MTEB:海量文本嵌入基准论文- 事实上的领导者,存在已知问题。许多嵌入都有论文 - 选择你的毒药 - SentenceTransformers OpenAI[url=https://www.youtube.com/watch?v=VIqXNRsRRQo]、[/url]Nomic Embed、Jina v3、cde-small-v1  ModernBERT Embed Matryoshka 嵌入越来越标准化。
  4. GraphRAG论文-微软对向 RAG 添加知识图谱的看法,现已开源。这是 2024 年RAG 中最流行的趋势之一,与ColBERT /ColPali/ColQwen 并列(更多信息请参阅“愿景”部分)。
  5. RAGAS论文 - OpenAI 推荐的简单 RAG 评估。另请参阅Nvidia FACTS 框架LLM 中的外在幻觉- Lilian Weng 对幻觉原因/评估的调查(另请参阅Jason Wei 关于召回率与准确率的论述)。

第 5 节:智能体

  1. SWE-Bench论文(我们的播客)——在被 Anthropic 、Devin 和OpenAI[url=https://www.latent.space/p/claude-sonnet]采用后[/url],可能是当今最受关注的代理基准(与WebArenaSWE-Gym相比)。从技术上讲,这是一个编码基准,但更多的是对代理的测试,而不是原始的 LLM。另请参阅SWE-Agent SWE-Bench MultimodalKonwinski 奖
  2. ReAct论文(我们的播客) - ReAct 开始了对工具使用和函数调用 LLM的长期研究,包括GorillaBFCL Leaderboard 。具有历史意义的 - ToolformerHuggingGPT 
  3. MemGPT论文- 模拟长期运行代理内存的众多著名方法之一,随后是ChatGPTLangGraph 。从[url=https://arxiv.org/abs/2308.00352]MetaGPT[/url]到AutoGen再到Smallville ,每个代理系统中都重新发明了这些方法的版本。
  4. Voyager论文- Nvidia 采用 3 个认知架构组件(课程、技能库、沙盒)来提高性能。更抽象地说,技能库/课程可以抽象为代理工作流内存的一种形式
  5. Anthropic 谈如何构建有效的代理- 这是对 2024 年状态的一次精彩回顾,重点介绍了链接、路由、并行化、编排、评估和优化的重要性。另请参阅Lilian Weng 的代理(前 OpenAI)、Shunyu Yao 的 LLM 代理(现就职于 OpenAI)和Chip Huyen 的代理