2025年50篇AI工程师阅读清单

为每个部分挑选了 5 篇“论文”：

第一部分：前沿大模型

GPT1 、GPT2 、 GPT3 、Codex 、InstructGPT 、GPT4论文。不言自明。GPT3.5、4o 、o1和o3往往[url=https://openai.com/index/deliberative-alignment/]有[/url]启动事件和系统卡2反而。
Claude 3和Gemini 1试卷，了解竞争情况。最新版本是Claude 3.5 Sonnet和Gemini 2.0 Flash / Flash Thinking 。还有Gemma 2 。
LLaMA 1 、Llama 2 、Llama 3论文，了解领先的开放模型。您还可以将Mistral 7B 、Mixtral和Pixtral视为 Llama 家族树的一个分支。
DeepSeek V1 、Coder 、MoE 、V2 、V3论文。领先的（相对）开放模型实验室。
Apple Intelligence论文。每台 Mac 和 iPhone 上都有它。

第 2 部分：基准和评估

MMLU论文- 主要的知识基准，仅次于GPQA和BIG-Bench 。2025 年，前沿实验室将使用MMLU Pro、GPQA Diamond和BIG-Bench Hard 。
MuSR论文- 评估长上下文，紧随LongBench 、BABILong和RULER之后。使用Needle in a Haystack解决[url=https://arxiv.org/abs/2307.03172]Lost in The Middle[/url]和其他问题。
数学试卷-数学竞赛题汇编。Frontier 实验室专注于FrontierMath和数学的难子集：数学 5 级、AIME 、AMC10/AMC12 。
IFEval论文- 继 eval 之后的领先指令，也是Apple 采用的唯一外部基准测试。您也可以将MT-Bench视为 IF 的一种形式。
ARC AGI挑战赛——一个著名的抽象推理“智商测试”基准，其持续时间比许多很快就饱和的基准要长得多。

第 3 部分：提示、ICL 和思维链
注意：GPT3 论文（“语言模型是少样本学习器”）应该已经介绍了情境学习 (ICL) - 提示的近亲。我们还认为提示注入需要知识 — Lilian Weng 、Simon W。

信息检索简介 - 推荐一本书有点不公平，但我们试图说明的是，RAG 是一个 IR 问题，并且IR 有 60 年的历史，其中包括TF-IDF 、BM25 、FAISS 、HNSW和其他“无聊”的技术。
2020 年Meta RAG论文- 创造了该术语。原作者已启动 Contextual 并创造了RAG 2.0。RAG的现代“赌注”——HyDE 、分块、重新排序器、多模态数据[url=https://www.youtube.com/watch?v=DId2KP8Ykz4]在其他地方[/url]有更好的[url=https://www.youtube.com/watch?v=FDEmbYPgG-s]呈现[/url]。
MTEB：海量文本嵌入基准论文- 事实上的领导者，存在已知问题。许多嵌入都有论文 - 选择你的毒药 - SentenceTransformers 、OpenAI[url=https://www.youtube.com/watch?v=VIqXNRsRRQo]、[/url]Nomic Embed、Jina v3、cde-small-v1 、 ModernBERT Embed - Matryoshka 嵌入越来越标准化。
GraphRAG论文-微软对向 RAG 添加知识图谱的看法，现已开源。这是 2024 年RAG 中最流行的趋势之一，与ColBERT /ColPali/ColQwen 并列（更多信息请参阅“愿景”部分）。
RAGAS论文 - OpenAI 推荐的简单 RAG 评估。另请参阅Nvidia FACTS 框架和LLM 中的外在幻觉- Lilian Weng 对幻觉原因/评估的调查（另请参阅Jason Wei 关于召回率与准确率的论述）。

第 5 节：智能体

SWE-Bench论文（我们的播客）——在被 Anthropic 、Devin 和OpenAI[url=https://www.latent.space/p/claude-sonnet]采用后[/url]，可能是当今最受关注的代理基准（与WebArena或SWE-Gym相比）。从技术上讲，这是一个编码基准，但更多的是对代理的测试，而不是原始的 LLM。另请参阅SWE-Agent 、SWE-Bench Multimodal和Konwinski 奖。
ReAct论文（我们的播客） - ReAct 开始了对工具使用和函数调用 LLM的长期研究，包括Gorilla和BFCL Leaderboard 。具有历史意义的 - Toolformer和HuggingGPT 。
MemGPT论文- 模拟长期运行代理内存的众多著名方法之一，随后是ChatGPT和LangGraph 。从[url=https://arxiv.org/abs/2308.00352]MetaGPT[/url]到AutoGen再到Smallville ，每个代理系统中都重新发明了这些方法的版本。
Voyager论文- Nvidia 采用 3 个认知架构组件（课程、技能库、沙盒）来提高性能。更抽象地说，技能库/课程可以抽象为代理工作流内存的一种形式。
Anthropic 谈如何构建有效的代理- 这是对 2024 年状态的一次精彩回顾，重点介绍了链接、路由、并行化、编排、评估和优化的重要性。另请参阅Lilian Weng 的代理（前 OpenAI）、Shunyu Yao 的 LLM 代理（现就职于 OpenAI）和Chip Huyen 的代理。