为每个部分挑选了 5 篇“论文”:
- 第一部分:前沿大模型
- 第 2 部分:基准和评估
- 第 3 部分:提示、ICL 和思维链
- 第 4 节:检索增强生成
- 第 5 节:代理人
- 第 6 节:代码生成
- 第 7 部分:愿景
- 第 8 节:声音
- 第 9 节:图像/视频传播
- 第 10 节:微调
第一部分:前沿大模型
- GPT1 、GPT2 、 GPT3 、Codex 、InstructGPT 、GPT4论文。不言自明。GPT3.5、4o 、o1和o3往往[url=https://openai.com/index/deliberative-alignment/]有[/url]启动事件和系统卡2反而。
- Claude 3和Gemini 1试卷,了解竞争情况。最新版本是Claude 3.5 Sonnet和Gemini 2.0 Flash / Flash Thinking 。还有Gemma 2 。
- LLaMA 1 、Llama 2 、Llama 3论文,了解领先的开放模型。您还可以将Mistral 7B 、Mixtral和Pixtral视为 Llama 家族树的一个分支。
- DeepSeek V1 、Coder 、MoE 、V2 、V3论文。领先的(相对)开放模型实验室。
- Apple Intelligence论文。每台 Mac 和 iPhone 上都有它。
第 2 部分:基准和评估
- MMLU论文- 主要的知识基准,仅次于GPQA和BIG-Bench 。2025 年,前沿实验室将使用MMLU Pro、GPQA Diamond和BIG-Bench Hard 。
- MuSR论文- 评估长上下文,紧随LongBench 、BABILong和RULER之后。使用Needle in a Haystack解决[url=https://arxiv.org/abs/2307.03172]Lost in The Middle[/url]和其他问题。
- 数学试卷-数学竞赛题汇编。Frontier 实验室专注于FrontierMath和数学的难子集:数学 5 级、AIME 、AMC10/AMC12 。
- IFEval论文- 继 eval 之后的领先指令,也是Apple 采用的唯一外部基准测试。您也可以将MT-Bench视为 IF 的一种形式。
- ARC AGI挑战赛——一个著名的抽象推理“智商测试”基准,其持续时间比许多很快就饱和的基准要长得多。
第 3 部分:提示、ICL 和思维链
注意:GPT3 论文(“语言模型是少样本学习器”)应该已经介绍了情境学习 (ICL) - 提示的近亲。我们还认为提示注入需要知识 — Lilian Weng 、Simon W。
- 提示报告论文——提示论文的调查(播客)。
- 思维链论文- 众多声称推广思维链的论文之一,其他两本是Scratchpads和Let's Think Step By Step
- 思想树论文-介绍前瞻和回溯(播客)
- 提示调整论文 -你可能不需要提示 - 如果你可以进行前缀调整,调整解码(例如通过熵)或表示工程
- 自动提示工程论文- 越来越明显的是,人类是糟糕的零次提示者,而提示本身可以通过 LLM 得到增强。最值得注意的实现是在DSPy 论文/框架中。
第 4 节:RAG检索增强生成
- 信息检索简介 - 推荐一本书有点不公平,但我们试图说明的是,RAG 是一个 IR 问题,并且IR 有 60 年的历史,其中包括TF-IDF 、BM25 、FAISS 、HNSW和其他“无聊”的技术。
- 2020 年Meta RAG论文- 创造了该术语。原作者已启动 Contextual 并创造了RAG 2.0。RAG的现代“赌注”——HyDE 、分块、重新排序器、多模态数据[url=https://www.youtube.com/watch?v=DId2KP8Ykz4]在其他地方[/url]有更好的[url=https://www.youtube.com/watch?v=FDEmbYPgG-s]呈现[/url]。
- MTEB:海量文本嵌入基准论文- 事实上的领导者,存在已知问题。许多嵌入都有论文 - 选择你的毒药 - SentenceTransformers 、OpenAI[url=https://www.youtube.com/watch?v=VIqXNRsRRQo]、[/url]Nomic Embed、Jina v3、cde-small-v1 、 ModernBERT Embed - Matryoshka 嵌入越来越标准化。
- GraphRAG论文-微软对向 RAG 添加知识图谱的看法,现已开源。这是 2024 年RAG 中最流行的趋势之一,与ColBERT /ColPali/ColQwen 并列(更多信息请参阅“愿景”部分)。
- RAGAS论文 - OpenAI 推荐的简单 RAG 评估。另请参阅Nvidia FACTS 框架和LLM 中的外在幻觉- Lilian Weng 对幻觉原因/评估的调查(另请参阅Jason Wei 关于召回率与准确率的论述)。
第 5 节:智能体
- SWE-Bench论文(我们的播客)——在被 Anthropic 、Devin 和OpenAI[url=https://www.latent.space/p/claude-sonnet]采用后[/url],可能是当今最受关注的代理基准(与WebArena或SWE-Gym相比)。从技术上讲,这是一个编码基准,但更多的是对代理的测试,而不是原始的 LLM。另请参阅SWE-Agent 、SWE-Bench Multimodal和Konwinski 奖。
- ReAct论文(我们的播客) - ReAct 开始了对工具使用和函数调用 LLM的长期研究,包括Gorilla和BFCL Leaderboard 。具有历史意义的 - Toolformer和HuggingGPT 。
- MemGPT论文- 模拟长期运行代理内存的众多著名方法之一,随后是ChatGPT和LangGraph 。从[url=https://arxiv.org/abs/2308.00352]MetaGPT[/url]到AutoGen再到Smallville ,每个代理系统中都重新发明了这些方法的版本。
- Voyager论文- Nvidia 采用 3 个认知架构组件(课程、技能库、沙盒)来提高性能。更抽象地说,技能库/课程可以抽象为代理工作流内存的一种形式。
- Anthropic 谈如何构建有效的代理- 这是对 2024 年状态的一次精彩回顾,重点介绍了链接、路由、并行化、编排、评估和优化的重要性。另请参阅Lilian Weng 的代理(前 OpenAI)、Shunyu Yao 的 LLM 代理(现就职于 OpenAI)和Chip Huyen 的代理。