本文系统梳理上下文工程从1990年代至今的四阶段演化,指出其核心是降低人类意图与机器理解之间的熵差,并展望未来AI将主动构建上下文甚至超越人类认知。
作者背景介绍:本文作者团队来自上海交通大学(SJTU)、上海人工智能创新中心(SII)与GAIR实验室,核心成员包括华启朔、叶吕曼山、傅大源、肖扬、蔡晓杰、吴云泽、林继凡、王俊飞与刘鹏飞(通讯作者)。他们长期专注于上下文工程、智能体架构与人机协作系统研究,GitHub开源项目“SII Context”已成该领域重要基础设施。团队提出“上下文即世界”理念,推动上下文工程从被动响应走向主动推理,是当前大模型智能体范式下上下文管理方法论的前沿探索者。
作者团队把上下文工程的发展划成了四个时代,就像手机从大哥大到折叠屏一样,每个时代都代表着AI“智商”和“情商”的飞跃。
第一个时代,也就是“上下文工程1.0”,从1990年代一直持续到2020年左右。这会儿的AI,说白了就是个“被动执行器”,像个刚入职的实习生,你必须把所有指令掰开了、揉碎了、写成标准操作流程(SOP),它才能照做。比如你想让电脑“安静点”,你得手动点开设置,把声音调成静音,或者写个脚本“if location == office, then set_volume(0)”。
那时候的上下文,就是一些最原始的结构化数据:GPS坐标、当前时间、设备状态,全是冰冷的数字和标签。设计师们干的就是“意图翻译”的苦活,把人类复杂模糊的想法,硬生生压缩成机器能处理的低熵信息。
这个时代的代表作,是Anind K. Dey在2001年提出的那个经典定义:“上下文是任何可用于刻画一个实体情境的信息”,以及随之而来的“上下文工具包(Context Toolkit)”,它用传感器小部件(Widgets)、解释器(Interpreters)这些模块,把上下文采集和处理流程标准化了,算是打下了最早的地基。
然而,真正的革命始于2020年。GPT-3横空出世,大语言模型(LLM)和智能体(Agent)时代正式开启,上下文工程2.0来了!
这会儿的AI不再是实习生,而是变成了一位“主动的协作者”。
它最大的本事,就是能吃下高熵、模糊、甚至不完整的原始信息,比如你随口一句“帮我找找跟这个相关的文档”,它就能结合你过去的聊天、你当前打开的项目、甚至你昨天提到的兴趣点,去猜你到底想要啥。
为什么能猜?因为它的“上下文耐受度”大大提升了!
以前你得喂它“地点:办公室,时间:工作日”,现在你直接发一张你在工位的照片,或者一段你敲代码时的录音,AI都能从中提取出上下文。
技术上,这背后是多模态感知的突破——手机、手表、眼镜、甚至脑机接口都成了它的“感官”,源源不断地输入文本、图像、音频、视频、生理信号。
更牛的是,它的理解方式也变了,从1.0时代的“条件-动作”规则,进化到了能进行“上下文协同”——它不再只是感知你的环境,而是要融入你的工作流。
比如你写代码卡壳了,它会根据你上一段的逻辑,主动建议下一步怎么写,甚至帮你查API文档。
这时候,上下文的内涵也爆炸式扩张,不再只是你的位置和时间,而是你的目标、你的决策、你的工具调用记录、你的长期记忆,整个变成了一个动态的、鲜活的数字孪生。
讲到这儿,你可能会问,上下文这么多,AI是怎么管的?
别急,这正是上下文工程的核心战场,作者把它拆成了三个大招:收集与存储、管理、使用。
先说收集与存储,这里有两个黄金原则:
一是“最少够用”,不是数据越多越好,而是能支撑任务的最少信息;
二是“语义连续”,不是简单地堆数据,而是要保证信息背后的意义能连贯传递。
2.0时代,收集早已是“端-边-云”协同作战。
你在手机上打字,数据可能先存在本地SQLite数据库里;
你的健康手环数据,可能加密存在硬件安全模块里;而你长期积累的项目知识,则同步在云端。
就拿Google的Gemini CLI工具来说,它用一个叫GEMINI.md的Markdown文件,把项目背景、角色定义、编码规范这些静态上下文固化下来,放在你的项目目录里,需要时自动加载。
同时,它还会动态记录你和AI的聊天历史,并定期用AI自己生成摘要,把长篇大论压缩成“目标、关键知识、文件状态、近期行动、当前计划”这样的结构化快照,防止宝贵的上下文在有限的“上下文窗口”里被冲掉。
这招叫“自烘焙”(self-baking),就像我们的大脑,会把琐碎的日常经历提炼成有用的知识点。
光收集还不够,怎么管理才是大学问。文本上下文的处理就有好几种路子。
最简单的,是给每条信息打上时间戳,方便按时间线回溯,但问题是数据一多就乱成麻,根本找不到重点。高级一点的,是按功能打标签,比如标上“目标”、“决策”、“行动”,这样检索起来就快多了。
还有些系统,会把一大段对话压缩成一个个问答对(QA pairs),特别适合做FAQ搜索,但会破坏信息的原始逻辑流。
更聪明的,是搞“分层笔记”,把信息组织成树状结构,从宏观到微观层层展开。
但作者也指出了这些方法的软肋——它们大都缺乏对信息间逻辑关系(比如因果、证据)的刻画,也没法体现认知是如何随时间演化的。
而真正的难点在于多模态上下文的融合。
文本、图像、音频,结构天差地别,怎么让AI把它们当成一个整体来理解?目前主流有三种策略:
第一种,是把所有模态都编码成同一个向量空间里的“点”,语义相近的,不管是什么模态,都会在空间里靠得很近;
第二种,更狠,直接把不同模态的token塞进同一个Transformer里,让它们在自注意力机制下互相“看”、互相“学”,实现细粒度的对齐;
第三种,是用“交叉注意力”(cross-attention),比如用文字的token去查询图像的token,精准地找出图中对应的文字描述区域。
这些技术,正是Claude、ChatGPT这些顶级模型能“图文并茂”回答问题的底层秘密。
上下文管理的另一个高阶玩法,叫“上下文隔离”。
你想啊,一个智能体如果什么上下文都混在一起,很容易“精神分裂”或者被无关信息带偏。所以,像Claude Code就搞出了“子智能体”(subagent)架构。每个子智能体都是一个独立的小专家,比如一个专门负责代码分析,一个专门负责执行命令,它们都有自己隔离的上下文窗口、定制的系统提示词和受限的工具权限。主智能体接到任务后,就把它“派单”给合适的子智能体去干,干完了再把结果汇总。
这样一来,既避免了上下文污染,又提升了系统的可靠性和可解释性。
与之配套的,是“轻量级引用”策略。比如处理一个超大日志文件,AI不会把整个文件塞进上下文窗口,而是把文件存在外部“沙盒”里,上下文窗口里只留一个引用。需要时,再根据引用去沙盒里取数据。这样既省token,又不丢信息,简直是工程美学的典范。
有了上下文,怎么用才是决胜关键。
上下文工程2.0最核心的使用场景,就是“上下文选择”——在海量记忆里,精准找出当前任务最相关的那一小撮。这简直就是“注意力之前的注意力”!选错了,AI就会被带跑偏,性能反而下降。
作者总结了四大筛选维度:
语义相关性,就是用向量检索,找意思最接近的;
逻辑依赖性,就是追溯任务的前因后果,比如你现在的修改依赖于昨天的那个设计决策;
新鲜度与频率,就是优先调用最近或最常被提及的信息;
还有用户偏好,AI会默默学习你喜欢什么风格、关注什么重点,把你的“数字人格”刻画出来。
比如MEM1系统,它会把你的整个推理过程记录下来,构建成一个依赖图谱,下次你问相关问题,它就沿着这个图谱精准回溯,而不是大海捞针。
更让人兴奋的是“主动用户需求推理”。最高级的AI,不该是个应声虫,而应该是个有眼力见的“心腹”。它能通过分析你连续的提问,推断出你没说出口的深层目标(比如你先问Python装饰器,再问性能调优,它可能就猜到你想优化一个Web服务);
它还能在你卡壳的时候,主动送上一个流程图或者检查清单。这才是真正的智能,不是被动响应,而是主动共情。
当然,通向未来的路上,坑也不少。作者指出了四大挑战,个个致命。
第一是“存储瓶颈”,你的数字人生越来越长,上下文数据爆炸式增长,怎么在有限的资源下又快又准地存和取?
第二是“处理退化”,Transformer架构的注意力机制是O(n²)复杂度,上下文一长,模型就慢得像蜗牛,而且注意力被摊薄,关键信息反而看不清了。
第三是“系统不稳定”,记忆越多,一个小错误就可能像蝴蝶效应一样,引发连锁崩盘。
第四,也是最头疼的,“评估困难”。我们怎么知道AI用对了上下文?现在的评测,大多只看它能不能检索到,却不看检索到的信息是不是过时、矛盾、或者根本不相关。
为了解决这些问题,作者提出了一个宏大的愿景——构建一个“语义操作系统”。这个系统要有像人脑一样的记忆管理能力:能主动增加、修改、甚至“遗忘”知识;要有超越Transformer的新型架构,能高效处理超长上下文;最关键的是,它必须能自我解释,让你能清晰地追溯它每一步推理的上下文来源。只有这样,上下文才不再是被动堆积的数据坟墓,而会成为AI认知世界、理解人类的核心引擎。
最后,让我们把目光投向未来。作者预言,我们正处在2.0向3.0过渡的临界点。3.0时代,AI将达到人类级别的智能,能像人一样感知情绪、理解社交潜规则,上下文将扩展到触觉、嗅觉甚至味觉。而更遥远的4.0时代,AI将拥有“上帝视角”,不仅能理解你,还能揭示你自己都没意识到的需求,就像AlphaGo教会人类下棋的新招法一样。到那时,上下文工程的终极目标就实现了——人与AI的交互成本无限趋近于零。
我们再也不用费力地“翻译”自己的想法,AI就像我们思想的延伸。马克思所说的“人的本质是社会关系的总和”,在数字时代将获得新生:我们的数字存在、我们的上下文足迹,将成为一种不朽的知识、记忆和身份。我们或许无法上传意识,但我们可以上传“上下文”,让我们的思想在数字世界里继续生长、互动、影响未来。这,就是上下文工程的星辰大海。