上下文基础设施是企业级AI自动化的关键路径

模型智能已不再是自动化的瓶颈:为什么AI在数学竞赛中大放异彩,却搞不定一个PPT?从知识编辑到上下文工程,通往真正企业级AI自动化的关键路径

我们正处在一个奇特的转折点:一方面,大语言模型(LLMs)在国际数学奥林匹克竞赛(IMO 2025)中已经能与金牌得主比肩,甚至在某些推理任务上超越人类顶尖水平;另一方面,在企业日常场景中,比如“为董事会准备一份战略汇报PPT”,哪怕是最先进的AI代理智能体(agent)依然频频翻车。

这种反差令人困惑:为什么AI能解出99%人类都看不懂的数学题,却连一个结构清晰、符合语境的演示文稿都做不好?答案并不在于模型“不够聪明”,而在于——智能不再是瓶颈,真正的瓶颈是“意图表达”和“上下文工程”

要理解这一点,我们必须重新拆解“完成一项任务”所需的三个核心要素。

第一是问题规格说明(Problem Specification),即对用户潜在意图的精确、完整、结构化的描述。

第二是上下文(Context),也就是解决该任务所需的具体背景信息,如公司战略文档、过往会议纪要、组织文化禁忌等。

第三才是求解器(Solver),也就是我们常说的大模型本身,它结合前两者进行推理与生成。

这三个环节中,前两者依赖于人类的设计与系统支持,而只有最后一个才真正体现模型的“智力”。

关键在于,几乎所有现实世界的任务都存在“规格缺口”(specification gap),即我们无法用一句话完整传达所有隐含需求。例如,“写一份董事会PPT”看似简单,实则涉及大量未言明的约束:上次汇报的重点是什么?CEO最近关注哪些风险?哪些数据可以公开?哪些话题是敏感禁区?这些信息散落在邮件、聊天记录、会议录音甚至个人记忆中,AI若无法获取,就只能靠模型内部的“世界知识”去猜测,结果自然偏离预期。此时,哪怕模型能力提升十倍,也只能在错误的方向上越走越远。

相比之下,数学题之所以成为AI的“舒适区”,正是因为其规格高度形式化、上下文极简、验证明确。以IMO 2025中那道2025×2025网格铺砖问题为例,题干本身已包含全部必要信息,不存在歧义或隐藏条件。AI只需调用逻辑推理与数学建模能力即可尝试求解。这类任务的瓶颈确实在于模型智能本身,因此随着训练数据、架构优化和推理算法的进步,AI表现持续提升也就顺理成章。更进一步,数学领域拥有海量高质量标注数据、可验证答案和易于生成的合成数据,使得模型训练和评估形成正向闭环。

但大多数企业级任务属于“硬目标领域”(Hard Targets):规格模糊、上下文庞杂、反馈延迟且主观。产品战略、销售谈判、合规审查、运营调度等,无不如此。在这些场景中,输出质量主要取决于上下文的完整性与规格的清晰度,而非模型本身的“智商”

换句话说,提升模型能力带来的收益是渐近的,而改善上下文接入和规格设计则可能带来阶跃式跃迁。

那么,如何突破这一瓶颈?

短期来看,我们需要构建强大的“上下文基础设施”。

首先,必须将企业内部的隐性知识显性化:会议录音自动转写归档、决策流程结构化存储、关键文档通过API开放调用,并附带元数据说明更新时间、责任人和用途。

其次,需要引入“情景记忆系统”作为中间层,让AI代理具备记忆与筛选能力——它应能记住用户偏好、保存历史任务版本、自动关联相关背景,并在新任务中动态注入必要上下文,避免每次都要重新检索。

更进一步,上下文窗口的扩展也至关重要。当前模型虽已支持百万级token,但在实际应用中,如何高效利用长上下文仍是一大挑战。若能提升模型在长文本中的注意力机制效率,减少噪声干扰,就能大幅降低上下文预处理的工程成本。

但从长远看,真正的突破在于“将上下文内化进模型权重”。

就像人类员工通过长期浸润于组织文化中自然理解“潜规则”,未来的AI也需要通过持续学习,将企业特有的知识沉淀到模型内部。

这就引出了一个前沿研究方向:知识编辑(Knowledge Editing)。传统微调成本高昂且易遗忘旧知识,而知识编辑技术旨在精准修改模型中的特定知识,而不影响其他能力。这为“动态更新企业专属模型”提供了可能。

然而,实现这一愿景仍需多项技术突破:企业需建立高效的内部知识采集与清洗系统,避免用“噪音”污染训练数据;定制化模型的训练必须变得廉价且安全,尤其涉及敏感商业信息时;模型还需具备持续学习能力,能随环境变化动态更新;最终,我们甚至需要“模型脑外科手术”——在引入新版本模型的同时,保留已学习的企业特定知识,实现类似“git merge”的权重融合。

综上所述,AI自动化的未来不在于等待GPT-6或GPT-7的发布,而在于构建一套完整的“意图-上下文-求解”工程体系。

短期内,AI将在科学、编程等“易目标”领域继续创造奇迹;但要实现企业级的广泛自动化,我们必须把“规格设计”和“上下文管理”提升为头等重要的系统工程。

我们已看清瓶颈所在,工具也在逐步成型,但支撑大规模自动化所需的基础设施,仍处于黎明前的建设期。真正的智能,或许不在于模型多“聪明”,而在于我们能否教会它“知道该知道什么”。