AI大模型只做“受控的能力模块”，确定性代码才是协调中枢！

本文系统拆解威尔·拉尔森的 Agent 工程路线，揭示为何真正可落地的智能体必须由代码主导，通过技能、上下文管理与评估机制，避免模型失控。

一个被严重误解的概念：为什么大多数人一开始就把 Agent 做错了

过去一年，“智能体”这三个字几乎成了中文 AI 圈的万能膏药，随便贴在哪都能显得高大上——从“会自己干活的 AI”到“数字员工”，再到“自动化革命”，所有宣传都在暗示一个神话：只要给大模型一点自主权，它就会自动规划、自主反思、独立完成复杂任务。但真正踩过工程坑的人很快会发现，这条路几乎必然滑向失控深渊。

美国工程思想家威尔·拉尔森在他那套被硅谷工程师奉为“清醒剂”的《Agents》系列文章开篇，第一件事就是毫不客气地泼冷水：绝大多数失败的智能体，并不是因为模型不够强，而是从架构设计的第一步起，就把系统控制权错误地交给了语言模型。

他的核心观点极为犀利：Agent 不是一个拥有自我意识的软件生命体，而是一个被严格约束、由工程结构包裹的执行系统。

这里的关键分歧在于——谁才是系统的大脑？
当前主流框架（比如 LangChain 早期版本）默认让大模型充当调度者，决定下一步做什么、调用什么工具、是否继续循环；
而威尔·拉尔森的态度斩钉截铁：大模型永远不应该是中枢，它只能是能力模块之一。真正的中枢，必须是确定性代码。

这套思想不是理论推演，而是来自他在优步、条纹、卡玛等超大规模系统中血泪换来的工程直觉：AI 可以模糊，但系统必须清晰；模型可以犯错，但架构不能失控。

作者是谁：为什么他的 Agent 思想值得认真对待

威尔·拉尔森并不是那种从论文堆里走出来的 AI 学者，他更像是一位在真实战场里摸爬滚打出来的工程指挥官。他曾长期在优步负责全球派单系统的稳定性，在条纹构建高可用支付核心，在卡玛主导千万级用户平台的架构演进。

他最出名的著作《软件工程的演进逻辑》被无数技术主管列为必读，书中讨论的不是 Transformer 或注意力机制，而是系统如何在三年、五年、甚至十年后依然可维护、可演进、不崩塌。

正是这种背景，让他在面对 Agent 热潮时，天然带着一种近乎偏执的工程警惕性。他不在乎你的 Demo 能不能在五分钟内跑通一个自动订机票的流程，他只关心——这个流程在三个月后、半年后、当原始开发者离职、当业务规则变更、当 API 返回格式突然调整时，还能不能安全运行？Agents 系列所有文章的背后，其实都围绕一个朴素但致命的问题展开：如果把 Agent 当作一个要长期存在于生产环境中的软件系统，而不是一次性炫技的演示，它的架构到底应该长什么样？这种视角在当下被“模型万能论”淹没的环境中，显得尤为稀缺而珍贵。

Agent 的真正起点：不是智能，而是触发机制

很多人误以为 Agent 的起点是一个精心设计的超级提示词，仿佛只要提示词足够聪明，模型就能自动识别任务并启动。

但威尔·拉尔森在文章中反复强调：真正的工程级 Agent，起点从来不是智能，而是触发机制。没有明确、可靠、可复现的触发条件，Agent 就只是一个永远待命却不知何时该出手的模型 API 调用，根本谈不上“自主”。

在他看来，所有值得投入生产的 Agent，都必须是事件驱动的。这些事件可以来自 Jira 工单系统的状态变更、Confluence 文档的更新通知、Slack 中特定关键词的出现、GitHub 仓库的 Push 事件，或者企业内部业务系统的 Webhook。

关键是，触发条件必须是结构化的、确定性的、可被日志追踪的。一旦事件发生，系统就进入一个由代码预定义的流程——比如“当收到工单状态变更为‘待处理’且标签含‘高优先级’时，启动 Agent 分析上下文并生成初步诊断”。

这个设计看似简单，却直接切断了“模型自己决定要不要干活”的不确定性黑洞，也为后续的可观测性、可回放性、可评估性打下基础。真正的自动化，不是让 AI 自由发挥，而是让它在精确设定的轨道上运行。

协调器的地位：为什么代码必须站在模型之上

在整个 Agent 架构中，最核心但最容易被忽视的组件，叫做协调器（Orchestrator）。它不是一个 AI 模型，而是一段纯粹的、确定性的业务代码，负责定义整个任务流的顺序、失败处理策略、工具调用边界、上下文管理规则以及最终终止条件。

威尔·拉尔森用近乎警告的语气指出：如果你的 Agent 系统没有一个代码层面的协调器，那它迟早会演变成一个无法调试、无法回溯、无法信任的黑箱。协调器的职责从来不是做“智能判断”，而是维护“系统秩序”。

比如：当模型请求调用某个 Skill 时，协调器会校验该请求是否符合预设的输入格式；
当连续三次调用外部 API 失败时，协调器会触发降级策略而非无限重试；
当上下文 token 使用率超过 85% 时，协调器会主动调用压缩模块；
当子任务超时，协调器会强制中断并记录异常。

所有这些关键决策，如果交给模型自由发挥，结果将极度不可预测。只有当协调权牢牢掌握在代码手中，模型才能成为一个稳定、可靠、可替换的工具，而不是整个系统的风险源。

这也是为什么威尔·拉尔森坚持称 Agent 为“软件系统”而非“智能生命”——因为它的骨架是代码，血肉才是模型。

Skills 不是提示词技巧，而是工程模块

当很多人第一次接触 Skills（技能）这个概念时，很容易误以为这只是提示词工程的高级变种——通过更聪明的描述让模型“以为”自己能做某事。

但在威尔·拉尔森的工程体系里，Skills 被严格定义为可插拔、可测试、有明确接口边界的工程模块。

每一个 Skill 都必须具备：清晰的输入 Schema（比如 JSON 结构）、标准化的输出格式（成功/失败 + 数据载荷）、明确的副作用声明（是否写文件？是否发邮件？），以及对内部实现的完全封装。

这些 Skill 可以是封装好的 Google 搜索客户端、内部数据库查询接口、PDF 解析器、代码静态分析工具，甚至是一个调用另一套微服务的 HTTP 客户端。关键的技术细节在于：模型并不知道 Skill 的内部实现逻辑，它只知道接口描述（比如 “search_web(query: str) -> List[Result]”）。

意味着，无论底层是用 Python 写的 Selenium 脚本，还是调用企业级搜索引擎 API，对模型而言都是一样的。

这种设计带来两大工程红利：
一是实现可随时替换而不影响 Agent 行为（比如把免费搜索换成付费高精度 API）；
二是彻底杜绝模型“幻想工具”的灾难

威尔·拉尔森在文中直言：“如果模型可以编造不存在的工具，那么整个系统的可信度会在第一次幻想发生时彻底破产。”真正的 Skills，是模型能力的外延，但控制权始终在系统一侧。

渐进式披露：解决大文件问题的唯一工程解法

一旦 Agent 开始处理真实业务数据——比如一份上百页的技术文档、一个包含数千行日志的故障报告、或一个完整的代码仓库——上下文窗口爆炸几乎是必然事件。当前主流模型的上下文窗口即便扩展到 128K 或 1M token，面对真实世界的复杂信息依然捉襟见肘。

对此，威尔·拉尔森提出的解决方案不是“等更大窗口的模型”，而是“渐进式披露”（Progressive Disclosure）。

其核心思想不是压缩信息，而是延迟加载。

系统首先向模型提供一个高度结构化的摘要和索引，例如：“本文档共 5 个章节，第 3 章描述了认证流程，第 4 章包含错误码定义。”模型基于这个元信息决定是否需要深入某一部分。

只有当模型明确发出请求（如 “请提供第 4 章全文”）时，协调器才会从存储中加载对应片段并注入上下文。

技术上，这通常通过虚拟文件系统（Virtual File System）实现——模型以为自己在读取一个完整的文件，实际上只是按需拉取的片段流。这种机制让 Agent 能在有限上下文窗口下，表现出处理超大规模信息的能力。更重要的是，它避免了将无关信息塞入上下文导致的 token 浪费和推理干扰，让模型始终聚焦于当前任务最关键的上下文。

上下文压缩不是优化，而是生存机制

如果说渐进式披露解决的是空间维度（单次处理规模）的问题，那么上下文压缩解决的就是时间维度（长期运行）的问题。

一个真正投入生产的 Agent，不可能无限累积历史对话、中间推理、工具输出。如果没有系统化的压缩策略，上下文会迅速膨胀至无法处理，任务被迫中断。

威尔·拉尔森在文章中明确指出：“没有上下文压缩机制，就不存在长期运行的 Agent。”但这里的压缩绝非简单删减。

工程上的上下文压缩是一种智能重构：临时中间输出（如多次重试的日志）被丢弃；多轮推理过程被总结为“结论 + 关键证据”；反复出现的状态被结构化为变量；用户原始指令被提炼为核心目标。
压缩的触发通常与 token 使用率挂钩——例如当上下文占用超过 75% 时，自动调用压缩模块。
压缩后的上下文不仅更短，而且信息密度更高。

这种机制让 Agent 能在不丢失核心记忆的前提下持续运行数十轮甚至上百轮交互，是从“玩具”走向“生产系统”的关键分水岭。它不是锦上添花的优化，而是系统存活的必备机制。

子代理不是更聪明，而是更安全

当任务复杂度上升——比如“分析用户反馈并生成产品改进建议”——单一 Agent 很快会变得臃肿、难以调试、失败率飙升。此时，引入子代理（Sub-Agents）不是为了炫耀系统“更智能”，而是为了拆解责任边界、隔离故障域。

在威尔·拉尔森的设计中，每个子代理都有独立的上下文、专属提示词、明确目标和有限权限。例如，主 Agent 可能派发三个子任务：子代理 A 负责分类用户反馈（情感分析 + 主题聚类），子代理 B 负责检索相关产品文档，子代理 C 负责验证建议的可行性。

它们可以并行执行，结果由主协调器汇总。这种设计的最大价值在于风险隔离：即使子代理 A 的情感分析出错，也不会直接影响子代理 B 的文档检索；子代理 C 甚至可以对最终输出进行独立校验。

在工程层面，这意味着你可以单独测试、监控、优化每个子代理，而不必面对一个黑箱整体。复杂性被分解为可管理的单元，系统的整体鲁棒性因此大幅提升。子代理不是智能的堆砌，而是安全的冗余。

代码驱动优先：Agent 系统避免技术债的唯一方式

在系列文章的后期，威尔·拉尔森反复强调一个看似保守但至关重要的原则：“凡是可以用确定性代码完成的事情，都不应该交给模型。”

这句话直指当前 Agent 开发中最普遍的陷阱——过度依赖模型的“万能性”。

比如，判断一个字符串是否为有效邮箱？写正则表达式，别让模型猜；
计算两个日期的天数差？调用 datetime 库，别让模型心算；
验证 API 响应是否符合 Schema？用 Pydantic，别让模型“看看像不像”。

模型只应该出现在必须进行模糊判断、语言理解、多目标权衡或创造性生成的地方。

这种“代码驱动优先”的策略，直接决定了 Agent 系统的长期维护成本。模型能力会随版本变更而波动，API 行为可能突变，但确定性代码的行为是可预测、可测试、可回放的。

将判断权下沉到代码层，意味着你可以为每个模块编写单元测试，可以在 CI/CD 中自动验证，可以在生产中精准定位故障点。而如果一切依赖模型“自由发挥”，系统将永远处于“靠感觉调优”的玄学状态。这也是威尔·拉尔森始终把 Agent 看作软件工程问题而非 AI 问题的根本原因——稳定，永远比炫技更重要。

日志与评估：没有这一步，永远无法进生产

Agent 一旦进入真实业务环境，最残酷的问题不是性能瓶颈，而是解释性缺失。当它成功时，你不知道成功是否可复现；当它失败时，你不知道失败源于模型幻觉、工具故障，还是协调逻辑错误。

因此，日志系统在威尔·拉尔森的架构中不是附加功能，而是系统核心组成部分。

他要求所有关键节点——触发事件、协调决策、Skill 调用、模型输入输出、上下文压缩过程——都必须生成结构化日志。这些日志不仅用于实时监控，更支持完整的流程回放（Replay）：你可以用相同的初始事件和输入，重新运行整个 Agent 流程，用于调试或验证修复效果。

此外，离线评估机制必不可少。评估不追求 100% 正确率（那不现实），而是追踪关键指标趋势：任务成功率是否稳定？平均步骤数是否下降？工具调用错误率是否可控？这些数据用于判断系统整体是在变好还是变坏。

威尔·拉尔森警告：“没有评估的 Agent，只能靠感觉调优，而感觉在复杂系统里几乎永远是错的。”真正的工程化，始于可观测，成于可评估。

这套路线真正解决的不是 AI，而是工程失控

通读威尔·拉尔森的整个 Agents 系列，你会发现一个惊人事实：他几乎没有讨论模型架构、参数规模、训练数据或任何前沿 AI 算法。

原因极其简单——他关心的从来不是“模型能做到什么”，而是“系统能承受什么”。

在他眼中，Agent 不是奇迹制造机，而是潜在的风险放大器。一个设计不良的 Agent，会把模型的微小不确定性放大成业务流程的灾难性中断。正因为如此，他提出的整套实践路线看起来不炫技，甚至有些“保守”：强调代码中枢、限制模型权限、要求结构化触发、强制日志评估。

但正是这种克制，解决了一个更根本、更难的问题：如何让智能系统在真实组织中长期、安全、可维护地存在。当整个行业都在狂热地吹嘘“Agent 觉醒”时，威尔·拉尔森冷静地给它戴上了工程的手铐——不是为了限制能力，而是为了让能力真正可用。

这个Agent 系统理解成一个“事件驱动 + 受控智能执行器”，而不是一个会自我放飞的智能体。
LLM大模型永远不当中枢，只当“受控的能力模块”。

AI大模型只做“受控的能力模块”，确定性代码才是协调中枢！

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道