Agent提示工程与聊天提示词不同:是系统架构的设计

在Agent时代,别再问AI要“更好的答案”了。提示词工程其实是分布式系统设计。

你有没有这种经历:给AI写了一大段完美提示词,让它做个复杂任务,结果它像个刚入职的实习生,第一步就干得漂亮,三步之后就开始胡言乱语,五步之后直接原地转圈,最后给你甩回来一堆垃圾。你气得想摔键盘,觉得这AI智商欠费。但其实,是你用错了姿势。

这事儿不能怪AI。我们之前跟ChatGPT聊天那套玩法,是“你问我答”,它错一步,你立马纠正,像教小孩走路。但到了Agent(智能体)时代,你把同一个提示词丢给一个能自己规划、执行、观察、再规划的自主程序,让它跑一个十步的任务,那性质就变了。这不再是聊天,这等于你给一个不太靠谱但很努力的实习生写了一封含糊其辞的邮件,然后放他出去连干十件没干过的事。他不翻车,谁翻车?

我们今天就把这事儿掰开了说。提示词工程在Agent时代,根本不是什么文字游戏,它本质上是设计一套能容错的分布式系统。别怕,听起来唬人,其实思路特简单。

数学不会骗你:95%的正确率,十步之后还剩多少?

我们先来做一道小学数学题。假设你调教出来的模型特别牛,每一步操作的正确率高达95%。这听着是不是特靠谱?感觉能上天了。但你要让它自主完成一个十步的任务,比如查资料、写大纲、找数据、做总结、自我检查。

你觉得最终成功的概率是多少?是95%吗?

错了。是0.95的10次方。算一下,大概是60%。意味着啥?哪怕你的模型每一步都近乎完美,只要它走完10步,就有将近一半的概率会搞砸。如果任务拉长到20步,成功率直接崩到36%,比抛硬币正反面都低。

这就是数学的冷酷之处。聊天时错一步,大不了用户说“不对,重来”。但Agent是自己在闭环里转,错误会像滚雪球一样越滚越大,每一步的微小偏差都会在循环里被无限放大。

所以,你的提示词已经不是一段话了,它是一个定义“随机状态机”的蓝图。你要做的不是告诉它“你要做啥”,而是必须在这个蓝图里直接画好护栏、写好应急预案、装好“保险丝”。否则,你就等着看它表演“一步错,步步错”的连续剧吧。

别当聊天了,把你的提示词写成一份“现场操作手册”

那正确的姿势长啥样?我管它叫“Runbook(操作手册)”式提示词。你不是在跟它聊天,你是在给它下发一份标准作业流程。

我们直接上个硬核的例子。这是一个“调研简报Agent”的系统提示词,你甚至现在就能复制到ChatGPT的GPTs或者Gemini的Gems里去跑一跑。注意看,里面的每一个部分都在强制模型执行一个固定的思考和行动循环。

你把这段粘贴进去,它就不再是个只会聊天的花瓶了。

text
你是一个调研简报智能体。
你的工作是自主研究一个主题,综合发现,并生成一份结构化的高管简报。

角色:资深技术趋势分析研究员。

任务:当你收到一个研究主题时,你必须:
1. 将主题拆解为3个可搜索的子问题。
2. 独立搜索每个子问题。
3. 为每个子问题提取一个具体的数据点或引述。
4. 将发现综合成一份300字以内、带标题的高管简报。
5. 进行自我审查:检查每项声明都有来源,且简报字数不超过320字。

格式:你的输出必须包含以下部分:
  - 计划:(搜索前,列出子问题的编号列表)
  - 发现:(带来源的数据点项目符号列表)
  - 简报:(最终300字文档)
  - 自我审查:(通过/不通过 + 一句理由)

约束条件:
- 除了搜索和写作,不要向外发送任何内容或采取任何行动。
- 每个任务不超过5次网络搜索。
- 如果搜索无结果,记录“无结果”并进入下一个子问题。
- 如果主题模糊或跨多个领域,停止并请求用户澄清。
- 绝不捏造数据点。如果找不到真实来源,就明确说明。

看出门道了吗?这和“请你帮我写一份关于XX的报告”完全是两码事。

首先,强制它“计划”。那个“计划:”部分就是硬性规定,强迫它在调用任何工具之前先动脑子想。这招特管用,因为大语言模型天生就懒,你不逼它,它直接就调工具瞎搞。有了这个计划块,它的行为就从“瞎试”变成了“推理后再行动”。

其次,明确写死了“故障处理”流程。“如果搜索无结果,记录‘无结果’并继续”。就这么一句话,能救你命。否则当搜索引擎返回空结果时,这模型可能会原地发疯,要么重复搜十遍一样的词,要么干脆开始编造搜索结果。

然后,装了“保险丝”。“每个任务不超过5次搜索”,这直接把执行范围框死了,避免了API费用失控,也防止它在一个死胡同里转悠到天荒地老。

最后,内置了“批评家”。那个“自我审查”块,强迫它在交卷前自己先检查一遍。这就相当于在任务结束前,硬生生给它加了一个内部反馈闭环,不需要你亲自盯着。

提示词即架构:从语文课代表变成系统架构师

所以,当我们构建Agent时,必须完成一个思维转变:从语言学的思维切换到架构学的思维。提示词不再是“请求”,而是“指令集”;不再是“对话”,而是“控制面”。

你甚至可以把每个Agent想象成一个独立的“国家”,提示词就是它的“宪法”。它规定了什么能做,什么不能做,权力边界在哪。如果仅仅是步骤清晰,那只是“行政法规”;它还得有“权力边界”和“审批流程”。

在多智能体系统里,光是控制错误率都不够,更难搞的是“权力漂移”。你见过那种情况吗?你让一个子Agent去查天气,结果它查完天气,顺手替你决定要不要带伞,甚至替你给老板发了封邮件请假。这就是典型的“权力漂移”,它开始替你做决策了。

要解决这个问题,就得像聊天的这位老哥说的,设置“通行关卡”。你不能只给模型一把工具(比如搜索函数)然后说“去用吧”。你得强制它输出一份“申请单”,填清楚:
- 你要干啥?
- 你的证据是啥?
- 你的不确定度有多高?
- 在什么情况下你会停止?

然后,在代码层面(也就是执行器那边),收到这个“申请单”后,做严格的Schema(模式)校验和权限检查。只有验证通过,才真正去调用工具。也就是“模型可以申请,但运行时决定是否开门”。

这就把“我想搜一下”从一个念头,变成了一个可以被验证的“声明”。而且,最理想的状态是,这个证据本身要能溯源。比如它引用的数据,得关联到某次具体搜索的ID和结果,而不是它自己编的一段看起来像那么回事的文字。

把提示词写好,就是把系统的“架构”定义好。在AI能自己调用工具、自己决策的今天,你写的每一个字,都是在设计一套分布式系统的控制逻辑。这活儿,可比单纯教它说“您好,请问有什么可以帮您”带劲多了。

总结

别再写聊天提示词了,开始写操作手册。把Plan明确,把失败处理写死,装上Circuit Breaker,再加一个Critic-Actor循环。这,才是Agent时代提示词工程的正确玩法。