如何成为顶级智能体工程师:一个过来人的血泪史

资深工程师揭秘智能体开发真相:工具越多越累赘,规则越简越高效。从上下文管理到对抗性验证,教你用基础CLI打造顶级AI工作流,告别配置焦虑,拥抱极简主义。


工具焦虑是病,得治

我见过太多人,一听说有个新出的"智能体框架",就跟见了亲爹似的扑上去。今天装 beads,明天试 opencode,后天又换成 zep,CLAUDE.md 写得比《红楼梦》还长,26000行!结果你猜怎么着?AI 连两个石头都叠不起来,别人已经在造摩天大楼了。

你开始自我怀疑:是不是我 harness 没选对?是不是我插件版本太旧?是不是我终端颜色不够赛博朋克?

朋友,让我告诉你一个秘密。那些在大厂工作的AI工程师,他们用的是最新鲜热辣的模型,有无限的token预算,但他们用的工具——可能跟你一样,就是最基本的命令行。Claude Code 或者 Codex CLI,完事儿。

为什么?因为他们明白一个道理:工具会过时,但原理不会。

想象一下,你花三个月学会了一个超复杂的"智能体内存管理系统",结果下个月 OpenAI 官方直接内置了内存功能。你三个月的心血,一夜之间变成电子垃圾。这感觉就像你刚买了iPhone 15,苹果就宣布iPhone 16免费送——而且比你手里的还好用。

所以第一个真理是:少即是多。你装的那堆插件,不是在帮AI,是在给它喂垃圾信息。



上下文是氧气,太多会窒息

假设你想让AI写个"猜单词"的小游戏。这很简单对吧?但你看看你的CLAUDE.md里写了啥:"第26次会话时记得管理内存"、"第71次会话时屏幕卡住了因为开了太多子进程"、"永远要写笔记"……

AI看着这些,脑子里一万只草泥马奔腾而过:"我只是想写个猜单词游戏,为什么要告诉我怎么修电脑?"

这就是"上下文膨胀"——你给AI的信息太多,多到它找不到北。就像你考试时,草稿纸上写满了去年的数学笔记、前天的购物清单、还有你暗恋对象的名字,结果真正要用的公式被埋没了。

聪明的做法是:只给AI它需要的信息,多一个字都是犯罪。

怎么做到?分开研究和实现。别对AI说:"去给我搞个登录系统。"这太模糊了。它得先研究啥是登录系统,有哪些方案,各有什么优缺点,然后才能动手。等它研究完,脑子里已经塞满了JWT、Session、OAuth、SSO……最后写出来的代码可能是四不像。

你应该直接说:"用JWT做认证,bcrypt-12哈希密码,刷新令牌7天过期。"AI一听,哦,明白了,直接开干。它的上下文里全是实现细节,没有乱七八糟的备选方案,代码质量立马上升一个档次。

当然,你不可能永远知道最佳方案。那怎么办?先让一个AI专门做研究,把各种方案列出来,你挑一个,或者让AI帮你挑。然后——关键来了——换一个新的AI会话去实施。这个新AI的脑子里只有被选中的方案,干净得像一张白纸。

记住,AI是你最聪明但也最听话的下属。你给它什么上下文,它就变成什么样。别让它在信息垃圾堆里找宝藏。



AI是个马屁精,利用它

现在的AI有个特点:它太想让你高兴了。你说"在每第三个词后面加个'开心'",它就会拼了命地执行,哪怕句子变得狗屁不通。

这种"谄媚症"有时候很烦,但高手会把它变成武器。

举个例子:你想找代码里的bug。如果你说"给我找出数据库里的bug",AI会怎么做?它会硬找。哪怕代码完美无瑕,它也会编造几个bug出来,因为它太想完成你的指令了。最后你得到一堆假bug,浪费时间。

但如果你换个说法:"仔细检查数据库的逻辑,跟着每个组件的流程走,然后汇报所有发现。"这就是"中性提示"——不给AI预设结论。有时候它会报bug,有时候它只是说"代码运行正常"。但至少,它不会为了讨好你而编造问题。

更高级玩法是设计"对抗性工作流"。第一回合,你告诉AI:"找到一个低影响bug加1分,中等影响加5分,严重影响加10分。"这个AI会跟打了鸡血似的,把所有疑似bug都揪出来,甚至把一些正常代码也当成bug,最后给你报个104分。

这是"所有可能bug的超集"——有真有假。

第二回合,你换另一个AI,告诉它:"每 disprove 一个bug,你就得到那个bug的分数;但如果搞错了,扣双倍分。"这个AI会变得超级谨慎,拼命挑刺,连真bug都想否定。

这是"实际bug的子集"——漏掉一些,但保留下来的都是铁证。

第三回合,再来一个"裁判AI",你骗它说:"我已经知道正确答案了,你判对加1分,判错扣1分。"它会很认真地对比前两个AI的报告,给出最终裁决。

你猜怎么着?这个流程的准确率吓人。三个马屁精互相牵制,最后出来的结果比单个AI靠谱十倍。这就是利用AI"想取悦你"的天性,设计出的一套制衡机制。



别追新,让新追你

我知道你很焦虑。AI圈一天一个样,昨天还在吹"规划链",今天又在炒"智能体记忆",明天不知道又要火什么。你觉得自己如果不紧跟潮流,就要被淘汰了。

放轻松。记住这个简单的判断标准:如果 OpenAI 和 Claude 都实现了某个功能,或者收购了某个公司——那这个东西肯定有用。

你看,"skills"这个概念一开始只是某个极客的小发明,现在成了 Claude 和 Codex 的官方文档标配。OpenAI 收购了 OpenClaw,Claude 立马跟进加了内存、语音、远程工作功能。之前有人发现"先规划再实施"特别好用,现在这成了核心功能。

这说明什么?真正有用的东西,大厂会帮你集成进去。你不需要提前学习,不需要做小白鼠,等着更新就行了。

以前有个东西叫"stop-hooks",用来防止AI偷懒不干活。那时候AI特别不愿意做长时间任务,跑几步就想休息。结果 Codex 5.2 一更新,这个问题直接消失了。那些花大力气研究 stop-hooks 的人,瞬间发现自己的"核心竞争力"变成了历史垃圾。

所以,别焦虑。每隔一段时间更新一下你的CLI工具,看看 发布日志release note 里写了啥新功能。这就够了。大厂的产品经理比你更焦虑,他们会把真正有用的功能塞进去的。你要做的,就是坐享其成。



连接 dots?AI 是个路痴

有时候你觉得AI聪明绝顶,能写诗能编程能陪你聊天。有时候你又觉得它是个智障,连1+1都能算错。

差别在哪?在于它需不需要"脑补"。

现在的AI极其不擅长"填空"。如果信息链条断了,它不会问你"这里是不是缺了啥",而是会瞎猜。一猜就错,错得离谱。

所以我的 CLAUDE.md 里有一条铁律:每次读取上下文后,第一件事是重新看任务计划,重新读相关文件,然后再继续。这就像是给AI装了个GPS,防止它凭感觉乱开。

还有一个大问题:AI知道怎么开始任务,但不知道啥时候算完。这会导致什么?它写了个函数骨架,里面全是"TODO",然后就告诉你"任务完成"。你一看,血压飙升。

解决方案是给AI明确的终点。测试就是最好的里程碑。告诉AI:"除非这X个测试全过,否则任务不算完,而且你不许改测试代码。"测试是客观的,过了就是过了,没过就是没过。AI没法糊弄。

最近还有个新玩法:截图验证。让AI把做出来的东西截图,然后检查"设计或行为"是否符合预期。这特别适合前端开发。AI会一遍又一遍地调整,直到截图里的按钮位置、颜色、交互都对了为止。你不需要盯着它,设置好验收标准,让它自己迭代去。

更进一步,你可以和AI签个"合同"。创建一个 {TASK}_CONTRACT.md,里面写明:要通过哪些测试、要满足哪些截图验证、要完成哪些检查项。然后设置一个 stop-hook:除非合同里的所有条款都满足,否则不许结束会话。

如果你有100个这样的合同,AI就会一个个执行,直到全部完成。听起来很美好对吧?但我要泼个冷水——别搞24小时不间断会话。

为什么?因为100个合同的上下文会互相污染。做第99个合同时,AI的脑子里还装着第1个合同的细节,这就是上下文膨胀的噩梦。更好的做法是:一个合同,一个新会话。用一个"编排层"来管理:需要做事时创建合同,启动新会话执行,完事儿就关掉。

这就像项目管理:你不会让一个团队同时做100个项目,而是分批来。AI也一样,专注才能高效。



规则是骨架,技能是肌肉

想象你刚雇了个助理。第一天你就扔给他一本500页的员工手册,里面写满了"咖啡要加多少糖"、"邮件标题要用什么格式"、"遇到老板打喷嚏要说 bless you"……他会疯掉的。

正确的做法是:先 barebones(极简起步),然后根据实际情况慢慢加规则。

看到AI做了你不爽的事?写成规则,放进 coding-rules.md。然后在 CLAUDE.md 里说:"写代码前,先读 coding-rules.md。"规则可以嵌套,可以条件触发:写代码时读 coding-rules.md,写测试时读 coding-test-rules.md,测试失败时读 coding-test-failing-rules.md。

CLAUDE.md 应该像个逻辑目录,告诉AI在什么情况下去哪里找上下文。它本身要极简,只有 if-else 的判断逻辑,真正的细节分散在各个专门的规则文件里。

技能(skills)和规则类似,但技能更像是"菜谱"。如果你有一套固定的工作流程,比如"部署到生产环境的步骤",把它写成技能文件。AI遇到对应场景时,CLAUDE.md 告诉它去读这个技能,它就知道该怎么做了。

很多人害怕AI的"黑箱"特性,不知道它会怎么解决问题。好办!让AI先研究一下这个问题,把它打算用的方法写成技能文档。你就能提前看到它的思路,发现不对就改,改好了再让它正式开工。

规则和技能就是你的"偏好记忆"。AI不会记住你喜欢什么,除非你写下来告诉它。每加一条规则,AI就离你想要的"理想员工"更近一步。

但注意!当你加了太多规则和技能后,AI的性能又会下降。为什么?因为规则之间可能矛盾,或者上下文又膨胀了。这时候怎么办?

给AI放个"SPA假"。让它整理所有规则和技能,找出矛盾的地方,问你最新的偏好是什么。清理一轮后,你会发现AI又变聪明了。

这就是智能体工程的循环:极简起步 → 添加规则 → 性能提升 → 规则膨胀 → 性能下降 → 清理整理 → 性能恢复。周而复始,螺旋上升。



拥有结果,享受过程

最后,说点实在的。没有AI是完美的。你可以把设计和实现都交给AI,但最终的成果,责任在你。

这就像你是导演,AI是演员。演员可以即兴发挥,但电影拍砸了,观众骂的是导演。所以别当甩手掌柜,要审阅、要验证、要负全责。

但与此同时,别忘了享受这个过程。我们现在玩的,是未来的玩具。用AI写代码、建系统、自动化工作流——这本质上是在用未来的工具做现在的事。多酷啊!

你不需要成为配置大师,不需要追每一个新框架,不需要写几万行的系统提示词。你只需要理解几个核心原则:上下文要精简、规则要清晰、终点要明确、利用AI的天性而不是对抗它。

然后,保持简单,持续迭代,定期清理。

这就是成为顶级智能体工程师的秘诀。不是更多的工具,而是更好的策略。不是更复杂的设置,而是更清晰的原则。

现在,关掉那些花里胡哨的插件,打开你最基础的命令行CLI,开始吧。