Harness工程来自loser死磕：每次失败都变成永久规则

#AI智能体Agent #职场吐槽 #vibe编程 #认知困境

2026-05-10 1 4K banq

优秀生不适合搞软件 AI，只有loser才合适！AI编程助手不只是模型，围绕它的提示词、工具、沙箱、钩子等一套Harness（马具）才是关键。本文讲解Harness工程学：每次失败都变成永久规则，让你用普通模型也能跑出顶级效果。

啥是马具Harness？
就给马戴的一套马鞍缰绳，马鞍让你坐得舒服，缰绳类似方向盘发动机开关，指挥约束马的行为！

为何用Harness马具做比喻？
马是自由奔跑的灵性动物，“马上民族”说法过去被农耕文明看成是野蛮民族，其实是低文明看高文明的误区，驾驭自由是最难的，是高等文明，失去自由概念的奴隶才是低等文明，所以，对于大模型这样新兴事物，人们更愿意用代表自由奔跑的马来比喻，正如今年是马年一样。

别再怪模型笨了，问题出在你没给它配好Harness马具

大伙儿现在搞AI编程助手，天天比哪个模型聪明、哪个写代码漂亮。我跟你说，方向跑偏了。我见过一个中等模型配上好Harness（马具），把顶级模型干趴下的真实案例。啥是Harness马具？就是套在模型外面那全套东西：提示词、工具、沙箱、钩子、反馈回路。模型就是个大脑，Harness马具才是让它干活的胳膊腿。

简单说一个核心理念：你的AI助手每犯一次错，你就给它焊死一条规则，让它这辈子再也犯不出同样的错。这叫Harness工程学。以后别再说什么“这模型不行”，你应该说“我这套Harness马具有bug”。

失败的教训变成永久规则，Harness马具就能越跑越稳

想象你训练一条狗。狗叼错了鞋子，你当场让它重新叼一遍，然后下次提前把正确的鞋放门口。Harness工程学就是这个逻辑，但更狠。

每次AI助手搞砸了，你不只是重试一次。你要分析原因，然后把防范措施写进系统的骨头里。比如助手提交了代码但把测试给注释掉了，你就在项目说明文件里加一条铁律：永远不许注释测试，要么删除要么修好。再比如助手差点删了重要文件夹，你就在它执行删除前加个钩子函数，直接拦截这种危险操作。

这套做法的神奇之处在于：你今天觉得烦的那些小毛病，一个一个都被焊死了。三个月后，你的Harness马具里躺满了各种规则，每条规则背后都是一个真实流血的教训。这时候你再看，普通模型也跑得跟专家一样稳。

好Harness马具先想行为再设计零件，每个零件必须有活干

很多团队搞反了顺序。他们先堆一堆工具，然后看AI怎么用。正确的做法是这样：先想清楚你希望助手表现出什么行为，然后反过来设计能产生这个行为的Harness马具零件。

举个例子，你希望助手改完代码后自动跑一遍测试。那你要设计一个后置钩子，测试通过就安静，测试失败就把错误怼回助手的对话里让它自己改。你希望助手不把整个代码库塞进脑子，那你要给它文件系统读写权限，让它按需读取。

这个原则很粗暴：你Harness马具里的每个零件，你必须能一句话说清楚它存在的目的是什么。说不清的直接删掉，别留着碍事。文件系统是为了让助手有地方存临时工作。Bash命令是为了让助手能自己组装需要的工具。沙箱是为了让助手瞎折腾时不炸掉你的电脑。每个零件都有活干，整个系统才能跑得顺。

Harness马具里有七个关键零件，少了谁都会出问题

第一块是文件系统和代码版本控制工具。模型一次只能看有限长度的对话记录。所以你得给助手一个真实的文件夹，让它把读到的资料、写到一半的代码都存进去。加上版本控制工具后，助手还能自己建分支、试方案、搞砸了就回滚。

第二块是Bash和代码执行能力。你不可能提前给助手配好所有工具。给它Bash权限，它就能自己敲命令装软件、跑脚本、查日志。大部分模型写Shell脚本都挺溜，这招最实用。

第三块是沙箱环境。Bash权限给出去很危险，所以必须套上沙箱。让助手在一个隔离的小房间里折腾，文件随便改、命令随便跑，但动不了你主系统的任何东西。好沙箱还会预装好各种编程环境、测试工具、无头浏览器，助手跑完代码能自己验证结果。

第四块是记忆和搜索。模型本身不记得你项目的任何历史。你得在Harness马具里塞进记忆文件，每次对话开始时自动注入助手的脑子。要查最新信息，再给它配上网页搜索和第三方工具接口。

第五块是对付记忆超载的机制。模型脑子就那么大，聊久了就会变笨。好Harness马具会用三种办法：把旧对话压缩成摘要、把超级长的输出存在文件里只留关键信息进脑子、用到了哪个工具才加载哪个工具的说明。

第六块是长期任务的拆分和循环。助手自己跑长任务容易半路放弃或者想不全面。你要强制它先列计划、每做完一步自己检查一遍、甚至把出主意的人和检查的人分成两个不同的助手角色。

第七块是钩子函数，这是强制执行层。钩子在关键节点插入：执行Bash前、改完文件后、提交代码前。它们能挡掉危险命令、自动格式化代码省下对话记录、跑测试套件。最理想的状态：一切正常时助手听不到任何废话，出错了才听到详细的报错。

配置文件要像飞行员检查清单，每条规则都用血泪换来的

你项目的根目录里放一个纯文本说明文件，这玩意儿性价比最高。但别把它写成风格指南那种又臭又长的东西。要像飞行员的检查清单，短小精悍，每个条目都是过去真实失败换回来的。

同样的原则用在工具选择上。十个高度专注的工具，永远好过五十个功能重叠的工具。因为每个工具的描述都会塞进助手的提示词里，工具越多助手脑子越乱。另外小心那些来历不明的第三方集成，它们可能在你不知情时往助手脑子里塞了坏提示词。

真正的生产级Harness马具长什么样，看看顶级产品的拆解

业界公开的最清晰案例，是有人逆向拆解了Claude Code这个产品的架构。那张架构图里，前面讲到的每个零件都成了具体组件。知识注入层就是记忆模块。循环状态存在内存存储和工作区隔离器里。危险操作钩子排在权限门后面。多助手协同有独立的防火墙层。工具分发中心同时接了第三方服务和Bash。你看，一个成熟的Harness马具，就是把我们刚才说的七个零件老老实实都实现了。

模型升级了Harness马具不会消失，只是换了个地方打仗

有人觉得模型越来越聪明，总有一天不需要外面这套Harness马具了。我跟你说，不会消失，只是战场转移了。

模型变强了，以前让你头疼的某些问题确实自动消失了，比如模型记不住太多东西的焦虑就减轻了不少。但天花板也抬高了。以前做不到的那些复杂任务现在能做了，新的问题又冒出来了。每个Harness马具零件都是基于当时模型的短板设计的。模型进步了，对应的旧零件就该拆掉，但要爬更高的山，你又需要建新的零件。

Harness工程学反过来还会教模型怎么进化

现在有个很有趣的反馈回路。模型公司在训练新版本时，已经把你的Harness马具考虑进去了。他们会针对马具里常用的操作做特别优化，比如文件系统操作、Bash命令、调用子助手。这导致模型在某些特定动作上越跑越溜。你的Harness马具会变成活的系统，而不是一个静态配置文件。说白了，最好的Harness马具就是专门为你自己的任务和流程量身定制的那一套。

以后不是调用模型API，而是调用Harness马具服务

行业正在变。以前大家直接调用大模型的API，拿到一堆文字就完了。现在大家开始调用Harness马具服务，这东西给你一个现成的运行环境，循环、工具、记忆管理、钩子、沙箱都给你配好了。

你不用再从零开始搭架子。选一个成熟的Harness马具框架，配置几个核心选项，然后集中精力写你自己领域特有的提示词和工具。出了问题也好排查，你是在调整一个设计良好的配置面板，而不是重新发明整个助手架构。

多助手并行、自己修自己的Harness马具

今天最牛的AI编程助手，它们虽然底下的模型不同，但上面的Harness马具长得越来越像。整个行业正在快速找出哪些是必须的支撑结构，才能把生成文字变成能发布的软件。

现在最刺激的几个难题已经超越了单个助手。怎么让多个助手并行干活不打架，怎么让助手分析自己的运行记录然后自动修复Harness马具层面的错误，怎么搭建一个环境让助手用到哪个工具就临时组装哪个工具。最终这个趋势走下去，Harness马具不再是静态的配置文件，而会越来越像一套编译器，把你的需求自动翻译成模型能跑通的操作序列。

如果你在找一个好用的Harness马具框架，FredKSchott写的Flue就很扎实，而且据说灵感就来自本文的早期版本。

Harness工程来自loser死磕：每次失败都变成永久规则

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道