智能体Harness定制工程：马鞍比马更重要！

#AI智能体Agent #大语言模型LLM #OpenClaw #OpenCode

2026-03-05 5K banq

如果你还在纠结该选哪个大模型，可能已经输在了起跑线上。2026年的AI战场早就不是"谁的参数更多"的比拼，而是一场关于"马鞍工艺"的暗战。

这篇文章要聊的，就是为什么同样的模型配上不同的Harness，表现能差出十倍——以及Cursor怎么用一套写代码的Harness，顺手解决了一道斯坦福级别的数学难题。

同样的GPT-5，别人跑出66.5%你只拿到52.8%？ Harness才是隐藏的性能黑洞
诉AI"省点token"，它直接拒绝干活：模型 Harness 的微妙心理学

先扔几个数字让你清醒一下

普林斯顿的HAL排行榜花了四万美元，跑了21730次智能体 rollout，结果发现一个尴尬的事实：让Claude表现最好的脚手架，放到OpenAI模型上直接翻车，反之亦然。同样的任务，最优解居然取决于你用的是哪个家族的模型。这不是玄学，是实打实的工程现实。

更狠的是Cursor的内部数据。他们给GPT-5-Codex保留推理痕迹，性能提升30%。同样的操作放到基础版GPT-5上，只提升3%。十倍差距。他们告诉Codex"省着点用token"，结果这模型开始拒绝执行复杂任务——字面意义上的"我不想浪费token所以不干"。但把完全相同的指令给Claude，Claude毫无反应，该干嘛干嘛。

这说明什么？说明模型不是CPU，Harness才是真正的操作系统。你把Windows的驱动往Mac上硬套，能开机算你运气好。

Harness到底是什么玩意儿

Phil Schmid有个绝妙的比喻：模型是CPU，上下文窗口是内存，Harness就是操作系统。

LangChain的Harrison Chase进一步把概念理清楚：
“框架”是给你积木，“运行时runtime”则负责持久persistence，而“Harness”负责编排。
“框架”抽象，“运行时runtime”保存，Harness orchestrate——这三层里，Harness才是决定你的智能体在生产环境能不能活下来的那一层。

具体来说，一个生产级的Harness通常包含六个核心组件。

第一是推理引擎，模型无关的包装层，但选型是配置决定的。Cursor的做法很典型：用GPT-5.2当规划师，Codex当工人，不同模型在同一个Harness里扮演不同角色。

第二是规划与编排，核心循环是收集上下文、决策、执行、验证、重复。停止条件包括任务完成、最大迭代次数（通常是10-15轮）、成本预算和超时设置。这里的关键判断是，你到底在跑工作流（预设路径）还是智能体（动态路径），这决定了该用哪种模式。

第三是工具注册中心，负责能力注册、schema验证、执行和错误处理。工具描述的重要性不亚于工具本身——因为模型就是靠这些描述来决定调用什么的。Anthropic的建议很反直觉：与其做一个send_email工具，不如拆成draft_email和send_draft两个。让失败可恢复，这是生产环境的生存法则。

第四是内存与上下文管理。工作内存活在上下文窗口里，长期内存通过文件、RAG或结构化产物延伸到外部。Harness决定什么时候压缩、保留什么、以及每一步让模型看到什么结构。

第五是状态与持久化，包括检查点恢复、线程管理和人工介入节点。Cursor的做法是把git当共享状态，几百个worker往同一个分支push。

第六是结构化输入输出，输入输出都有类型安全，验证失败时Harness会重试（通常3次）。一个智能体的验证输出，就是另一个智能体的类型化输入。

Cursor的Codex调教日记

Cursor可能是业内最透明地分享 per-model tuning 经验的公司。他们的文档直言不讳："Cursor智能体Harness里的每个模型都有特定的指令和可用工具，用来在该模型在Cursor环境内优化表现"。

具体到Codex的适配，他们做了几件看似琐碎但至关重要的事。首先是工具重命名。Codex期待的是shell等效命令，比如用rg而不是search_files。效果好到Cursor决定在所有模型上推广这个命名规范。其次是显式动作偏置。Codex需要字面指令："如果某个动作有对应工具，优先使用工具而非shell命令"。仅靠工具定义不够，必须明确提示。Claude就不需要这种推动。

第三是推理痕迹保留。前面提到的30% vs 3%差距，让Cursor现在主动监控这些痕迹是否全程传递。第四是token节约的副作用。系统提示告诉Codex"节约token"，结果它开始拒绝雄心勃勃的任务。系统级指令覆盖了任务级意图，这是Harness设计中的经典陷阱。

在模型角色分配上，Cursor的发现也很有趣。GPT-5.2模型更擅长持续自主工作：遵循指令、保持专注、避免漂移。Opus 4.5倾向于更早停止、走捷径、快速把控制权交还。更反直觉的是，GPT-5.2作为规划师，表现比专门训练用于编码的GPT-5.1-Codex还要好。Cursor的总结很到位："很多改进来自移除复杂性，而非添加"。

当代码Harness证明了数学定理

2026年3月3日，Cursor CEO Michael Truell宣布他们的规划-工作-评判Harness解决了First Proof挑战的第6题。这是来自斯坦福、MIT、哈佛、伯克利数学家的研究级难题，网上从未公布过答案。Harness完全自主运行了四天，采用的方法与现有答案不同，得到了更强的常数（c从0.03提升到约0.146），光谱图论专家初步判断证明很可能是正确的。

重点在于：这套Harness是为写代码设计的，没有做任何数学领域的特定修改。这说明定制化的维度正在转移。不是"为每个领域建一个Harness"，而是"为模型的行为模式建一个Harness"，然后它能跨领域泛化。GPT-5.2在持续自主工作中的持久性，无论是写一周代码还是证四天定理，都是同一种特质。Harness放大的是模型特定的优势，与任务无关。

LangChain的逆袭之路

LangChain用实力证明Harness工程可以带来质的飞跃。他们在Terminal Bench 2.0上从Top 30冲到Top 5，提升13.7个百分点（从52.8%到66.5%），而模型完全没变（还是GPT-5.2-Codex）。秘诀是什么？三项关键技术。

首先是自验证中间件。智能体写完解决方案，重读自己的代码，确认看起来没问题，然后停止。LangChain的PreCompletionChecklistMiddleware强制对照原始规格进行验证——不是自我审查，是规格审查。自己给自己打分永远是A，但对照标准答案就能发现漏洞。

其次是推理三明治。最大推理（xhigh）模式下准确率53.9%，但智能体超时。标准（high）模式63.6%。最优解是xhigh-high-xhigh——规划和验证用最大推理，实现阶段用标准。更多算力不总是更好，要按阶段预算。

第三是跨模型确认。Claude Opus 4.6配早期Harness版本只有59.6%。这说明Harness改进不会自动迁移到不同模型，每个组合都需要单独调优。

Factory ai、Augment和Windsurf的军备竞赛

Factory ai的Droid在Terminal-Bench上以58.75%夺冠，靠的是委托者架构：编排者永远不碰代码，只在规范-测试-实现-验证的循环中协调。他们强调"不同提供商的旗舰模型表现出显著的运营差异"，因此必须为每个模型定制工具脚手架。

Augment Code的Context Engine能处理50万文件，作为MCP服务器暴露后，在300个Elasticsearch PR的测试中让Cursor提升70%以上。同样的模型，同样的Harness，仅靠更好的上下文检索就带来质变。Claude Code + Opus 4.5提升80%，Cursor + Opus 4.5提升71%（完整性+60%，正确性提升5倍），Cursor + Composer-1也有30%提升。

Windsurf的双智能体Cascade采用连续规划器+独立执行器的架构，配合定制的SWE-1模型——这个模型用"流感知"数据训练，能在10-15步连续操作中很少丢失线程。

模型差异的具体战场

工具调用格式上，Claude在单轮内交替推理和工具调用，OpenAI强制严格的来回格式，DeepSeek R1根本不能调用工具只能当规划师用。

系统提示处理上，Claude用标准系统提示+扩展思考+思考工具做草稿，OpenAI的推理模型（o3、o4-mini）用"开发者消息"替代系统提示，两者混用会失败，且不能调温度。

DeepSeek R1完全省略系统提示，所有指令放在用户消息里。

行为差异方面，Cursor记录到GPT-5.2擅长持续自主专注，Opus 4.5走捷径并快速交还控制，Codex退回到内联Python并需要显式工具偏置。Factory ai确认："尽管能力相似，旗舰模型表现出显著的运营差异"。

研究前沿的三个信号

ReliabilityBench显示，简单脚手架在压力下更稳。ReAct在故障下的性能退化（7.5%）优于Reflexion（10.0%）。Pass@1指标高估可靠性20-40%。LIVE-SWE-AGENT的研究发现，自进化脚手架达到79.2%，但伤害弱模型——Opus 4.5运行时创建工具表现优异，GPT-5-Nano却从44.0%暴跌到14.0%。技能库研究则表明，人工整理的技能比文档强16.2个百分点，小模型有技能能匹敌大模型无技能，自生成技能零收益。

OpenHands-Versa用只有代码执行、网页搜索、浏览和文件访问的基础工具，就在三个benchmark上超过了专门优化的智能体。这说明Harness可以跨领域泛化，但前提是Harness本身是针对模型行为定制的。

三个开放问题

第一，模型耦合是不是不可压缩的定制层？Cursor证明了协调模式可以从编码泛化到数学，但工具格式、推理痕迹处理、缓存策略这些必须 per-model 调整。可能的三分层是：模型耦合层必须定制，协调架构可以泛化，领域工具可以互换。

第二，如何评估Harness质量？HAL和Terminal Bench提供了方法论，但大多数团队用内部评估。这个领域需要开放的Harness benchmark，就像SWE-bench标准化了模型评估那样。

第三，Harness会比它们调优的模型活得更久吗？每次模型发布都可能推翻Harness的假设。Cursor的做法是每个模型单独调优。Harness是产品，但也是必须进化最快的东西。

结语：Harness即产品

2026年的AI产品竞争，表面是模型之争，实际是Harness工程之争。同样的GPT-5.2-Codex，LangChain能榨出66.5%，别人可能只有52.8%。同样的Claude Opus 4.5，配Droid能到58.8%，配Claude Code只有43.2%。这不是模型的差距，是马鞍的差距。

Cursor用写代码的Harness证明了数学定理，说明当Harness足够贴合模型的行为模式，它能带你进入意想不到的领域。未来的赢家不是拥有最好模型的人，而是最懂如何给特定模型配上定制马鞍的人。毕竟，再好的马，配上不合适的鞍，也跑不快。