这篇文章要聊的,就是为什么同样的模型配上不同的Harness,表现能差出十倍——以及Cursor怎么用一套写代码的Harness,顺手解决了一道斯坦福级别的数学难题。
- 同样的GPT-5,别人跑出66.5%你只拿到52.8%? Harness才是隐藏的性能黑洞
- 诉AI"省点token",它直接拒绝干活:模型 Harness 的微妙心理学
先扔几个数字让你清醒一下
普林斯顿的HAL排行榜花了四万美元,跑了21730次智能体 rollout,结果发现一个尴尬的事实:让Claude表现最好的脚手架,放到OpenAI模型上直接翻车,反之亦然。同样的任务,最优解居然取决于你用的是哪个家族的模型。这不是玄学,是实打实的工程现实。
更狠的是Cursor的内部数据。他们给GPT-5-Codex保留推理痕迹,性能提升30%。同样的操作放到基础版GPT-5上,只提升3%。十倍差距。他们告诉Codex"省着点用token",结果这模型开始拒绝执行复杂任务——字面意义上的"我不想浪费token所以不干"。但把完全相同的指令给Claude,Claude毫无反应,该干嘛干嘛。
这说明什么?说明模型不是CPU,Harness才是真正的操作系统。你把Windows的驱动往Mac上硬套,能开机算你运气好。
Harness到底是什么玩意儿
Phil Schmid有个绝妙的比喻:模型是CPU,上下文窗口是内存,Harness就是操作系统。
LangChain的Harrison Chase进一步把概念理清楚:
“框架”是给你积木,“运行时runtime”则负责持久persistence,而“Harness”负责编排。
“框架”抽象,“运行时runtime”保存,Harness orchestrate——这三层里,Harness才是决定你的智能体在生产环境能不能活下来的那一层。
具体来说,一个生产级的Harness通常包含六个核心组件。
第一是推理引擎,模型无关的包装层,但选型是配置决定的。Cursor的做法很典型:用GPT-5.2当规划师,Codex当工人,不同模型在同一个Harness里扮演不同角色。
第二是规划与编排,核心循环是收集上下文、决策、执行、验证、重复。停止条件包括任务完成、最大迭代次数(通常是10-15轮)、成本预算和超时设置。这里的关键判断是,你到底在跑工作流(预设路径)还是智能体(动态路径),这决定了该用哪种模式。
第三是工具注册中心,负责能力注册、schema验证、执行和错误处理。工具描述的重要性不亚于工具本身——因为模型就是靠这些描述来决定调用什么的。Anthropic的建议很反直觉:与其做一个send_email工具,不如拆成draft_email和send_draft两个。让失败可恢复,这是生产环境的生存法则。
第四是内存与上下文管理。工作内存活在上下文窗口里,长期内存通过文件、RAG或结构化产物延伸到外部。Harness决定什么时候压缩、保留什么、以及每一步让模型看到什么结构。
第五是状态与持久化,包括检查点恢复、线程管理和人工介入节点。Cursor的做法是把git当共享状态,几百个worker往同一个分支push。
第六是结构化输入输出,输入输出都有类型安全,验证失败时Harness会重试(通常3次)。一个智能体的验证输出,就是另一个智能体的类型化输入。
Cursor的Codex调教日记
Cursor可能是业内最透明地分享 per-model tuning 经验的公司。他们的文档直言不讳:"Cursor智能体Harness里的每个模型都有特定的指令和可用工具,用来在该模型在Cursor环境内优化表现"。
具体到Codex的适配,他们做了几件看似琐碎但至关重要的事。首先是工具重命名。Codex期待的是shell等效命令,比如用rg而不是search_files。效果好到Cursor决定在所有模型上推广这个命名规范。其次是显式动作偏置。Codex需要字面指令:"如果某个动作有对应工具,优先使用工具而非shell命令"。仅靠工具定义不够,必须明确提示。Claude就不需要这种推动。
第三是推理痕迹保留。前面提到的30% vs 3%差距,让Cursor现在主动监控这些痕迹是否全程传递。第四是token节约的副作用。系统提示告诉Codex"节约token",结果它开始拒绝雄心勃勃的任务。系统级指令覆盖了任务级意图,这是Harness设计中的经典陷阱。
在模型角色分配上,Cursor的发现也很有趣。GPT-5.2模型更擅长持续自主工作:遵循指令、保持专注、避免漂移。Opus 4.5倾向于更早停止、走捷径、快速把控制权交还。更反直觉的是,GPT-5.2作为规划师,表现比专门训练用于编码的GPT-5.1-Codex还要好。Cursor的总结很到位:"很多改进来自移除复杂性,而非添加"。
当代码Harness证明了数学定理
2026年3月3日,Cursor CEO Michael Truell宣布他们的规划-工作-评判Harness解决了First Proof挑战的第6题。这是来自斯坦福、MIT、哈佛、伯克利数学家的研究级难题,网上从未公布过答案。Harness完全自主运行了四天,采用的方法与现有答案不同,得到了更强的常数(c从0.03提升到约0.146),光谱图论专家初步判断证明很可能是正确的。
重点在于:这套Harness是为写代码设计的,没有做任何数学领域的特定修改。这说明定制化的维度正在转移。不是"为每个领域建一个Harness",而是"为模型的行为模式建一个Harness",然后它能跨领域泛化。GPT-5.2在持续自主工作中的持久性,无论是写一周代码还是证四天定理,都是同一种特质。Harness放大的是模型特定的优势,与任务无关。
LangChain的逆袭之路
LangChain用实力证明Harness工程可以带来质的飞跃。他们在Terminal Bench 2.0上从Top 30冲到Top 5,提升13.7个百分点(从52.8%到66.5%),而模型完全没变(还是GPT-5.2-Codex)。秘诀是什么?三项关键技术。
首先是自验证中间件。智能体写完解决方案,重读自己的代码,确认看起来没问题,然后停止。LangChain的PreCompletionChecklistMiddleware强制对照原始规格进行验证——不是自我审查,是规格审查。自己给自己打分永远是A,但对照标准答案就能发现漏洞。
其次是推理三明治。最大推理(xhigh)模式下准确率53.9%,但智能体超时。标准(high)模式63.6%。最优解是xhigh-high-xhigh——规划和验证用最大推理,实现阶段用标准。更多算力不总是更好,要按阶段预算。
第三是跨模型确认。Claude Opus 4.6配早期Harness版本只有59.6%。这说明Harness改进不会自动迁移到不同模型,每个组合都需要单独调优。
Factory ai、Augment和Windsurf的军备竞赛
Factory ai的Droid在Terminal-Bench上以58.75%夺冠,靠的是委托者架构:编排者永远不碰代码,只在规范-测试-实现-验证的循环中协调。他们强调"不同提供商的旗舰模型表现出显著的运营差异",因此必须为每个模型定制工具脚手架。
Augment Code的Context Engine能处理50万文件,作为MCP服务器暴露后,在300个Elasticsearch PR的测试中让Cursor提升70%以上。同样的模型,同样的Harness,仅靠更好的上下文检索就带来质变。Claude Code + Opus 4.5提升80%,Cursor + Opus 4.5提升71%(完整性+60%,正确性提升5倍),Cursor + Composer-1也有30%提升。
Windsurf的双智能体Cascade采用连续规划器+独立执行器的架构,配合定制的SWE-1模型——这个模型用"流感知"数据训练,能在10-15步连续操作中很少丢失线程。
模型差异的具体战场
工具调用格式上,Claude在单轮内交替推理和工具调用,OpenAI强制严格的来回格式,DeepSeek R1根本不能调用工具只能当规划师用。
系统提示处理上,Claude用标准系统提示+扩展思考+思考工具做草稿,OpenAI的推理模型(o3、o4-mini)用"开发者消息"替代系统提示,两者混用会失败,且不能调温度。
DeepSeek R1完全省略系统提示,所有指令放在用户消息里。
行为差异方面,Cursor记录到GPT-5.2擅长持续自主专注,Opus 4.5走捷径并快速交还控制,Codex退回到内联Python并需要显式工具偏置。Factory ai确认:"尽管能力相似,旗舰模型表现出显著的运营差异"。
研究前沿的三个信号
ReliabilityBench显示,简单脚手架在压力下更稳。ReAct在故障下的性能退化(7.5%)优于Reflexion(10.0%)。Pass@1指标高估可靠性20-40%。LIVE-SWE-AGENT的研究发现,自进化脚手架达到79.2%,但伤害弱模型——Opus 4.5运行时创建工具表现优异,GPT-5-Nano却从44.0%暴跌到14.0%。技能库研究则表明,人工整理的技能比文档强16.2个百分点,小模型有技能能匹敌大模型无技能,自生成技能零收益。
OpenHands-Versa用只有代码执行、网页搜索、浏览和文件访问的基础工具,就在三个benchmark上超过了专门优化的智能体。这说明Harness可以跨领域泛化,但前提是Harness本身是针对模型行为定制的。
三个开放问题
第一,模型耦合是不是不可压缩的定制层?Cursor证明了协调模式可以从编码泛化到数学,但工具格式、推理痕迹处理、缓存策略这些必须 per-model 调整。可能的三分层是:模型耦合层必须定制,协调架构可以泛化,领域工具可以互换。
第二,如何评估Harness质量?HAL和Terminal Bench提供了方法论,但大多数团队用内部评估。这个领域需要开放的Harness benchmark,就像SWE-bench标准化了模型评估那样。
第三,Harness会比它们调优的模型活得更久吗?每次模型发布都可能推翻Harness的假设。Cursor的做法是每个模型单独调优。Harness是产品,但也是必须进化最快的东西。
结语:Harness即产品
2026年的AI产品竞争,表面是模型之争,实际是Harness工程之争。同样的GPT-5.2-Codex,LangChain能榨出66.5%,别人可能只有52.8%。同样的Claude Opus 4.5,配Droid能到58.8%,配Claude Code只有43.2%。这不是模型的差距,是马鞍的差距。
Cursor用写代码的Harness证明了数学定理,说明当Harness足够贴合模型的行为模式,它能带你进入意想不到的领域。未来的赢家不是拥有最好模型的人,而是最懂如何给特定模型配上定制马鞍的人。毕竟,再好的马,配上不合适的鞍,也跑不快。