AI编程助手到底靠不靠谱,关键看系统提示词怎么写。六个主流工具的对比实验证明:同样的模型换上不同的提示词,行为模式完全不同。提示词决定了AI是谨慎的计划派还是激进的试错派,这比单纯比拼模型参数更能影响实际使用体验。
先把结论讲清楚,模型决定能力上限,系统提示词决定你能不能跑到那个上限。
模型像发动机,系统提示词像驾驶策略、导航路线和交通规则。
发动机再猛,驾驶策略混乱,车一样跑不快。
系统提示词在每一次调用模型时都会出现,它持续塑造行为风格、任务节奏、工具使用方式和表达方式,所以它是长期稳定影响行为的“底层设定”。
很多人热衷讨论模型谁更强,像讨论马力、参数和排行榜。真正决定使用体验的因素常常来自系统提示词。
系统提示词就是AI的底层操作系统,模型只是CPU而已
六个命令行编码智能体,看似相似,内核分裂
研究对象是六个命令行编码智能体:
- Claude Code
- Cursor
- Gemini CLI
- Codex CLI
- OpenHands
- Kimi CLI
它们的基本功能几乎一致,接收任务、扫描代码库、理解结构、编写代码、运行命令、追踪进度,界面形态也接近,都是终端风格。
真正打开系统提示词时,气质差异瞬间显现。
Claude Code 和 OpenHands 的提示词长度只有 Codex 和 Gemini 的一半左右。
Cursor 在搭配 GPT-5 时,大量篇幅用在性格和行为控制。
Kimi CLI 极度精简,几乎没有工作流引导。
提示词长度差五倍,Cursor话痨Kimi极简
看看这组数据,Claude Code的提示词2015个token,OpenHands只有1822个,都属于精简派。
但Codex CLI直接飙到5436个token,Gemini CLI也有5218个,是前两者的两倍半还多。
Cursor CLI(配GPT-5版本)3009个token,属于中等身材。
最离谱的是Kimi CLI,只有1019个token,连别人的零头都不到。
这差距就像有人写简历写了五页纸,有人只写了三句话。
Cursor特别有意思,三分之一的篇幅都在教AI怎么做人,什么语气该亲切,什么时候该严肃,怎么避免让用户觉得被冒犯。
Kimi则完全相反,几乎不教AI怎么说话,也不告诉它具体工作流程,就给了最基本的工具使用说明,剩下的让AI自己悟。
这种差异背后有两个核心原因。
第一是模型校准,每个AI模型都有自己的怪癖和坏习惯,提示词就是用来纠偏的。比如有的模型天生话多,有的喜欢瞎猜,有的非要跟你讨论哲学问题,提示词就得像驯兽师一样把这些毛病摁住。
第二是用户体验设计,有的团队想要一个话痨助手,边干活边解释;有的想要一个沉默寡言的工具人,指哪打哪。
代码注释和并行工具调用,所有团队都在跟模型较劲
这些提示词里有个特别搞笑的现象,所有团队都在拼命教AI一件事:别在代码里写废话注释。
- Cursor明确要求"不要给简单明显的代码加注释",
- Claude说"除非用户要求,否则别加注释",
- Codex也是这个调调,
- Gemini更狠,直接说"绝对禁止通过注释跟用户对话"。
为啥要反复强调?因为AI模型在训练时看了太多烂代码,那些代码里全是"//这里是个循环"这种废话注释,甚至还有人在注释里写小作文。
模型学坏了,觉得写代码就得配段内心独白。
提示词工程师们每天都在跟这些训练数据的糟粕作斗争,这叫"对抗权重"(fighting the weights)。
还有个更有趣的战场:并行工具调用。
- Claude的提示词说"尽可能最大化并行工具调用",
- Cursor用全英文大写吼叫"关键指令:同时调用所有相关工具...默认并行",
- Kimi也全大写强调"强烈建议并行调用工具"。
这背后的原因是,AI模型训练时的示例大多是串行的,一步一步来,这样方便调试,数据标注也简单。但用户可等不及,能同时查十个文件干嘛一个一个查?所以提示词得强行覆盖模型的本能,教会它 multitasking。
换掉提示词,Claude秒变Codex,行为模式完全重塑
最炸裂的实验来了。研究团队用OpenCode框架,把Claude Code的提示词换成Codex的,其他什么都不变,同样的Opus 4.5模型,同样的工具集,看看会发生什么。
结果让人惊掉下巴。
Codex提示词培养出了一个方法论至上的书呆子:先读提示文件,同时全局搜索README,然后并行读三个文件,接着读hostblock.py,创建三项目待办清单,把所有测试用例文档化,最后才动手实现,一次通过。
Claude原版提示词则养出了一个行动派莽夫:读提示文件(路径还读错了),然后pwd && ls抢救一下,读README,先跑测试看哪里炸了,读测试文件,读源文件,创建两项目待办清单,动手实现(炸了两次),修复(还剩一个错误),再修复(终于通过)。
这就像是让同一个人分别读《孙子兵法》和《李小龙语录》,一个非要谋定而后动,一个信奉先打了再说。两种风格都能解决问题,但用户体验天差地别。有人喜欢稳妥,有人嫌太慢;有人喜欢快速迭代,有人嫌太乱。
平均行为数据揭示:提示词重塑了AI的工作流DNA
把多个SWE-Bench Pro测试题的平均数据拉出来看,趋势更明显:
- 用Claude提示词的Opus,探索阶段占大头,然后分析、理解、计划、实现、验证,流程比较均衡。
- 用Codex提示词的Opus,理解阶段特别重,计划阶段也很长,实现阶段相对集中,验证阶段较短。
更夸张的是GPT模型配不同提示词的表现:
- Claude提示词让GPT变成了一个话痨探索者,平均每个任务消耗74350个token,探索和分析阶段占了大半篇幅。
- Codex提示词让GPT变得高效直接,平均56243个token,理解阶段扎实,实现阶段干脆,验证阶段完整。
这说明提示词不仅改变风格,还改变资源消耗模式。有的提示词让AI疯狂试探,token烧得像流水;有的提示词让AI一击必中,省时省力。
系统提示词的进化史,就是一部AI驯化日记
研究团队还追踪了Claude Code提示词的历史版本,发现这东西根本不是一成不变的圣经,而是每天都在改的操作手册。新版本模型发布时,提示词会大幅调整来适应新特性;发现模型有新怪癖时,提示词会打补丁来纠偏。
整体趋势是越写越长,因为功能越来越多,要约束的行为也越来越多。但中间会有波动,有时候会删掉一些过时的约束,有时候会重写某一块逻辑。Mario Zechner(马里奥·泽希纳)甚至做了个网站,专门对比Claude Code每次版本更新的提示词差异,堪称AI考古学。
这就像是看着一个新手老师慢慢学会怎么管班级,一开始规矩很少,发现学生造反了就加一条,发现管太死就松一点,最后形成一套独特的班级管理制度。每个AI编程助手的提示词,都是其团队与模型长期博弈的结晶。
别只盯着模型参数了,提示词工程才是隐藏BOSS
现在AI圈有个怪现象,大家天天吵Opus 4.6和Codex 5.3哪个更强,Gastown和Pi哪个框架更好,但几乎没人讨论系统提示词怎么写。这就像买车只比发动机马力,完全不聊变速箱调校和底盘悬挂。
实际上,系统提示词定义了用户体验的方方面面。它决定AI是谦逊还是自信,是详细还是简洁,是主动提问还是被动等待。甚至可以通过换提示词,让一个AI"感觉"起来像另一个AI。这才是真正的上下文工程,而系统提示词就是上下文工程的起点。
所以下次你吐槽某个AI编程助手"太啰嗦"或者"太莽撞"的时候,记住,这很可能不是模型的锅,而是提示词工程师的审美选择。
模型给了AI智商上限,提示词决定了AI能达到这个上限,还是以什么姿态达到这个上限。