AI端侧应用、氛围编程

六大编程智能体提示词比较：提示词就是底层操作系统

AI编程助手到底靠不靠谱，关键看系统提示词怎么写。六个主流工具的对比实验证明：同样的模型换上不同的提示词，行为模式完全不同。提示词决定了AI是谨慎的计划派还是激进的试错派，这比单纯比拼模型参数更能影响实际使用体验。

先把结论讲清楚，模型决定能力上限，系统提示词决定你能不能跑到那个上限。
模型像发动机，系统提示词像驾驶策略、导航路线和交通规则。
发动机再猛，驾驶策略混乱，车一样跑不快。

系统提示词在每一次调用模型时都会出现，它持续塑造行为风格、任务节奏、工具使用方式和表达方式，所以它是长期稳定影响行为的“底层设定”。

很多人热衷讨论模型谁更强，像讨论马力、参数和排行榜。真正决定使用体验的因素常常来自系统提示词。

系统提示词就是AI的底层操作系统，模型只是CPU而已

六个命令行编码智能体，看似相似，内核分裂

研究对象是六个命令行编码智能体：

Claude Code
Cursor
Gemini CLI
Codex CLI
OpenHands
Kimi CLI

它们的基本功能几乎一致，接收任务、扫描代码库、理解结构、编写代码、运行命令、追踪进度，界面形态也接近，都是终端风格。

真正打开系统提示词时，气质差异瞬间显现。

Claude Code 和 OpenHands 的提示词长度只有 Codex 和 Gemini 的一半左右。
Cursor 在搭配 GPT-5 时，大量篇幅用在性格和行为控制。
Kimi CLI 极度精简，几乎没有工作流引导。

提示词长度差五倍，Cursor话痨Kimi极简

看看这组数据，Claude Code的提示词2015个token，OpenHands只有1822个，都属于精简派。
但Codex CLI直接飙到5436个token，Gemini CLI也有5218个，是前两者的两倍半还多。
Cursor CLI（配GPT-5版本）3009个token，属于中等身材。
最离谱的是Kimi CLI，只有1019个token，连别人的零头都不到。

这差距就像有人写简历写了五页纸，有人只写了三句话。

Cursor特别有意思，三分之一的篇幅都在教AI怎么做人，什么语气该亲切，什么时候该严肃，怎么避免让用户觉得被冒犯。
Kimi则完全相反，几乎不教AI怎么说话，也不告诉它具体工作流程，就给了最基本的工具使用说明，剩下的让AI自己悟。

这种差异背后有两个核心原因。

第一是模型校准，每个AI模型都有自己的怪癖和坏习惯，提示词就是用来纠偏的。比如有的模型天生话多，有的喜欢瞎猜，有的非要跟你讨论哲学问题，提示词就得像驯兽师一样把这些毛病摁住。

第二是用户体验设计，有的团队想要一个话痨助手，边干活边解释；有的想要一个沉默寡言的工具人，指哪打哪。

代码注释和并行工具调用，所有团队都在跟模型较劲

这些提示词里有个特别搞笑的现象，所有团队都在拼命教AI一件事：别在代码里写废话注释。

Cursor明确要求"不要给简单明显的代码加注释"，
Claude说"除非用户要求，否则别加注释"，
Codex也是这个调调，
Gemini更狠，直接说"绝对禁止通过注释跟用户对话"。

为啥要反复强调？因为AI模型在训练时看了太多烂代码，那些代码里全是"//这里是个循环"这种废话注释，甚至还有人在注释里写小作文。
模型学坏了，觉得写代码就得配段内心独白。

提示词工程师们每天都在跟这些训练数据的糟粕作斗争，这叫"对抗权重"（fighting the weights）。

还有个更有趣的战场：并行工具调用。

Claude的提示词说"尽可能最大化并行工具调用"，
Cursor用全英文大写吼叫"关键指令：同时调用所有相关工具...默认并行"，
Kimi也全大写强调"强烈建议并行调用工具"。

这背后的原因是，AI模型训练时的示例大多是串行的，一步一步来，这样方便调试，数据标注也简单。但用户可等不及，能同时查十个文件干嘛一个一个查？所以提示词得强行覆盖模型的本能，教会它 multitasking。

换掉提示词，Claude秒变Codex，行为模式完全重塑

最炸裂的实验来了。研究团队用OpenCode框架，把Claude Code的提示词换成Codex的，其他什么都不变，同样的Opus 4.5模型，同样的工具集，看看会发生什么。
结果让人惊掉下巴。

Codex提示词培养出了一个方法论至上的书呆子：先读提示文件，同时全局搜索README，然后并行读三个文件，接着读hostblock.py，创建三项目待办清单，把所有测试用例文档化，最后才动手实现，一次通过。

Claude原版提示词则养出了一个行动派莽夫：读提示文件（路径还读错了），然后pwd && ls抢救一下，读README，先跑测试看哪里炸了，读测试文件，读源文件，创建两项目待办清单，动手实现（炸了两次），修复（还剩一个错误），再修复（终于通过）。

这就像是让同一个人分别读《孙子兵法》和《李小龙语录》，一个非要谋定而后动，一个信奉先打了再说。两种风格都能解决问题，但用户体验天差地别。有人喜欢稳妥，有人嫌太慢；有人喜欢快速迭代，有人嫌太乱。

平均行为数据揭示：提示词重塑了AI的工作流DNA

把多个SWE-Bench Pro测试题的平均数据拉出来看，趋势更明显：

用Claude提示词的Opus，探索阶段占大头，然后分析、理解、计划、实现、验证，流程比较均衡。
用Codex提示词的Opus，理解阶段特别重，计划阶段也很长，实现阶段相对集中，验证阶段较短。

更夸张的是GPT模型配不同提示词的表现：

Claude提示词让GPT变成了一个话痨探索者，平均每个任务消耗74350个token，探索和分析阶段占了大半篇幅。
Codex提示词让GPT变得高效直接，平均56243个token，理解阶段扎实，实现阶段干脆，验证阶段完整。

这说明提示词不仅改变风格，还改变资源消耗模式。有的提示词让AI疯狂试探，token烧得像流水；有的提示词让AI一击必中，省时省力。

系统提示词的进化史，就是一部AI驯化日记

研究团队还追踪了Claude Code提示词的历史版本，发现这东西根本不是一成不变的圣经，而是每天都在改的操作手册。新版本模型发布时，提示词会大幅调整来适应新特性；发现模型有新怪癖时，提示词会打补丁来纠偏。

整体趋势是越写越长，因为功能越来越多，要约束的行为也越来越多。但中间会有波动，有时候会删掉一些过时的约束，有时候会重写某一块逻辑。Mario Zechner（马里奥·泽希纳）甚至做了个网站，专门对比Claude Code每次版本更新的提示词差异，堪称AI考古学。

这就像是看着一个新手老师慢慢学会怎么管班级，一开始规矩很少，发现学生造反了就加一条，发现管太死就松一点，最后形成一套独特的班级管理制度。每个AI编程助手的提示词，都是其团队与模型长期博弈的结晶。

别只盯着模型参数了，提示词工程才是隐藏BOSS

现在AI圈有个怪现象，大家天天吵Opus 4.6和Codex 5.3哪个更强，Gastown和Pi哪个框架更好，但几乎没人讨论系统提示词怎么写。这就像买车只比发动机马力，完全不聊变速箱调校和底盘悬挂。

实际上，系统提示词定义了用户体验的方方面面。它决定AI是谦逊还是自信，是详细还是简洁，是主动提问还是被动等待。甚至可以通过换提示词，让一个AI"感觉"起来像另一个AI。这才是真正的上下文工程，而系统提示词就是上下文工程的起点。

所以下次你吐槽某个AI编程助手"太啰嗦"或者"太莽撞"的时候，记住，这很可能不是模型的锅，而是提示词工程师的审美选择。

模型给了AI智商上限，提示词决定了AI能达到这个上限，还是以什么姿态达到这个上限。

六大编程智能体提示词比较：提示词就是底层操作系统

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道