40万次Claude Code会话研究：领域专业知识比编程能力更重要

2026-06-18 3K banq

Anthropic分析约40万次Claude Code会话发现，领域专业知识而非编程能力是AI辅助编程成功的首要预测因素，专家验证成功率28-33%远超新手的15%，且非技术职业成功率与软件工程师差距在7个百分点以内。

Anthropic分析了大约40万次Claude Code会话，发现决定AI编程成败的关键因素不是会不会写代码，而是懂不懂行。用户负责大约七成的规划决策，Claude负责大约八成的执行决策，这意味着谁更懂问题本身，谁就掌握了主动权。专家级会话的验证成功率在28%到33%之间，而新手会话只有15%，这个差距在七个月里没有缩小，反而因为任务价值提升了大约27%，让懂行的人越来越值钱。

人机分工

Anthropic的这份报告把40万次Claude Code会话掰开揉碎看了一遍，时间跨度从2025年10月到2026年4月，涉及大约23.5万名用户。他们搞了一个叫“决策归因分类器”的东西，把每一个关键决定都拎出来看，到底是人做的还是AI做的。结果很清晰，人类做了大约七成的规划决策，比如做什么、走哪条路、什么算完成，而Claude包揽了大约八成的执行决策，比如改哪个文件、写什么代码、跑什么命令。一句话总结就是，人决定造什么，智能体决定怎么造。

这种分工模式直接解释了为什么懂行的人比会写代码的人更重要。你只需要说清楚要什么，剩下的脏活累活AI全干了。而且谁掌握主动权，Claude的行为模式也跟着变。当用户紧握执行决策权，做了超过八成的执行决定，Claude每轮只做大约8个动作，乖乖听指挥。而当Claude拿到了规划主导权，做了超过八成的规划决定，它每轮直接飙到16个动作，工具放开缰绳马力就拉满。这种默契就像一个人带着一支全能执行团队，你不需要亲自搬砖，但你必须知道这房子该怎么盖。

新手的指令只能触发大约5个Claude动作和约600词输出，而专家会话触发大约12个动作和约3200词输出，后者是前者的两倍多动作和五倍输出。同样的AI工具，懂行的人能榨出几倍的产能，差距不在工具在脑子。回归分析显示每提升一个专业等级，Claude的动作量增加大约9%，输出增加大约13%，这个关系在控制了工作类型、任务价值、月份、职业与模型版本后依然成立。

专业定义

报告里对“专业度”的定义跟你想的不一样，它跟你的职位头衔毫无关系而是任务特定的。一个资深工程师第一次搞Rust，在这个任务上就是个新手。而一个从没碰过Python的会计，只要他能精确告诉Claude月末对账必须卡住哪几条规则，还能一眼揪出AI漏掉的边界情况，那他在这个任务上就是不折不扣的专家。专业度不是你会什么工具，而是你对问题本身的理解有多深。

报告建立了一套任务专属五级专业度量表，从新手到专家。这套量表基于三个信号来判定专业度：用户是否要求验证、是否倾向于纠正Claude Code、以及Claude Code是否纠正用户。这种定义方式颠覆了传统认知，在AI编程里写代码的门槛正在被抹平，而懂业务的价值正在被疯狂放大。

成功差距

在最严格的验证成功标准下，必须有git提交、测试通过或用户明确确认这类可查证的硬证据，新手会话只有15%达标，中级用户跳到28%，高级和专家到了33%。最关键的信息藏在这条曲线的形状里，最大的那一跃发生在从新手到中级，也就是说你不需要成为绝世高手，只要有够用的把握就能拿走大部分红利，从中级到专家收益曲线明显变平了。

碰壁时的差距更扎心。当会话出错、反复重试，Anthropic管这叫“遇到麻烦”的会话，新手最终翻盘的概率只有4%，专家是15%。专家不是不会碰壁，而是碰了壁知道怎么把AI拉回正道。更扎心的是那些判定失败且一行代码都没写就放弃的会话里，19%的新手直接撂了挑子，其他经验水平的人只有5%到7%。最没经验的人一遇到坎就最先认输，他们不是输在能力上，是输在不知道下一步该跟AI说什么。

这种差距在每一种工作类型和每一个任务价值区间里都稳定存在。新手在“遇麻烦”的情况下至少部分成功比例为60%，而中级到专家为80%到81%。Anthropic的解读是，领域专业的价值之一在于当agent走偏时有能力把它导回正确方向。懂问题才能在Claude给出错误答案时知道哪里错了，才能精确说明边界条件，才能在agent做出奇怪决策时立刻出声纠正。

职业趋同

你是程序员还是律师还是产品经理，说实话没那么重要了。Anthropic用美国劳工统计局的标准职业分类体系把用户映射到23个大类，分类器被明确要求不能因为在写代码就认为他是程序员。一个律师用Claude写了一个自动审合同条款的脚本，他依然被归为法律从业者，因为他的核心工作是法律代码只是达成目的的手段。

在这个分类基础上，软件相关职业的验证成功率约30%，其他职业约26%。在真正产出代码的会话里是34%对29%，如果放宽到至少部分成功的标准，差距缩到只剩1个百分点，89%对88%。数据集里最大的十个职业，成功率全都落在软件工程师7个百分点以内，而且这个差距在七个月里既没有扩大也没有缩小，两边的成功率在同步提升。

最意外的是管理岗的验证成功率甚至略高于程序员。Anthropic自己分析认为这可能是因为管理者更善于在对话中明确表达“我要的就是这个”，也可能是指挥AI这件事和带团队本就是同一种能力，把需求拆清楚、把方向定明白、在关键节点做判断。这个发现几乎可以重写“AI时代谁最值钱”这个命题，答案不是最会写代码的人，而是最会定义问题的人。

任务演变

七个月里Claude Code的使用场景发生了显著变化。调试会话从33%降到19%，几乎砍半。与此同时操作软件包括部署、设定、执行pipeline从14%升到21%，写作与数据分析大约从10%翻倍到20%。用户把Claude Code用在越来越多“程序周边的工作”上，而不只是写程序本身。

任务的经济价值同步上升。Anthropic以自由接案行情估算每场会话的市场价值，七个月里平均上升约27%，其中构建型任务上升约43%，操作型约34%，修复型约32%。Claude Code用户平均每周要泡在这个工具上20个小时，一周五天一天四小时，比很多人陪伴家人的时间还长。这种使用深度和任务复杂度的同步提升说明，AI编程工具的边界正在快速向外扩张。

够用原则

Anthropic在报告结尾提出了一个值得记住的框架概念，收益来自“competence, not mastery”，简单说就是够用的掌握而不需要深度精通。对一个领域有基本到中等的理解就能拿到大部分好处，从中阶再往专家爬成功率的斜率明显变平。这个发现对非技术背景的人来说是个好消息，你不需要变成prompt工程高手，只需要对自己要解决的问题有足够的把握。

随着AI工具的持续扩张，它放大的不是程序技能而是你对问题的理解深度。不懂自己要解什么问题的人，用更强的模型也只是在更快速地迷路。在AI编程里写代码谁都能让AI写，但能不能把问题想清楚、把需求提到点子上，才是这个时代真正值钱的本事。

作者单位背景：Anthropic（Anthropic公司研究团队）