半年时间里,最大的变化并不是参数更大、推理更深,而是从“人写代码,AI帮忙”切换到“人做决策,AI自动完成”。一旦进入这种模式,编程就不再是敲键盘的体力活,而是像开工厂一样管理一群永不疲倦的智能体。
半年前的误判:把AI当成高级IDE插件是一种低估
最早对Claude Code的态度,其实很典型:觉得它再强也只是IDE的补充,真正干活还是得靠Cursor、靠自己手改。费用看起来也不划算,同时订阅多个工具显得有点奢侈。再加上对Cursor团队的好感,更愿意把未来押在“增强型IDE”这条路上。
但半年后回头看,这种判断的问题不在理性,而在时代判断错位。
真正的拐点并不是“能不能写代码”,而是“能不能连续干活、自己验证、自己修错”。当AI只能写片段代码时,它确实只是插件;当它能跑测试、看日志、分析失败原因并再次尝试时,它就开始像一个初级工程师;当这些步骤被串成闭环,它就变成了一个可以独立交付结果的执行单元。
如今,几乎把所有工作——包括编程、数据分析、甚至调用 Nano Banana 3 API 生成 logo——都交给了 Claude Code。
转变的关键,是 Opus 4.5 的发布。之前用 Sonnet 4,虽然聪明但啰嗦,推理链太长,写代码慢得像在写哲学论文。Sonnet 4.5 虽然把 95% 的任务拉回 Claude,但延迟还是让人抓狂。直到 Opus 4.5 出现,不仅代码质量高,速度还快,连 token 消耗都比 Sonnet 更省。就算同时开四个 AI 智能体干活,Max 计划额度都没用完。
从Sonnet 4到Sonnet 4.5,再到Opus 4.5,看起来像是模型升级史,实际上是“能不能持续工作”的差异。Sonnet 4.5已经能完成绝大多数任务,但推理链条过长,响应慢,导致人必须频繁介入确认,这种中断会不断消耗注意力。
Opus 4.5真正的价值在于两个点:
第一,输出质量足够高,不需要反复返工;
第二,速度够快,推理不过度冗长,反而更省token。
在这种条件下,即使同时跑四个智能体,也很难触及使用上限。模型一旦满足“快、稳、能自己收尾”这三个条件,人类才有可能彻底放手。
测试不再是个笑话,Playwright 让 AI 真正“跑起来”
单元测试一直是AI最擅长的表演项目,看起来覆盖率很高,实际运行却一地500错误。这不是模型不聪明,而是测试目标错了。AI写的单元测试,本质上是在证明“我刚写的代码我自己能通过”。
真正的转折点出现在端到端测试上。过去E2E测试维护成本高、改一次炸一片,但在AI参与后,情况反转了。只要模型能自动写Playwright脚本、自动跑浏览器、自动复现真实用户路径,测试反而变成最省心的部分。
现在,只要在指令里加一句“为所有新功能写 Playwright 端到端测试”,Claude 就会自动生成能真实模拟用户操作的测试脚本。更关键的是,每次修改代码后,系统都会自动运行整套测试,确保老功能没被搞坏。这句曾经被程序员当耳旁风的管理金句——“自己先测一遍再交给 QA”——现在成了他 CLAUDE.md 文件里的铁律。
因此,关键不在于“有没有测试”,而在于是否强制站在用户视角测试。当AI被要求先像用户一样点页面、调接口、触发错误,再把这些过程固化为测试,幻觉和自嗨式通过率会明显下降。
关掉安全锁,AI 才敢放手干大事,才真正理解什么叫自动化
很多关于“AI连续工作半小时不需要人管”的说法,最初听起来像营销故事。现实中的体验是:权限确认弹窗不断,流程被反复打断,所谓自动化根本跑不起来。
过去,即使开了自动模式,Claude 还是动不动就弹出权限确认框:“你确定要删这个文件吗?”“你允许我修改配置吗?”搞得像在教小学生过马路。
直到用了 --dangerously-skip-permissions 这个启动参数,事情突然变得不一样了,AI 才真正“放飞自我”。
现在,只需下达任务,Claude 就能在后台默默干完一整套复杂操作,能体可以自由创建文件、运行脚本、切分支、执行测试、修复错误,整个过程不再等待人类点确认,最后直接交出成品。这一刻的变化并不是“更危险”,而是终于具备了“像人一样干活”的基本条件。
这种“无人干预连续作业”的体验,让人第一次感受到什么叫“AGI 那味儿”。当权限不再是瓶颈,AI第一次展现出那种连续专注、毫不分心、只朝目标前进的工作状态。这也是很多人第一次感受到所谓“AGI气息”的地方。(这里暗批OpenAI的CodeX已经被道德和安全减慢了!)
Compound Engineering的本质:把经验变成可复用记忆
“Compound Engineering”(复利工程)这个词直译成俄语会变成“复杂利息”,完全丢失了精髓。它的核心思想其实很简单:传统开发越做越累,因为每加一个功能,技术债就多一分;而复利工程反其道而行——每次开发都要让下次开发更容易。
Compound Engineering这个词,真正难翻译的不是语言,而是思维方式。它并不是“复杂工程”,而是“会复利的工程”。每一次失败、修复、踩坑,都会被写进CLAUDE.md,成为下一次任务的默认常识。
Every 团队做的这套插件,正是把这一理念落地成工具。它内置 24 个专业 AI 智能体、13 条斜杠命令和 11 个 MCP 服务器技能,构建了一个“计划—委派—评估—固化”的闭环。比如,AI 在修 bug 时学到的新模式,会自动写进知识库,下次遇到类似问题就能直接复用。久而久之,整个开发系统就像滚雪球一样越用越聪明。
这套方法的核心不是某个插件,而是一个闭环:计划、执行、评估、沉淀。AI负责执行和记录,人类负责判断方向和取舍。经验不再只存在于大脑里,而是被结构化成规则、清单和约束条件。
当智能体下一次遇到类似问题,它不是从零开始,而是直接继承了整个项目的历史记忆。这种积累速度,是任何人类团队都很难追上的。
四步循环:计划、干活、审查、沉淀
整个工作流严格遵循四个阶段。
第一步是“计划”(/workflows:plan),把模糊的产品想法变成详细的 Markdown 蓝图。这时候 AI 会疯狂研究你的代码库、提交历史和框架文档,确保方案贴合现有架构。
如果计划太浮夸,就用 /plan_review 压一压;如果细节不够,就用 /deepen_plan 补充;如果涉及多个功能,就用 /triage 决定优先级。
第二步是“干活”(/workflows:work),AI 会创建隔离的 Git 工作树(worktree),并行执行任务,互不干扰。
第三步是“审查”(/workflows:review),十几个专业代理同时上阵:有专查 Rails 代码的,有盯 TypeScript 类型安全的,还有专门找安全漏洞、性能瓶颈、数据库隐患的。
所有问题都生成待办事项,等你批准后,再用 /resolve_parallel 批量修复。
最后一步是“复利”(/workflows:compound),把本次经验打包进知识库,让未来开发站在更高起点。
CLAUDE.md:你的 AI 员工操作手册
每个项目根目录下的 CLAUDE.md 文件,就是 AI 的“岗位说明书”。
里面明确定义了什么是“好测试”、怎么写 BEM 样式、为什么坚持无构建(no-build)流程、如何自托管服务等。这套规则让 AI 不再是随机应变的聊天机器人,而是遵守你技术哲学的可靠工程师。
更重要的是,文件强制要求“测试—修复—提交”三步走:先手动验证(AI 会模拟用户点击或发 curl 请求),再跑本地 CI 脚本(包含 linter 和测试套件),最后才允许合并代码。
这种双重保险极大减少了“测试通过但实际崩了”的幻觉式交付。
在这种工作方式下,时间分配发生了根本变化。真正写代码的时间只占两成,剩下八成用于规划、评审和测试。人类的价值不再体现在“我能写多快”,而在于“我能不能一开始就判断对方向”。
工作重点转移到研究代码库历史、理解架构约束、拆解需求路径,然后把这些判断转化成清晰指令交给智能体。只要计划阶段足够扎实,后面的执行往往可以完全放手。
这也是为什么最终交付质量,往往在计划阶段就已经被决定了。
多任务并行:人类注意力才有的放矢
得益于 Git 工作树和 --dangerously-skip-permissions 模式,他可以同时推进多个功能分支。
比如一边让 Claude 开发用户登录模块,另一边让它优化支付流程,完全不用切换上下文。AI 在后台默默干活,程序员则利用这些“微暂停”时间启动新任务。
这种“多线程人类”模式,让开发效率呈指数级增长。甚至可以同时开四个 Claude 实例,分别尝试四种技术方案,最后选最优解。反正 AI 的算力便宜,人的注意力才最贵。
同时跑四个Claude实例,并不是为了显得很高级,而是为了节省注意力。与其盯着一个智能体慢慢干活,不如让四个并行探索不同方案,最后只选最优结果。
在这种模式下,代码本身的“稀缺性”快速下降。写错、推翻、重来都不再昂贵,因为人类不需要亲自付出体力成本。唯一真正稀缺的资源,是人类的专注力。
当注意力被从重复劳动中解放出来,人才能真正站在系统层面做判断。
多智能体并行不是炫技,而是注意力管理工具:无胜过有,无生有,当你的注意力被解放出来,无注意力时,你才能管理你的注意力,正如你有了钱以后,才需要理财,如果金钱都套在股市,都在老板那里,你有财可锂吗?巧妇难为无米之炊,首先,你得有钱和米,你得有空闲注意力可管理!
自动评审与外部工具的叠加,才是稳定性的来源
审查不是走过场,而是十轮打磨也不嫌多
很多人以为 AI 写完代码就万事大吉,但其实需要把 80% 的精力花在审查和测试上。AI 第一次交的代码往往“看起来很美,跑起来很脆”。因此要反复要求 AI:确认写了测试没?跑过 CI 了吗?覆盖所有场景了吗?然后启动多轮 /workflows:review,经常发现根本性设计缺陷,不得不推倒重来。
但没关系,点十次按钮而已,又不要命。
另外可还额外接入 GitHub 的 Claude 机器人和 Cursor 的 BugBot,自动扫描每次提交。有时这些外部工具能发现本地 AI 漏掉的问题,形成三重保险。
小结:
- 即使有完整的本地审查流程,仍然会引入外部AI评审作为第二道防线。GitHub上的Claude机器人和Cursor BugBot,经常能发现本地遗漏的问题。
- 流程也被彻底自动化:每次提交自动触发评审,问题多就生成修复计划,问题少就直接修。整个过程甚至不需要打开GitHub页面。
这种多层冗余,并不是因为不信任某一个模型,而是因为系统稳定性来自重叠校验,而不是单点完美。
代码的价值在贬值,注意力才是稀缺资源
在这个时代,代码本身越来越不值钱。你可以让 AI 生成一百个没人会读的测试文件,只为覆盖那些理论上存在的边缘情况;也可以让四个代理同时探索四种架构,哪怕其中三个注定被废弃。只要最终产品能跑,过程是否“优雅”根本不重要。真正值得保护的,是开发者的专注力。把重复、繁琐、易错的环节全部甩给 AI,人才能聚焦在真正需要判断和创意的地方——比如定义用户体验、设计系统边界、权衡技术取舍。
在这种模式下,代码本身不再是核心资产。它可以被重写、被替换、被智能体反复生成。真正重要的是规范、测试、经验沉淀和目标定义。
当AI可以连续工作、自动修错、自动验证,人类继续事无巨细地盯流程,反而成了系统的瓶颈。高效的做法,是把监督从“每一步”升级为“每一轮结果”。
最终,效率的上限不由模型决定,而由人类是否愿意放下控制欲决定。
实战效果:一人干出五人团队的产出
根据 Reddit 上 r/ClaudeCode 社区的反馈,采用这套方法的开发者普遍报告 3 到 5 倍的效率提升,尤其在代码审查和安全审计方面。
YouTube 上已有演示视频,展示单人如何以团队速度交付复杂功能。
GitHub 仓库里的 README 和 CLAUDE.md 提供了详细检查清单,Dan Shipper 在 Every.to 发布的《Compound Engineering: How Every Codes With Agents》更是深度拆解了内部工作流。
这一切都指向同一个结论:当 AI 不再是工具,而是具备完整工程能力的代理时,软件开发的生产力曲线将发生根本性偏移。
极客一语道破
虽然同类文章存在于Every、Hacker News与Reddit碎片讨论中,但系统性、可复现流程的文章不多,特别是标题强调了半年一恍惚,有点类似重入桃花源一样的恍如隔世。这种情绪价值能引起更多极客的认同和同感。
本文的独特性体现在三个层面:第一,真实半年演进视角,而非概念拼贴;第二,完整闭环工作流拆解,而不是单点工具评测;第三,对人类角色变化的现实判断,而非技术崇拜。
知识点关键词涉及: “Claude Code Compound Engineering workflow”、“Opus 4.5 Playwright testing”、“AI agent software development loop” 等