本文详细拆解Matt Shumer分享的七步循环工程流程,教你如何让Claude模型自主运行数天完成复杂任务。
核心技巧包括:用GPT 5.5 Low做低成本探索、Claude Fable做高精度计划、Extra High做质量审核,以及最关键的一个提示词——让模型生成带时间戳和截图的HTML进度页面。
评论区讨论涵盖token成本控制、上下文窗口管理、实际应用案例等硬核话题。
搞循环工程这件事,最关键的就是让模型自己来回跑,你不用一直在旁边盯着。一套五步流程走下来,高低模型配合着用,省钱又省心。最绝的是你让它自己做个网页,每隔一阵就截图写日志,你随时打开浏览器就能看到进度。这招能让你同时盯着好几个任务,每个都乖乖按计划走。
循环工程为什么需要长时间自运行
你平时用模型,是不是问一句它答一句?就像你叫外卖,你点一下,人家送一下,你再点,再送。这就是最基础的请求-响应模式。
但现在的模型已经不是以前那个只会跟你聊天的玩具了。它自己就能当小工头,可以再叫来一堆更小的子代理帮它干活。就像你开了个修车铺,你只需要告诉工头要修哪辆车,工头自己去分配谁拆轮胎、谁查电路、谁试车,最后工头再把结果汇总给你。
这就是为什么“让它自己跑好几天”这件事变得特别有用。你想啊,如果你做一个很大的项目,可能要改几百个文件,要查几十个地方的文档,要测试很多遍逻辑。如果每一步你都得在旁边看着,那你就什么都干不了了,一天到晚就光看着屏幕了。
Matt Shumer分享了一个五步流程,专门解决这个问题。这套流程的核心思路是:贵的模型用来做计划和把关,便宜的模型用来跑腿和探索,中间用文档当传话的。
第一步,你先花点时间搞清楚你要做什么。比如你想做一个游戏,你得先大概知道这个游戏要有什么功能,需要用到哪些技术。这时候你用Claude 5.5 Low来干活。这个“Low”不是说它能力低,而是说它跑得快、花钱少,适合做准备工作。你就让它去查各种官方文档,去试API接口(就是程序之间互相调用的通道),把所有相关的文件路径、代码片段、你随手记的笔记都整理到一个文档里。
这就好比你要装修厨房,你得先量尺寸、看瓷砖样品、大概画个草图,把需要买的水槽和灶具型号列个清单。这个清单就是你的“上下文文档”。
第二步,你拿着这个文档去找Fable。Fable这个家伙用的是Claude的某个版本,它特别擅长做计划。你把所有资料塞给它,它就能给你做一个特别详细、特别靠谱的计划。Matt自己用的是/super-plan这个技能,说白了就是让Fable把大任务拆成小块小块的,每一步该做什么、改哪个文件、调用哪个函数,全都写得清清楚楚。
这就像是装修前你先让设计师出一整套施工图,哪里走水管,哪里留插座,台面多高,全都定好了再开工。
第三步,等你觉得这个计划已经很扎实了,你就跳回Claude 5.5 Extra High。这个“Extra High”版本脑袋更聪明,但跑起来也更费钱。你让它叫一堆子代理来,拿着那份计划逐条审核:有没有漏掉什么角度?有没有潜在的逻辑漏洞?代码质量够不够硬?
这一步就像是你请了个监理团队,专门拿着施工图去现场挑毛病。他们不看面子工程,就盯着那些容易出事的细节,比如防水做没做好、电线是不是用细了。
第四步,把上面审核出来的意见全部喂回给Fable。Fable会根据这些意见修改计划,改完了你再让Extra High看,来回这么折腾,直到你满意为止。然后你让Fable给你搭一套目标框架。Matt用的是一个叫/goal-creator的技能,这套框架会生成这么几个文件:
state.md里面存着验收条件和每个条件的完成进度,就像一个打勾清单。log.html是一个日志网页,里面有时刻表、截图、决策记录,反正代理干过什么事全都记在上面。steps文件夹里放着每个步骤的详细计划,大部分改动已经提前写好了。notes-from-the-boss.md这个文件专门用来存Fable在干活过程中记下来的想法和提醒。
第五步,让Fable输出一个/goal提示词。这个提示词不长,主要就是指向上面那套文件,告诉模型照着计划跑,一直跑到所有验收条件都打勾为止。
第六步,你拿着这个提示词,跳到Claude 5.5 Extra High里面执行。这次运行会让模型一个模块一个模块地啃,每做完一步就记到log.html里,遇到问题就记到notes-from-the-boss.md里。整个过程清清楚楚,你随时可以打开那个日志网页看它干到哪了。
第七步,这一步是锦上添花。你让Fable定一个定时任务,比如每20分钟就去检查一下实施进度,然后把它的想法写到notes-from-the-boss.md里。这样就算你没盯着,模型自己也会主动记笔记、主动提醒自己要注意什么。你那个/goal提示词里面会写清楚:要定期查看老板笔记,根据里面的内容更新计划文件。
这套流程的核心逻辑特别简单:让便宜的模型做探索和跑腿,让贵的模型做计划和质量把关,让文档在中间当传话筒。你不用一直看着,但所有进度都有据可查。
Matt自己用这套方法,效果最好的是3D和游戏设计这种需要反复试错的活儿。他说自从Fable出来以后,就靠这套配置,效果最稳。
一个提示词让人体验好十倍
Matt还分享了一个特别简单的技巧,他说这是他用来盯住模型的最牛提示词,没有之一。
原话是这样的:“搞一个能长期存活的网页。你干活的时候,往里面不断加上带时间戳的更新,配上截图或者别的图片,这样我能跟得上进度。”
就这么一句话。他管这叫十倍好体验。
为什么这句话这么管用?因为大多数模型干活的时候,给你的反馈就是一坨一坨的文本。你让它跑十分钟,它给你吐出来几千个字,里面混着代码、思考过程、报错信息、成功信息,你根本看不清楚它到底干了什么。你得像考古一样,从一堆泥土里慢慢刨出有用的东西。
但有了这个网页就不一样了。模型每做完一件事,就往网页上追加一条记录。比如:
[14:32:02] 开始分析项目结构,找到了23个文件
[14:35:17] 完成第一轮代码审查,发现3个潜在问题,已截图保存
[14:40:55] 正在修复问题1/3,进度45%
[14:45:10] 问题1已修复,测试通过,截图已更新
你打开这个网页,从上往下看,清清楚楚。就像看一个流水账,每一分钟干了什么都知道。而且因为它可以放截图,你甚至不用读代码就能看出来界面变成什么样了、报错信息长什么样了。
有个叫Winter的人回复说,这招太聪明了。HTML用来展示成果特别清楚,加上时间戳就能看到整个流程和顺序。Matt自己回应说,这确实是一个巨大的进步,让他可以同时管理好多模型一起干活,因为他能很快重新搞清楚上下文,不用花时间回忆刚才进行到哪了。
还有人问,为什么不让它直接做一个带路线图、任务列表、各种链接的维基页面?这样你就能像逛网站一样浏览整个项目,而不是跟一个大文本块较劲。Matt没有直接回答,但意思很明显:你当然可以做得更复杂,但最简单的那个版本已经足够好用了。
Steven Cheng还补充了一个细节:往那个HTML网页里加一个自动刷新的标签,就不用自己手动刷新了,调试那种跑很久的循环任务的时候特别有用。
大家最担心的两个问题:钱和上下文
这个五步流程和HTML网页技巧发出来以后,评论区炸了。但大家最关心的不是这个方法好不好用,而是两个实际问题:要花多少钱?上下文窗口满了怎么办?
先说钱的问题。有人直接说,让模型跑好几天,我的钱包可扛不住。还有人算账说,Fable跑几个小时就能把一个星期订阅的额度全吃光。更有人讽刺说,一天两百美金,哈哈哈哈。
Matt对这些质疑的回答挺实在的。他说他还没遇到过这个问题,完全取决于你拿它做什么活儿。他大部分时间是用来做3D和游戏设计,那种活儿的消耗可能跟写代码不太一样。
但仔细想想,他的五步流程其实就是在帮你省钱。你看啊,第一步用5.5 Low去探索,这个版本便宜。第二步用Fable做计划,也不是最贵的那个。第三步才用Extra High做审核,但只是审计划,不是让你用它跑完整流程。第四步又回到Fable改计划。第六步用Extra High跑正事,但目标已经很清楚了,不用瞎试。
这就好比你请人干活,搬砖的你请临时工,便宜。画图纸的你请设计师,中等价格。最后验收你请专家来看一下,按小时收费。你总不会让专家去搬砖吧?所以这套流程的核心就是用对模型做对事,不是一味地用最贵的那个从头跑到尾。
再说上下文窗口的问题。有人问,跑好几个小时,上下文窗口满了怎么办?模型会自动压缩吗?压缩了还能好吗?
这个问题确实存在。上下文窗口就像模型的短期记忆,你塞进去的东西越多,它记得就越吃力。到最后要么记不住前面的,要么就开始胡言乱语。模型自己的处理方式是自动压缩,但压缩过的记忆就像你拿MP3转成超级低码率,能听出来是个歌,但细节全没了。
Matt没有正面回答这个问题,但评论区有人给出了思路。让模型做只追加的网页,只往后面加新内容,不能改前面的。这样就算上下文窗口满了,你至少还有一份完整的记录在外面。还有人建议用维基的方式,把大任务拆成小页面,模型每次只需要加载当前任务的相关页面就行了,不用把整个项目塞进去。
说白了,解决上下文窗口问题的办法就是:别让它记那么多。把信息存在外面,需要的时候再读。
有人已经靠这套东西清空了积压任务
评论区里有个叫Christopher Roge的人说了一句让人印象深刻的话。他说,Fable在他那跑了48小时,一直在派子代理干活,然后他积压了好久的任务,全清空了。他说自己都震惊到说不出话。
48小时,也就是两天两夜。一个模型不眠不休地在那边拆任务、派活、检查、重试,把你之前懒得做或者没时间做的那些破事全干完了。你只需要第一天给它指个方向,第二天睡醒起来打开那个HTML网页,看看它都干了什么,有没有卡住的地方,微调一下继续跑。
还有个人说,他让模型自己当监工,再去监控别的模型。他写了一套监控程序,专门看子代理是怎么生出来的,这样他就能强制模型去用专业选手而不是万金油。这已经不是在用一个模型了,而是在搭一套模型班子。
更夸张的是Keisuke。他说他的办公室看起来像个服务器农场,但其实是一个印钞机,专门用来搞预测市场赚钱。他刚在自己的Mac Mini堆栈上部署了一套定制的代理网络,全部用Viktor框架跑着。他说他不只是在跑模型,而是在跑一整支情报团队。
当然也有人泼冷水。有人说Matt你这么说就失去可信度了,懂行的人都知道你在吹牛。还有人说,这事不现实,跑着跑着就自动降级成Opus了,说什么安全问题,其实就是token用太多了。
但不管怎么说,从评论区的情况来看,确实有人已经靠这套东西干成了事。不是所有人都成功了,但成功的那批人,效果确实吓人。
怎么判断这套东西适不适合你
看到这里你可能会想,这套流程听起来挺复杂,是不是只有大神才能用?其实不是。判断标准很简单。
第一,你是不是经常有一个想法,但懒得一步一步告诉AI怎么做?如果你每次跟AI聊天都觉得解释起来太累,那你就需要这套东西。因为你只需要第一次说清楚,后面就不用再说了。
第二,你的项目是不是需要反复改?如果你做一个东西,经常做到一半发现前面想错了要推翻重来,那你就需要这套东西。因为五步流程里专门有审核和反馈的环节,就是让你在花钱跑正事之前先把计划敲死。
第三,你是不是同时有好几个想法想试试?如果你脑子里同时有三四个点子,每个都想让AI帮你弄一下,那你就需要这套东西。因为每个任务都有自己的一套文件,你随时可以切换,打开log.html就知道这个任务跑到哪了。
第四,也是最重要的一点,你是不是愿意花一点时间去搭这个框架?这套东西最花时间的不是跑的过程,而是第一步和第二步——收集资料和做计划。但这两个步骤本身就是帮你理清思路的过程。你要做的事情,连你自己都想不清楚,你怎么能让AI帮你干好?
反过来,如果你平时只是让AI帮你写个邮件、翻译一段话、改个错别字,那这套东西对你来说就大炮打蚊子了。根本不用搞这么复杂,直接问直接答就行。
循环工程这套东西,本质上就是让模型替你做那些重复的、耗时的、需要来回改的脏活累活。你负责想清楚要什么,它负责闷头干。中间加一个HTML网页当窗户,你随时瞟一眼就行。
Matt最后说了一句大实话:这套流程还需要继续改进,但他觉得很多开发者都在往类似的方向摸索。自从Fable出来以后,这套配置是他试过效果最好的。
Matt Shumer,AI领域知名开发者,多次分享模型工程化使用经验,其工作流程被大量开发者引用和验证。评论区参与者包括各技术背景的AI工程师、产品经理及早期采用者。