自愈智能体：从质量评估到Bug修复全流程自动闭环

#CICD持续集成交付专栏 #软件质量指南 #DevOps教程 #AI智能体Agent

2026-04-28 1 6K banq

AI自己写代码自己修Bug还自己上线！一套让AI自动评分、修复、上线的自愈系统，彻底重构软件开发流程。没有QA团队，没有测试环境，全靠AI评委团打分和自动修复流水线，每天上线3到8次。

这套叫“自愈Agent系统”的东西，本质就一句话。AI自己干活，AI自己打分，AI自己修Bug，AI自己决定能不能上线。听起来像公司老板喝多了吹牛，但人家已经在生产环境里一天发3到8次版本了，而且没有QA，没有测试环境，也没人手动检查。

核心逻辑很简单，而且特别狠。只看结果好不好，出问题就立刻修，修完马上验证，没问题再继续上线。整个过程像流水线一样不停循环，完全不靠人盯着。你可以把它理解成一个自动修车的工厂，车开着开着哪坏了，系统自己发现，自己拆开修，修完还自己上路测试，没问题继续跑。

为什么传统开发流程在AI时代直接卡脖子

以前的软件开发是个啥流程。写代码，提交，测试，修Bug，再测试，再上线。听着挺合理，但有个致命问题，那就是慢。现在AI写代码的速度是啥水平，一个月的活，几个小时就写完了。问题来了，代码写得飞快，测试还在慢悠悠点鼠标。

这就像你开高铁，前面突然变成三轮车车道，直接堵死。

传统流程有两个大坑。一个叫评估和QA是两拨人干的，还有一个叫所有问题都要人来判断。结果就是AI干活越来越快，人越来越跟不上，最后瓶颈全卡在测试和验证。

在传统的SaaS公司中，这两拨人通常位于不同的地方：

评估：模型能否对实时交通状况给出准确的预测？机器学习或数据科学负责这项工作，他们负责制作仪表盘。
质量QA：产品在生产环境中是否能正常运行？工程部门负责这个问题。他们提交问题单、修复漏洞并发布版本。

所以本文分享了一件很暴力的事，直接把评估和QA合并成一件事，让AI自己干。

核心循环：一条能自己转的流水线

整套系统最重要的东西就五个动作。评分，分类，修复，验证，决定上线。这五步不停循环，像滚筒洗衣机一样转。关键点在于每一步都不需要人参与。系统的目标也很直接，发现问题越快越好，修复问题越快越好。

至于过程优不优雅，根本不重要。因为你花三天争论一个评估方法够不够科学，人家已经修了八个Bug并且上线了。现实就是这么残酷，速度就是一切。对于创业公司来说，一个今天能用的粗糙信号，比一个下季度才能出的完美报告值钱一万倍。

评分机制：AI当裁判，而且还是三个人一起判

这里是整套系统最核心的地方。以前怎么评估AI，人工看对话，打分，写报告。现在直接换成AI评委团。三个不同公司的模型同时上，Anthropic的Claude，OpenAI的GPT，Google的Gemini。这就像请了三个老师同时批作业，避免一个人偏心。因为如果只用自己的模型评分，它给自己打分往往会偏高，大概会虚高0.3分左右。

每次AI回复完一句话，系统立刻做一件事，把这段对话丢给评委打分。而且这个评分是异步的，不影响用户体验。用户还在聊天，后台已经在偷偷打分了。评分内容也很实在，回答质量好不好，有没有胡说八道，有没有用错工具，有没有漏信息。最后变成一个分数，从1分到4分，然后三个评委取个平均值。

重点来了。他们只看结果，不看过程。AI绕了一百个弯，只要结果对，就算好答案。这点特别关键，因为AI很多解法在人类眼里像邪门歪道，但就是好用。你要是强行规定它必须走某条路径，反而会把好答案给判成错的。这就叫评估结果，不评估路线。

分类系统：先搞清楚你在干啥再打分

在评分之前，系统会先做一件事，把任务分类。比如写代码，做研究，数据分析，聊天，写文章，任务自动化，构建Agent，构建传统应用，规划，创意工作，错误恢复。一共分成12类。为什么要这么干。因为写代码的好答案，和写作文的好答案，标准完全不一样。

你不能用文采好不好去评判代码。所以系统先判断类型，再用对应规则打分。这一步就像考试前先分科目，语文用语文标准，数学用数学标准，否则全乱套。比如在写代码这个类别里，工具调用错误就是大问题。但在聊天类别里，这个错误可能根本不存在。分类做对了，评分才有意义。

抽样的门道：小流量模型反而要全量采样

这里有个坑，很多人会踩。他们按流量比例抽样，比如所有请求都抽10%。结果就是主力模型占了90%的流量，抽样后还有9%的数据。而小模型本来流量就少，再抽10%就没几个样本了。等你想判断小模型好不好用的时候，数据不够，没法下结论。

所以他们的做法是反过来。主力模型因为流量特别大，只抽10%就够了。但所有小模型和实验模型，百分百全量采样。只有这样，你才能在几个小时内知道一个新模型到底行不行，而不是等上几周。这套逻辑特别反直觉，但特别有效。你要评估的不是流量，你要评估的是模型本身的表现。

工程流水线第一部分：问题聚类和严重程度判断

评分只是第一步，重点是后面。一旦分数低，系统直接把它当Bug处理。然后进入六步流水线。第一步是把所有低分问题收集起来，然后开始做聚类。简单说就是把同一类故障归到一起。比如一堆请求报错，一堆回答胡编，一堆接口挂了。这一步特别重要，因为一个根本原因可能造成几百个低分。

如果不做聚类，你看到的是几百个Bug，实际上就一个问题。系统还会算严重程度，看影响多少用户，持续时间多长，是不是核心功能，错误率多高，波及范围多大。然后给每个问题集群打分，分数高的优先处理。这就像医院的分诊台，先判断谁快死了先救谁，而不是谁先来谁先看。

工程流水线第二部分：AI自己调查现场找原因

第二步是调查现场。系统开始像侦探一样干活。它会查CloudWatch日志，看最近有没有新部署，翻数据库找异常，检查有没有API报错。然后给出一个结论，问题大概率出在哪。比如提示词被截断了，或者某个工具的Schema变了，或者底层ECS任务内存爆了。

最后把完整证据打包，包括日志片段、堆栈信息、时间线，全部一起扔给人类工程师。注意，这时候人才第一次出现，而且已经拿到完整材料。工程师不用再去翻半天日志，直接就能开始修。这就像你去修车，师傅已经把故障码读好了，零件也订好了，你过去只需要拧螺丝。

工程流水线第三部分：自动写代码修Bug

第三步是最刺激的，自动修复。如果问题够明显，严重程度够高，系统会直接动手。它新建一个分支，写修复代码，跑测试，然后提一个Pull Request到GitHub。但这里有很多刹车机制，防止它胡搞。每次运行最多只提三个PR，因为人工审核的人有限，不能把人家淹没了。

任何改环境变量文件或者权限配置文件的PR，直接自动关闭。测试跑不过的，自动关闭。代码有类型错误的，自动关闭。他们不是要让AI去修什么深层的架构问题，那些太复杂了。目标是修那些明显的、重复的、琐碎的Bug，把人类工程师从这些脏活里解放出来，去做真正需要动脑子的事。

工程流水线第四部分：用真实数据验证修没修好

第四步是验证，这一步特别狠。系统不会让人去手动测试，而是直接看生产环境的真实数据。比如修完一个Bug之后，系统会去查过去6个小时的CloudWatch日志。如果这个错误再也没有出现过，那就证明修好了，直接关闭Bug工单，并且在评论里贴上证据。

如果错误还在出现，那就更新工单，把最新的错误数量贴上去，然后继续循环。这里的关键是，验证的依据是真实流量，不是模拟测试。你骗不了系统，你说修好了没用，数据说没修好就是没修好。这就完全替代了手动的回归测试，人不用再点来点去了。

工程流水线第五和第六步：重新监控和日报

第五步是重新评分。修完之后，系统会对这个区域进行24小时的强化监控。原来可能只抽10%的样本，现在改成百分百全量采样。如果问题又冒出来了，系统会自动把Bug工单重新打开，甚至直接回滚那个修复。完全不等人发现，也不等人报告。

第六步是每天生成一份报告。报告会告诉团队，今天检测到了多少问题集群，发了多少个PR，有多少被回滚了，每个类别的分数变化是多少，每个模型的表现怎么样。但这个报告只是个记录，不是决策核心。很多人喜欢做漂亮的仪表盘，天天盯着看，但从来不行动。他们的想法很直接，行动已经发生了，报告只是留个存档而已。

发布桥接机制：上线这件事完全交给AI决定

前两个组件解决了已经上线的Bug。第三个组件解决的是即将上线的Bug。传统上线流程是测试通过，然后某个人点头说可以，然后上线。这里直接砍掉人。新版本上线流程是这样的，先放10%的流量试水。然后系统开始实时对比新版本和老版本的表现。

如果新版本的评委平均分比老版本低了0.15分以上，而且统计上显著，样本量超过200次交互，那么系统直接做三件事。第一，终止上线流程。第二，把流量切回老版本。第三，自动开一个Bug工单，附带上出问题的样本。这个工单直接进入前面的修复流水线。如果分数没问题，那就逐步扩大流量，从10%到20%再到50%最后100%。

整个过程没有我觉得可以上线这个环节，只有一个标准，数据说行才行。这替代了传统的预发环境和人工审批。很多人觉得AI决定上线有点恐怖，但仔细想想，人拍脑门决定上线才更恐怖。数据至少不会因为今天心情不好就乱来。

三个最痛的领悟：别走弯路

第一个领悟是评估结果，不评估过程。早期他们也犯过错，看到AI多调了一个工具就觉得不对，扣分。后来发现AI经常能找到人类想不到的解法，过程看着奇怪，结果特别好。你要是管得太细，反而把它绑死了。所以现在只看最终答案好不好，不管中间绕了多少弯。

第二个领悟是按模型抽样，不按流量抽样。这个前面说过了，不重复。总之记住一句话，你要评估的是模型，不是流量。用流量比例来抽样，小模型永远得不到足够的数据。

第三个领悟是分数不生成工单等于白干。很多人做个评分系统，搞个漂亮的仪表盘，然后就完了。结果没人看，也没人行动。评分如果不进入修复流程，就是一堆数字而已。反过来，修复流程如果没有评分给信号，就是瞎修。两个必须一起做，缺一个都不行。

这套系统干掉了什么：QA、测试环境、上线审批

这套系统干掉了三样东西。人工QA，因为有了AI评委团，不需要人坐那看对话打分了。测试环境，因为所有的验证都直接在生产环境用真实流量做，不再需要单独搭一套环境让人点来点去。上线审批，因为发布决定完全由数据驱动，不需要某个人点头。

你可以理解为以前是人监督机器，现在是机器监督机器。而人只在关键点介入，比如偶尔抽几个样本回来看看AI评委有没有跑偏，或者处理那些自动修复不了的深层架构问题。大部分人听到这个的第一反应是害怕，觉得自己的工作要没了。但实际的情况是，人的工作从重复劳动变成了更有趣的事情。

什么情况会翻车：系统不是万能的

当然这套系统不是完美的，它有自己的短板。比如当问题特别复杂，需要改好几个服务的时候，自动修复就搞不定了。或者当底层的模型本身出了大问题，评委团也跟着犯糊涂的时候，整个闭环就失效了。还有就是当网络特别卡或者外部API大面积超时的时候，评分本身都可能拿不到结果。

所以他们在设计的时候留了很多后手。比如评委团里有三个不同公司的模型，一个挂了还有两个。比如评分拿不到就降级，不影响用户主流程。比如自动修复有硬性的PR数量限制，不会让机器人把GitHub刷爆。所有看似很帅的自动化，背后都有一堆保命措施。这不是炫技，这是生产环境的求生欲。

普通团队怎么抄作业：从两步开始

别一上来就想全做，那不现实。先干两件事就够了。第一，把AI评分接到真实流量上，不用搞三个评委，一个也行。也不用搞12个分类，先分三五个就行。关键是让评分跑起来，能看到每个回答的分数。第二，让低分自动生成Bug工单。不用自动修复，不用自动验证，就生成一个工单，让人去看就行。

只做这两步，你的效率就已经碾压一半团队了。因为你第一次把评估和QA连起来了，而且完全是自动的。然后慢慢再补后面的环节，自动修复，自动验证，自动上线。记住一句话，流程才是壁垒，模型只是工具。模型会越来越强，但你能不能把模型组织起来干正经事，这要看你怎么搭这个流水线。

最后的实话：不是要不要做的问题，是跑不跑得掉的问题

很多团队现在还在干一件事，用Copilot写代码，然后走老流程测试。结果就是写代码像火箭，测试像蜗牛。差距越拉越大。这不是谁更聪明的问题，这是谁先意识到问题的问题。当AI把开发时间从一个月压缩到几个小时之后，你花在测试和评估上的时间就成了新的瓶颈。

真正的优势在于谁先把写代码加测试加上线这一整套全自动化。不是在老流程上缝缝补补，而是直接重做一遍。这套自愈系统，本质就是把开发流程从手动挡变成了自动挡。而且自动挡还在不断自己优化自己。谁先把流程跑顺，谁就开始滚雪球。至于还在争论评估方法够不够科学的人，抱歉，雪球已经从你身边滚过去了。

自愈智能体：从质量评估到Bug修复全流程自动闭环

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道