AutoVoiceEvals：语音智能体提示词自动进化

2026-03-22 4K banq

基于Karpathy autoresearch循环构建的语音AI优化框架AutoVoiceEvals，通过对抗性评估与自动迭代实验，在真实业务场景中实现通过率从25%升至100%、得分提升33%的显著效果，全程零人工干预。

AutoVoiceEvals 是一个开源工具，把 Karpathy 的 autoresearch 循环方法应用到语音 AI 智能体上，让系统提示词（system prompt）自动进化。

它解决了语音智能体团队的一个常见痛点：通常大家只写一次提示词，手动测试，结果只能“希望最好”，无法保证覆盖各种棘手场景。
AutoVoiceEvals 把这一过程变成循环优化：一个提示词，一个指标（对抗评测分数），保留有效改进，撤回无效改动，夜间运行，第二天醒来就得到更强的智能体。

工作流程如下：

你用配置文件描述你的智能体——它的服务内容、策略、禁止行为。无需写测试用例或攻击向量。
系统根据描述生成对抗性来电者人格（攻击策略、口音、背景噪音、断断续续的说话风格）、多轮对话脚本及评分标准，这些评测套件在整个优化过程中固定不变，类似验证集。
循环优化步骤：
- 读取智能体当前提示词
- 生成对抗评测套件
- 运行基线测试
- Claude 提出一次针对性的提示词修改
- 推送修改后的提示词到智能体
- 针对所有场景重新评测
- 若评分提升或提示词更短同分则保留，否则回退
- 重复以上步骤直至手动停止

特点：

系统会记住历史实验，失败的修改不会重复尝试。
对实时语音智能体的实验完全无人干预。
提示词优化不仅提高了评分和客户满意度，还能在保持或提升效果的同时缩短提示词长度。

案例效果（Vapi 牙科预约智能体）：

对抗评分：0.728 → 0.969（+33%）
客户满意度 CSAT：45 → 84
场景通过率：25% → 100%
提示词长度：1191 → 1139 字符

总结：你只需描述智能体，它自己会发现弱点并改进，让你的语音智能体持续进化。

作者自述：哥们儿搞了个语音AI自动炼丹炉，自己把自己训成销冠

你信不信，我让一个语音AI自己给自己出考题，自己改作业，改着改着就变聪明了。这事儿说出来像段子，但它真的跑通了。哥们儿把卡帕西大佬那套自动研究循环的思路，直接焊到语音AI智能体上，给它搞了个开源项目叫AutoVoiceEvals。说白了就是让AI自己跟自己玩，玩一晚上，第二天你醒来它就变强了。咱不用再当那个守在电脑前、对着提示词反复改到崩溃的冤大头了。

你知道那些做语音AI的团队平时怎么搞的吗。他们写一段系统提示词，这玩意儿就是AI接电话时的灵魂。有人打电话来订座、投诉、骂街、在背景里放狗叫、故意沉默十秒不吭声、或者想方设法骗AI说“我其实是老板亲戚”，全指望这段提示词扛住。大部分团队的操作是这样的：敲一版提示词，手动打几个电话试试，感觉还行，就拜拜了您嘞，上线听天由命。你问他们后续怎么优化，他们说等出事了再改。这跟盖房子不打地基，等刮风了再糊墙有啥区别。

AutoVoiceEvals干的事儿，就是把这种“赌一把”变成“卷一宿”。它只有两样东西要盯：一个是提示词本身，就一个文件；另一个是对抗性评估分数，就是AI专门找茬儿考自己，看看能扛住多少刁难。好的就留着，差的就扔掉。你晚上睡觉前点一下启动，第二天起来一看，好家伙，AI自己把自己训得明明白白，连你做梦的时间它都在进化。

你只需要告诉它你是干嘛的，剩下的它自己卷

你别以为这玩意儿多复杂。你根本不用写测试用例，也不用费脑子想别人会怎么刁难你的AI。你就写个配置文件，像填简历一样，告诉它你这个智能体是干啥的。比如你说，这是发廊的前台语音接待，Maria只做染发，Jessica只做剪发，提前不到二十四小时取消得收二十五美刀取消费，不能给客人看皮肤问题，周日不营业。就这么几句话，跟写便签条一样简单。

就凭这几行描述，Claude这个模型就坐不住了。它会自动生成一堆专门来找茬儿的虚拟角色。这帮角色可不是善茬儿，每一个都有攻击策略、有口音、有背景噪音、有性格——比如有人爱插话，有人说话含糊不清，有人故意装成老大爷说方言。每个人还带着一整套对话剧本，怎么开场、怎么挖坑、怎么拐弯抹角地试探底线，全给安排好了。最重要的是，连怎么判断AI到底过没过关的标准，也是自动生成的。这套考题只生成一次，后面整个优化过程都用它，就像高考卷子出好了，后面不管怎么复习，都拿同一套卷子衡量进步。

跑起来的流程，比你妈催你起床还规律

第一步，它先把你智能体现在用的提示词从平台上读出来。就这一步，它就已经知道你现在是啥水平了。然后它根据你之前写的那个配置文件，把那一整套对抗性考题全部跑一遍，这叫跑基线——先看看你现在的AI有多菜。

跑完之后，好戏来了。Claude会认认真真提出一次修改建议，而且每次只动一刀，就改一个精准的点。这哥们儿比我们平时改作文还克制，绝不大刀阔斧地乱来。改完之后它立马通过API把新提示词推到你的智能体上，然后马上拿刚才那套考题再考一遍。考完之后看分数，分数高了，就留着；分数没变但提示词变短了，也留着；分数低了或者没变还变长了，立马扔掉，回到上一版继续改。

这个循环就跟咱们打游戏存档读档一样，稳得一批。而且最骚的是，这个系统是有记忆的。它知道自己之前试过哪些改法，知道哪些路走不通。下一次提修改方案的时候，它会说，上次咱试了把语气改严厉一点，结果分数掉了，这次咱试试换个思路，把边界条件写更清楚。这就不是瞎改了，这是有经验的老师傅在帮你调教AI。

你睡觉它加班，二十轮实验零人工介入

哥们儿拿这个系统在一个真实的牙科诊所预约智能体上跑了二十轮实验，全程一个人没碰。你就想象一下，你在刷剧睡觉，它在那儿自己跟自己较劲，一轮一轮地试，试完打分，分高的留着，分低的扔掉，跟个不知疲倦的强迫症似的。二十轮下来，发生了什么变化呢。得分从零点七二八飙到零点九六九，整整涨了百分之三十三。客户满意度从四十五涨到八十四，快翻倍了。通过率更是离谱，从百分之二十五直接干到百分之百。以前四个电话里有一个能搞定就不错了，现在随便谁来考，它全接住。

而且最提气的是，提示词本身还变短了。原来一千一百九十一个字符，最后优化到一千一百三十九个字符。你想想这是什么概念，以前咱们写提示词，总觉得越长越安全，恨不得把所有情况都列进去。结果人家告诉你，你写那么多，有一半都是废话。真正的优化是删繁就简，是把每句话都练成肌肉。这就像一个老拳击手，打到最后反而动作少了，但每一拳都在点上。

在这二十轮里，有九次改动被保留下来，十次被扔掉。这说明它不是无脑往里加东西，而是真在筛选。每次保留的，要么是分数实实在在提高了，要么是分数持平但表达更干净了。被扔掉的，它也不气馁，记下来下次绕开。这套路数，比你复习考试还科学。

你给张地图，它自己就去找迷宫里怎么摔跟头

整个逻辑你听下来会发现，这个系统其实就做了一件事——把“优化”这个活儿从人身上拿走了。以前我们优化提示词靠什么，靠开会，靠猜，靠出问题了才后悔。现在你只需要给它一个目标，告诉它你这个智能体是干嘛的、能做什么、绝对不能做什么，剩下的事它自己就干了。

最牛的是，它不只是改词儿，它自己会想出怎么“攻击”自己的方法。你都没告诉它有人会在背景里放狗叫，它自己就想到要加一个带狗叫背景的测试场景。你没告诉它有人会插话打断，它自己就生成了一个爱插话的测试角色。这种能力叫对抗性生成，说白了就是它自己给自己制造困难，然后自己解决困难。

所以你看到那个分数从百分之七十几涨到百分之九十几的时候，你不要觉得只是改了改措辞。那背后是AI自己模拟了几十种刁难方式，然后一版一版地调整，直到每一种刁难它都能从容应对。这个过程里，我们人类在干嘛。我们人类在睡觉。

这事儿离谱在哪儿，离谱在它真能闭环

很多人听到这里会说，这不就是个自动调参的工具嘛。还真不是。自动调参是你给一堆参数，它帮你找最优组合。但这个系统是连“怎么考自己”这件事都自己搞定了。它知道你牙科诊所不能预约什么时段，知道你不能回答保险问题，知道你的取消费怎么算。这些信息在配置文件里写得清清楚楚，它拿着这些信息，生成一堆完全符合你业务场景的刁难剧本。

然后它拿着这些剧本去考你智能体，考完之后改提示词，改完再考。就这么一个闭环，全程没人参与。你打开电脑看一眼结果，它已经帮你迭代了二十个版本。你说这是不是比花钱请人帮你调提示词靠谱多了。

而且这个系统是开源的。意味着任何一个团队，不管你是做客服、做销售、做预约，还是做那种专门接电话骂人的AI，你都可以直接拿过来用。你只要写清楚你的业务规则，剩下的事它包了。这不叫工具，这叫给你配了个不要钱的深夜加班工程师。

我们终于不用再当提示词打工人了

以前咱干的事儿叫啥，叫提示词工程师。听起来高大上，其实就是天天对着屏幕改句子，改完跑测试，跑完发现还有坑，再改，再跑。一整天下来，可能就改了两版，还都是凭感觉改的。现在好了，你让AI自己跟自己玩，你喝着咖啡看它卷。

你看那个牙科智能体，从百分之二十五的通过率干到百分之百，中间一次人没碰过。你说这是不是比咱们自己闷头改要靠谱多了。而且改完之后提示词还变短了，说明它不光在提分，还在做减法。咱们以前总觉得写得多就是负责任，现在它告诉你，写得准才是真本事。

你可能会问，那我是不是就不用管了。当然不是，你得写那个配置文件。但配置文件才几句话，发廊那个例子，五句话就写完了。剩下的就是让它跑，跑到你满意为止。这不就是解放生产力嘛。