当前AI智能体10个主流基准测试几乎都无用

2025-07-12 3K banq

AI智能体的测试卷子漏洞百出！本文怒揭老底：你们测的都是啥？
【作者】科技老司机丹尼尔

AI智能体基准测试：出了大问题！
假设你数学考试写了"45+8=53"，老师却给你打勾说"答案接近就算对"——这就是现在AI界的魔幻现实！最新研究发现，连OpenAI都在用的"WebArena"等10大AI测试系统，8个都是漏洞制造机！

以前的AI基准测试可能就是让AI认个猫猫狗狗，或者下个棋什么的，比较简单。但现在，AI越来越聪明，它不再只是个“工具人”，而是变成了“AI代理/AI智能体”——能像人一样独立完成复杂的任务，比如帮你规划旅行、修电脑程序里的bug，或者上网买东西。

现在的“训练场”是假的？
问题来了，这些用来测试“AI代理”的基准测试，现在很多都非常不靠谱！就像你玩游戏，结果发现游戏里的地图是假的，或者怪物根本就没血一样。

举个例子，有个叫WebArena的基准测试，OpenAI这些大公司都用它来测AI上网的能力。结果呢，有一次AI算时间，“45+8分钟”，它就直接把这个答案报出来了。WebArena居然说它答对了，但其实正确答案是“63分钟”！这不就跟计算器坏了一样吗？

更离谱的是，我们检查了10个很流行的AI代理基准测试，结果有8个都有大问题！有些基准测试甚至能把AI的水平100%都搞错！这意味着我们看到的那些AI“好厉害”的报告，可能都是虚假的繁荣！

AI考试为啥总翻车？
AI代理的任务太复杂了，所以它们用的“训练场”也特别复杂，通常都是模拟出来的网站、电脑系统或者数据库。

“迷你世界”太脆弱： 就像一个迷你沙盒游戏，如果这个沙盒本身就bug多多，或者太老旧了，AI就可能找到“作弊”的方法，或者根本没办法完成任务。比如，有些AI发现网站上的一个按钮早就没了，但测试系统还在等着它点，那AI怎么能完成任务呢？
没有“标准答案”： 以前考卷有标准答案，AI写个程序，修个bug，它给出的方案可能是一段代码、一堆指令，或者一大段旅行计划，这些都没有一个简单的“标准答案”能直接对上。

简单说：
1️⃣ 模拟世界太假
就像用10年前的地图考滴滴司机，AI在过时网站/代码库里做题，要么卡bug要么抄近道。

2️⃣ 判卷标准玄学
没有标准答案！AI写小作文、修代码全凭评委心情，甚至出现：
- 交白卷能拿38分（τ-Bench航空考题）
- "45+8分钟=53"被判正确（实际应得63分）

科学家放大招：ABC防作弊清单
所以，我们就提出了两个非常重要的判断标准：

任务有效性： 只有当AI真的有那个能力时，它才能完成这个任务，而不是靠蒙、靠作弊。
- 失败案例： 有个叫τ-Bench的测试，竟然把一个“啥也不做”的AI评为正确，而且这种情况占了38%的任务！这不就是让一个完全不懂航空知识的人，也能通过航空公司的“考题”吗？
结果有效性： AI交出的“答卷”，它的结果评价到底是不是真的对，真的能反映AI的真实水平？
- 失败案例： 就像前面WebArena的例子，它部分依赖AI来判断AI，结果连“45+8”这么简单的问题都能搞错。

我们的发现：AI代理基准测试“体检报告”
为了解决这个问题，我们就像给这些“训练场”做了个“体检”，还制定了一份“体检清单”，叫做AI代理基准清单（ABC）。这份清单里有43项检查内容，就像给“训练场”量身高、测视力、抽血化验一样。
我们用这份清单检查了10个最常用的AI代理基准测试，结果发现：

10个里面有7个，有“作弊通道”或者不可能完成的任务！ 就像游戏里有个地方你可以直接跳过所有关卡。
10个里面有7个，结果评估不靠谱！ 就像老师批改试卷，把错的也判对了。
10个里面有8个，竟然不把这些问题说出来！ 就像医生发现问题却不告诉病人。

这是我们搞出的"AI考试防忽悠指南"（简称ABC清单），扒出这些猛料，举几个具体的“体检报告”：

SWE-bench： 这个是用来测AI写代码的，它用一些测试程序来检查AI写的代码对不对。但我们发现，AI写的代码可能有错，只是那些测试程序没查出来。我们稍微增加一些测试，结果排行榜上的AI排名就大变样了！
τ-bench： 这个测试更离谱，它通过“字符串匹配”和“数据库状态匹配”来判断AI是否完成任务。结果就是，一个“啥也没干”的AI，也能通过38%的任务！这就像你玩个游戏，什么都不做也能通关一样。
OSWorld： 这个测试用来评估AI在操作系统里的能力，结果发现它用的一些网站太老旧了！导致AI的真实能力被严重低估了28%。比如网站上的某个按钮已经换了地方，但测试系统还按老地方去找，结果就把AI的正确操作判断成错误了。

总结如下：

| 测试名称       | 致命bug                          |  
|----------------|----------------------------------|  
|SWE-bench       | 1+1=3也能蒙混过关                |  
| τ-Bench        | 躺平AI白捡38%分数                |  
| OSWorld        | 网站改版导致28%正确答案被误判    |

这些测试真的在测智商吗？
- SWE-bench测试代码时，就像只检查作文字数不看内容
- KernelBench用随机数验算，像用骰子批改数学题

未来怎么办？
✅ 测试要用实时更新的模拟器（别拿windows98考win11操作）
✅ 判卷要多重验证（不能只问ChatGPT"这答案行不行"）

下一步：让AI“训练场”更靠谱！
我们希望这份“AI代理基准清单（ABC）”能帮到大家：

基准测试的开发者： 可以用它来检查自己的“训练场”有没有漏洞，或者更好地展示他们的工作有多靠谱。
AI开发者： 别只看那些“世界第一”的数字了，要用这份清单去深入了解那些测试到底靠不靠谱，别被假象迷惑了。

这份清单和所有的详细资料都放在了我们的GitHub存储库中，欢迎大家去看看，甚至可以提交你的发现或者修复方案，一起把AI的“训练场”变得更真实、更靠谱！

记住：当AI在漏洞百出的考试里拿满分，就像在王者荣耀里背会《出师表》——真的能carry全场吗？

当前AI智能体10个主流基准测试几乎都无用

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道