当前AI智能体10个主流基准测试几乎都无用

AI智能体的测试卷子漏洞百出!本文怒揭老底:你们测的都是啥?  
【作者】科技老司机丹尼尔  

AI智能体基准测试:出了大问题!
假设你数学考试写了"45+8=53",老师却给你打勾说"答案接近就算对"——这就是现在AI界的魔幻现实!最新研究发现,连OpenAI都在用的"WebArena"等10大AI测试系统,8个都是漏洞制造机!  

以前的AI基准测试可能就是让AI认个猫猫狗狗,或者下个棋什么的,比较简单。但现在,AI越来越聪明,它不再只是个“工具人”,而是变成了“AI代理/AI智能体”——能像人一样独立完成复杂的任务,比如帮你规划旅行、修电脑程序里的bug,或者上网买东西。

现在的“训练场”是假的?
问题来了,这些用来测试“AI代理”的基准测试,现在很多都非常不靠谱!就像你玩游戏,结果发现游戏里的地图是假的,或者怪物根本就没血一样。

举个例子,有个叫WebArena的基准测试,OpenAI这些大公司都用它来测AI上网的能力。结果呢,有一次AI算时间,“45+8分钟”,它就直接把这个答案报出来了。WebArena居然说它答对了,但其实正确答案是“63分钟”!这不就跟计算器坏了一样吗?

更离谱的是,我们检查了10个很流行的AI代理基准测试,结果有8个都有大问题!有些基准测试甚至能把AI的水平100%都搞错!这意味着我们看到的那些AI“好厉害”的报告,可能都是虚假的繁荣!

AI考试为啥总翻车?  
AI代理的任务太复杂了,所以它们用的“训练场”也特别复杂,通常都是模拟出来的网站、电脑系统或者数据库。

  1. “迷你世界”太脆弱: 就像一个迷你沙盒游戏,如果这个沙盒本身就bug多多,或者太老旧了,AI就可能找到“作弊”的方法,或者根本没办法完成任务。比如,有些AI发现网站上的一个按钮早就没了,但测试系统还在等着它点,那AI怎么能完成任务呢?
  2. 没有“标准答案”: 以前考卷有标准答案,AI写个程序,修个bug,它给出的方案可能是一段代码、一堆指令,或者一大段旅行计划,这些都没有一个简单的“标准答案”能直接对上。

简单说:
1️⃣ 模拟世界太假  
就像用10年前的地图考滴滴司机,AI在过时网站/代码库里做题,要么卡bug要么抄近道。  

2️⃣ 判卷标准玄学  
没有标准答案!AI写小作文、修代码全凭评委心情,甚至出现:  
- 交白卷能拿38分(τ-Bench航空考题)  
- "45+8分钟=53"被判正确(实际应得63分)  

科学家放大招:ABC防作弊清单  
所以,我们就提出了两个非常重要的判断标准:

  • 任务有效性: 只有当AI真的有那个能力时,它才能完成这个任务,而不是靠蒙、靠作弊。
    • 失败案例: 有个叫τ-Bench的测试,竟然把一个“啥也不做”的AI评为正确,而且这种情况占了38%的任务!这不就是让一个完全不懂航空知识的人,也能通过航空公司的“考题”吗?
  • 结果有效性: AI交出的“答卷”,它的结果评价到底是不是真的对,真的能反映AI的真实水平?
    • 失败案例: 就像前面WebArena的例子,它部分依赖AI来判断AI,结果连“45+8”这么简单的问题都能搞错。

我们的发现:AI代理基准测试“体检报告”
为了解决这个问题,我们就像给这些“训练场”做了个“体检”,还制定了一份“体检清单”,叫做AI代理基准清单(ABC)。这份清单里有43项检查内容,就像给“训练场”量身高、测视力、抽血化验一样。
我们用这份清单检查了10个最常用的AI代理基准测试,结果发现:

  • 10个里面有7个,有“作弊通道”或者不可能完成的任务! 就像游戏里有个地方你可以直接跳过所有关卡。
  • 10个里面有7个,结果评估不靠谱! 就像老师批改试卷,把错的也判对了。
  • 10个里面有8个,竟然不把这些问题说出来! 就像医生发现问题却不告诉病人。

这是我们搞出的"AI考试防忽悠指南"(简称ABC清单),扒出这些猛料,举几个具体的“体检报告”:

  • SWE-bench: 这个是用来测AI写代码的,它用一些测试程序来检查AI写的代码对不对。但我们发现,AI写的代码可能有错,只是那些测试程序没查出来。我们稍微增加一些测试,结果排行榜上的AI排名就大变样了!
  • τ-bench: 这个测试更离谱,它通过“字符串匹配”和“数据库状态匹配”来判断AI是否完成任务。结果就是,一个“啥也没干”的AI,也能通过38%的任务!这就像你玩个游戏,什么都不做也能通关一样。
  • OSWorld: 这个测试用来评估AI在操作系统里的能力,结果发现它用的一些网站太老旧了!导致AI的真实能力被严重低估了28%。比如网站上的某个按钮已经换了地方,但测试系统还按老地方去找,结果就把AI的正确操作判断成错误了。

总结如下:

| 测试名称       | 致命bug                          |  
|----------------|----------------------------------|  
|SWE-bench       | 1+1=3也能蒙混过关                |  
| τ-Bench        | 躺平AI白捡38%分数                |  
| OSWorld        | 网站改版导致28%正确答案被误判    |  


这些测试真的在测智商吗?  
- SWE-bench测试代码时,就像只检查作文字数不看内容  
- KernelBench用随机数验算,像用骰子批改数学题  

未来怎么办?  
✅ 测试要用实时更新的模拟器(别拿windows98考win11操作)  
✅ 判卷要多重验证(不能只问ChatGPT"这答案行不行")  

下一步:让AI“训练场”更靠谱!
我们希望这份“AI代理基准清单(ABC)”能帮到大家:

  • 基准测试的开发者: 可以用它来检查自己的“训练场”有没有漏洞,或者更好地展示他们的工作有多靠谱。
  • AI开发者: 别只看那些“世界第一”的数字了,要用这份清单去深入了解那些测试到底靠不靠谱,别被假象迷惑了。
这份清单和所有的详细资料都放在了我们的GitHub存储库中,欢迎大家去看看,甚至可以提交你的发现或者修复方案,一起把AI的“训练场”变得更真实、更靠谱!

记住:当AI在漏洞百出的考试里拿满分,就像在王者荣耀里背会《出师表》——真的能carry全场吗?