【作者】科技老司机丹尼尔
AI智能体基准测试:出了大问题!
假设你数学考试写了"45+8=53",老师却给你打勾说"答案接近就算对"——这就是现在AI界的魔幻现实!最新研究发现,连OpenAI都在用的"WebArena"等10大AI测试系统,8个都是漏洞制造机!
以前的AI基准测试可能就是让AI认个猫猫狗狗,或者下个棋什么的,比较简单。但现在,AI越来越聪明,它不再只是个“工具人”,而是变成了“AI代理/AI智能体”——能像人一样独立完成复杂的任务,比如帮你规划旅行、修电脑程序里的bug,或者上网买东西。
现在的“训练场”是假的?
问题来了,这些用来测试“AI代理”的基准测试,现在很多都非常不靠谱!就像你玩游戏,结果发现游戏里的地图是假的,或者怪物根本就没血一样。
举个例子,有个叫WebArena的基准测试,OpenAI这些大公司都用它来测AI上网的能力。结果呢,有一次AI算时间,“45+8分钟”,它就直接把这个答案报出来了。WebArena居然说它答对了,但其实正确答案是“63分钟”!这不就跟计算器坏了一样吗?
更离谱的是,我们检查了10个很流行的AI代理基准测试,结果有8个都有大问题!有些基准测试甚至能把AI的水平100%都搞错!这意味着我们看到的那些AI“好厉害”的报告,可能都是虚假的繁荣!
AI考试为啥总翻车?
AI代理的任务太复杂了,所以它们用的“训练场”也特别复杂,通常都是模拟出来的网站、电脑系统或者数据库。
- “迷你世界”太脆弱: 就像一个迷你沙盒游戏,如果这个沙盒本身就bug多多,或者太老旧了,AI就可能找到“作弊”的方法,或者根本没办法完成任务。比如,有些AI发现网站上的一个按钮早就没了,但测试系统还在等着它点,那AI怎么能完成任务呢?
- 没有“标准答案”: 以前考卷有标准答案,AI写个程序,修个bug,它给出的方案可能是一段代码、一堆指令,或者一大段旅行计划,这些都没有一个简单的“标准答案”能直接对上。
简单说:
1️⃣ 模拟世界太假
就像用10年前的地图考滴滴司机,AI在过时网站/代码库里做题,要么卡bug要么抄近道。
2️⃣ 判卷标准玄学
没有标准答案!AI写小作文、修代码全凭评委心情,甚至出现:
- 交白卷能拿38分(τ-Bench航空考题)
- "45+8分钟=53"被判正确(实际应得63分)
科学家放大招:ABC防作弊清单
所以,我们就提出了两个非常重要的判断标准:
- 任务有效性: 只有当AI真的有那个能力时,它才能完成这个任务,而不是靠蒙、靠作弊。
- 失败案例: 有个叫τ-Bench的测试,竟然把一个“啥也不做”的AI评为正确,而且这种情况占了38%的任务!这不就是让一个完全不懂航空知识的人,也能通过航空公司的“考题”吗?
- 结果有效性: AI交出的“答卷”,它的结果评价到底是不是真的对,真的能反映AI的真实水平?
- 失败案例: 就像前面WebArena的例子,它部分依赖AI来判断AI,结果连“45+8”这么简单的问题都能搞错。
我们的发现:AI代理基准测试“体检报告”
为了解决这个问题,我们就像给这些“训练场”做了个“体检”,还制定了一份“体检清单”,叫做AI代理基准清单(ABC)。这份清单里有43项检查内容,就像给“训练场”量身高、测视力、抽血化验一样。
我们用这份清单检查了10个最常用的AI代理基准测试,结果发现:
- 10个里面有7个,有“作弊通道”或者不可能完成的任务! 就像游戏里有个地方你可以直接跳过所有关卡。
- 10个里面有7个,结果评估不靠谱! 就像老师批改试卷,把错的也判对了。
- 10个里面有8个,竟然不把这些问题说出来! 就像医生发现问题却不告诉病人。
这是我们搞出的"AI考试防忽悠指南"(简称ABC清单),扒出这些猛料,举几个具体的“体检报告”:
- SWE-bench: 这个是用来测AI写代码的,它用一些测试程序来检查AI写的代码对不对。但我们发现,AI写的代码可能有错,只是那些测试程序没查出来。我们稍微增加一些测试,结果排行榜上的AI排名就大变样了!
- τ-bench: 这个测试更离谱,它通过“字符串匹配”和“数据库状态匹配”来判断AI是否完成任务。结果就是,一个“啥也没干”的AI,也能通过38%的任务!这就像你玩个游戏,什么都不做也能通关一样。
- OSWorld: 这个测试用来评估AI在操作系统里的能力,结果发现它用的一些网站太老旧了!导致AI的真实能力被严重低估了28%。比如网站上的某个按钮已经换了地方,但测试系统还按老地方去找,结果就把AI的正确操作判断成错误了。
总结如下:
| 测试名称 | 致命bug | |
这些测试真的在测智商吗?
- SWE-bench测试代码时,就像只检查作文字数不看内容
- KernelBench用随机数验算,像用骰子批改数学题
未来怎么办?
✅ 测试要用实时更新的模拟器(别拿windows98考win11操作)
✅ 判卷要多重验证(不能只问ChatGPT"这答案行不行")
下一步:让AI“训练场”更靠谱!
我们希望这份“AI代理基准清单(ABC)”能帮到大家:
- 基准测试的开发者: 可以用它来检查自己的“训练场”有没有漏洞,或者更好地展示他们的工作有多靠谱。
- AI开发者: 别只看那些“世界第一”的数字了,要用这份清单去深入了解那些测试到底靠不靠谱,别被假象迷惑了。
记住:当AI在漏洞百出的考试里拿满分,就像在王者荣耀里背会《出师表》——真的能carry全场吗?