2025年,AI智能体吹得天花乱坠,动不动就说“能帮你干活”“能操作电脑”,结果点开论文一看,数据对不上、评测不统一、榜单全是水。ScreenSpot、Mind2Web、OSWorld、REAL、WebClick、GroundUI、Showdown-Clicks、CUB……名字多到眼花,可真能干活的寥寥无几。
今天这篇文章,咱们就彻底扒一扒当前AI“电脑使用”能力的评测生态,从底层视觉定位,到网页任务,再到完整操作系统操作,三层能力讲透,让你一眼看穿谁在裸泳、谁真能打!如果你正在搞AI智能体、想选模型、建评测、做产品,这篇文章就是你的年度避坑指南。
三大能力层级:AI用电脑,其实分三步走
所有“AI能用电脑”的说法,其实都逃不开三个能力层级。
第一层是“看得懂”——也就是视觉定位能力;
第二层是“会上网”——能在浏览器里完成多步任务;
第三层是“真干活”——能在完整操作系统里跨应用、文件、邮件、Office等复杂环境自由操作。
这三个层级难度逐级递增,大多数AI只能卡在第一层,少数能勉强通过第二层,而第三层目前仍是“人类碾压AI”的领域。接下来,我们就一层一层拆解。
第一层:UI视觉定位——AI的“眼睛”到底灵不灵?
这一层只干一件事:给一张屏幕截图 + 一句自然语言指令(比如“点登录按钮”),模型要精准指出应该点击的位置,通常以边界框(bounding box)或坐标点形式输出。这看似简单,实则暗藏玄机——按钮可能很小、文字可能模糊、图标可能抽象、界面可能高分辨率、元素可能密集堆叠。尤其是在专业软件(比如Adobe、AutoCAD、医疗影像系统)里,目标元素可能只有几个像素,传统OCR和目标检测直接失效。
目前主流的评测都围绕ScreenSpot家族展开。
最早的ScreenSpot覆盖了网页、手机、桌面三端,数据质量参差不齐;
ScreenSpot-v2则由OS-ATLAS团队重新清洗,修正了11%的标注错误,指令也重写得更自然;
而最新的ScreenSpot-Pro更是直接锁定“高分辨率专业场景”——包含23个应用、5大行业(金融、设计、工程、医疗、科研)、3大操作系统,全是真实高分屏截图,连业内最强模型在这上面也只能拿到18.9%的准确率!
后来H公司又搞了个WebClick,专注网页点击定位,1639个样本全是真实人类点击行为,结果发现很多模型在ScreenSpot上表现不错,一换到WebClick就崩——说明通用性堪忧。
还有Showdown-Clicks,记录了5679次macOS桌面点击行为,专门考验模型在真实办公环境下的低级操作能力。
GroundUI则是“缝合怪”路线,把ScreenSpot、Mind2Web等数据集揉在一起,搞出1.8万个样本,再抽出1000个做标准评测。
总之,如果你在训一个“看得懂屏幕”的视觉语言模型(VLM),不在这几个榜单上跑分,基本没人信你真行。
第二层:网页任务执行——AI会不会“上网办事”?
这一层不再只是单次点击,而是要求AI在浏览器里完成一整套多步骤任务。比如“在Amazon上找一款200美元以下的蓝牙耳机,查看退货政策,并发起退货申请”。这需要模型理解任务目标、拆解子步骤、识别页面状态、执行点击/输入/滚动/选择等操作,并在失败时重试或调整策略。
这已经不是纯视觉问题,而是“智能体(Agent)”能力的体现。
目前最主流的评测非Mind2Web莫属。它有三个版本:原始版Mind2Web包含2350个任务、137个真实网站(从电商到政府门户),每个任务都配有序列化操作日志;
Online Mind2Web则是“活”的评测,300个任务跑在真实网站上,公开排行榜不仅看成功率,还追踪API成本和稳定性;
最新版Mind2Web 2更激进,130个“长周期研究型”任务,比如“对比三家航空公司在6月从纽约到伦敦的票价和行李政策”,并引入“Agent-as-a-Judge”机制——用另一个AI当裁判,判断最终结果是否正确、是否引用了可靠来源。
除了Mind2Web,还有WebArena(自建一套“迷你互联网”,包含电商、论坛、CMS等可编程环境)、REAL(AGI公司复刻Amazon、DoorDash等11个主流网站,用程序化奖励函数判断成败)、Westworld(Halluminate搞的高保真浏览器模拟器)、Web Bench(覆盖452个真实高流量站点的5750个任务)。
这些评测的共同点是:强调“可验证”和“可复现”。相比早期只看最终答案对错,现在更关注“路径是否合理”“成本是否可控”“是否多次失败才成功”。
一句话:网页智能体的竞争,已经从“能不能做”进入“做得好不好、稳不稳、贵不贵”的阶段。
第三层:完整操作系统操作——AI能当你的数字员工吗?
这才是终极挑战:给AI一个完整的Ubuntu/Windows/macOS系统,装好浏览器、Office、邮件、IDE、文件管理器等全套软件,让它完成跨应用任务。比如“从邮件里下载客户发的Excel表格,用Python脚本处理数据,生成图表插到Word报告里,再发回邮件”。这种任务涉及剪贴板、文件路径、多窗口切换、权限控制、软件兼容性等无数坑,人类都可能搞错,更别说AI了。
目前扛大旗的是OSWorld。它包含369个真实OS任务,覆盖三大操作系统,人类平均成功率72%,而顶尖AI智能体初期只有12%左右。后来团队又推出OSWorld-Verified(清洗任务逻辑)和OSWorld-Human(记录人类操作轨迹),这才发现:就算AI最终做对了,步骤数也往往是人类的1.4到2.7倍,有些简单操作(比如格式化一段文字)人类几秒搞定,AI却要折腾几分钟。
另外,Theta公司推出的CUB(Computer Use Benchmark)号称“人类给AI的最后考试”,聚焦长周期跨应用工作流;Salesforce内部的SCUBA则垂直深耕CRM场景,300多个任务全围绕销售、客服、管理员角色。这些评测的共同特点是:极度贴近实际工作流,失败率高得吓人,但一旦突破,就意味着AI真正具备了“知识工作者”的潜力。目前市面上敢在OSWorld或CUB上秀成绩的,基本都是头部大厂或明星初创公司,因为普通团队连环境都搭不起来。
评测≠模型能力?一半性能来自“脚手架”!
这里必须泼一盆冷水:很多所谓的“SOTA成绩”,其实跟模型本身关系不大,全靠“脚手架”(harness)——也就是提示词工程、工具链、重试机制、终止逻辑、外部裁判等工程技巧。
Ben Anderson(知名AI评测博主)做过一个经典实验:用Qwen的72B大模型跑Showdown-Clicks,原始提示下准确率只有20%;但换成一个超简单的XML提示(“用
类似情况在REAL、OSWorld等评测中比比皆是。所以当你看到某家公司宣称“在XX评测上超越GPT-4o”,千万别急着信——先看它用的什么提示词、什么工具、是不是专门针对该评测调优的。否则,很可能只是“评测过拟合”,一换环境就崩。
这也解释了为什么现在ScreenSuite这类统一评测框架越来越重要——它强制所有模型用同一套简单智能体(基于smolagents)跑分,剥离脚手架影响,只比模型底层能力。
行业正在收敛:三大层级各有“锚点”评测
尽管评测一度混乱,但2025年行业已明显收敛。
第一层(视觉定位)的锚点是ScreenSpot-Pro、GroundUI-1K、WebClick、Showdown-Clicks;
第二层(网页任务)的锚点是Mind2Web(含Online和v2)、WebArena、REAL;
第三层(完整OS)的锚点是OSWorld(含Human/Verified)、CUB、SCUBA。尤其Hugging Face推出的ScreenSuite框架,直接打包了上述大多数评测,提供统一API和标准化智能体实现,正在成为行业事实标准。
现在但凡有团队发布“电脑使用智能体”,基本都会在这三个层级各报1-2个成绩,否则没人当真。这种收敛是好事——意味着行业开始从“自定义评测自嗨”走向“公开、公平、可复现”的成熟阶段。
从“能不能做”到“做得多好”:评测指标正在进化
早期评测只看“成功/失败”二元结果,现在远远不够。
OSWorld-Human会统计“操作步数”和“耗时”;Online Mind2Web追踪“API调用成本”和“跨运行稳定性”;REAL则拆解出“信息准确性”和“操作正确性”两个独立奖励函数。
未来的评测,不再是单一数字,而是一组能力画像:能力(capability)、可靠性(reliability)、成本(cost)、延迟(latency)。
这种转变背后,是AI智能体从“研究玩具”走向“生产工具”的必然要求。企业客户不关心你模型多大,只关心“能不能稳定完成任务”“每次花多少钱”“会不会搞砸我的数据”。
最近Amazon AGI实验室推出的Nova Act智能体,就在企业落地中主打“复杂表单填写”和“长周期行政流程”场景,这说明产业界已经准备好为真实价值买单,而不是为论文指标买单。
各家大厂怎么玩?评测成了新营销渠道
有意思的是,评测本身正在变成大厂的营销和生态工具。
ByteDance的UI-TARS智能体,既报ScreenSpot-Pro成绩,也报OSWorld成绩,试图证明自己“全栈能力”;
H公司专注底层视觉,用WebClick和GroundUI给自己造势;
AGI公司靠REAL评测吸引客户,把“REAL榜单第一”变成销售话术;
Theta则把CUB包装成“人类最后的考试”,制造话题性;
Halluminate更狠,先用Web Bench(真实网站)建立声誉,再用Westworld(合成环境)实现大规模评测和商业变现。
评测不再只是衡量工具,而是数据飞轮、客户入口、技术护城河。所以你选哪个评测投入,其实就是在选哪个生态站队。
从真实网站到合成沙盒:评测环境正在迁移
早期评测(如Mind2Web、Web Bench)直接跑在真实网站上,好处是真实,坏处是脆弱——网站一改版、DOM一变动、API一限流,整个评测就废了。
现在主流趋势是转向“高保真合成沙盒”:WebArena自建一套可编程“迷你互联网”;REAL复刻11个主流网站的确定性副本;Westworld搞“完全模拟的互联网”;甚至连WARC-Bench都用Web ARChive技术把动态网页打包成可交互、可编程的评测单元。
这些沙盒牺牲了一点边缘情况的真实性,但换来的是“任务稳定、奖励明确、可大规模并行运行”。尤其在企业场景,客户根本不愿意让AI在真实生产环境乱点,所以合成沙盒反而更贴近实际需求。未来,真实网站评测会保留用于“最终验收”,但日常开发和迭代,肯定以合成沙盒为主。
如果你在做AI智能体,该怎么选评测?
最后给实操建议。
如果你在训一个GUI感知模型(比如VLM),优先在ScreenSpot + GroundUI + WebClick上训练,然后用ScreenSuite框架在ScreenSpot-v2/Pro、GroundUI-1K、WebClick、Showdown-Clicks上跑分,重点优化定位准确率和UI皮肤鲁棒性。
如果你在做网页智能体,先用Mind2Web离线版调试基础行为,再上Online Mind2Web和REAL看真实表现,后期用WebArena/Westworld测试分布外鲁棒性,核心指标是成功率、成本、稳定性。
如果你在搞完整“电脑使用智能体”,OSWorld-Verified是必考项,OSWorld-Human用来分析效率瓶颈,如果目标是企业客户,CUB和垂直领域评测(如SCUBA)也得拿下。
最重要的是:别自己造轮子!用公开、标准化的评测框架(比如ScreenSuite),否则你的成绩没人认。
评测在进步,AI还在裸泳
2025年,评测体系确实比一年前成熟太多:三层能力清晰、锚点评测收敛、指标维度丰富、合成环境普及。但AI智能体的真实能力,依然远远落后于 hype。OSWorld上低两位数的成功率、比人类多2倍的操作步骤、高昂到让CFO失眠的运行成本……这些才是现实。
更深层的问题是,评测成绩和真实能力之间仍有巨大鸿沟——一半性能来自脚手架工程,而非模型本身。当AI进入真实生产环境,这些“评测黑魔法”就会失效。
所以,未来的赢家不是那些在榜单上刷高分的团队,而是那些敢于用公开框架、标准提示、透明配置跑评测的团队。因为只有这样,才能真正逼近“AI能用电脑”的终极目标。
can your ai actually use a computer a 2025 map of computer use benchmarks