这张图展示的是新一代大模型之间的性能对比,Manus 暂时领先,Claude-4-5-Sonnet 表现也非常亮眼。GPT-5 和 Gemini 的预览版则相对落后,后续正式版可能有提升空间。
关键观察:
- Manus 领先明显:得分 2.50,远高于其他模型,可能是当前最强表现者。
- Claude-4-5-Sonnet 紧随其后:得分 2.08,差距不大,表现也非常强劲。
- GPT-5 表现中等:得分 1.67,虽然不如前两者,但仍优于 ChatGPT agent 和 Gemini。
- Gemini 2.5 Pro 预览版垫底:得分仅 0.83,可能是早期预览版本,优化空间较大。
- 所有模型标准差为 0.00:说明测试结果是确定性的,没有波动,可能是单任务或固定输入下的评估。
Scale发布RLI基准,用240个真实freelance项目测试AI代理,结果最高自动化率仅2.5%,暴露当前大模型在复杂多模态任务中的巨大能力断层。
在人工智能圈,人人都在吹“AI代理能干活了”、“大模型马上取代白领”。但你信吗?今天我带大家扒一扒最新出炉的行业硬核打假报告——来自Scale公司发布的RLI(Realistic Labor Index)基准。这份报告没玩虚的,直接找了240个真实世界里的自由职业者项目,让各大AI代理去“接私活”,结果惨不忍睹:最高自动化率只有2.5%。
是的,你没看错,97.5%的项目AI交出来的活,客户根本不会要。
这可不是实验室里拼凑的玩具数据集,而是来自Upwork平台358位真实自由职业者的真实工作包,覆盖23个专业领域,总经济价值超过14万美元。这意味着,如果你还在幻想AI能帮你搞定logo设计、CAD图纸、视频剪辑、代码重构、市场报告,那今天这碗冷水,我必须泼得你透心凉。
我们先看这个RLI到底是个啥。RLI全称“真实劳动力指数”,目标就一个:用真实世界里的专业任务,衡量AI代理到底能不能替代人类干活。每个项目都是一个完整的交付单元,包含任务简报、输入文件、人类专业产出(也就是金标准)、完成时间和成本。这些项目不是AI自己编的,而是从Upwork上真实成交的freelance订单里筛选出来的。换句话说,这是一份“AI能否接住真实私活”的终极考试卷。
那Scale是怎么筛选这些项目的?他们一开始收集了550个项目,最后只留下240个。筛选标准非常严格:必须完整、可复现、专业质量达标。而且所有涉及个人隐私的信息都被匿名化处理,用合成数据替代,既保护隐私,又保持项目真实性。最终的数据集分为两部分:230个项目作为私有测试集,用于官方排行榜打分;10个项目开源,供大家做定性研究。
这些项目有多硬核?平均一个人类自由职业者要花28.9小时才能完成(中位数11.5小时),平均报价632美元(中位数200美元)。项目类型五花八门:你需要处理几十种文件格式——Word、PDF、Excel、CAD图纸、3D模型、音频、视频、代码仓库……有些项目甚至要求你同时输出图文混排的营销方案+配乐+动态演示视频。这种复杂度,远超之前所有AI基准测试。
为了公平评估,Scale专门开发了一个开源的Web评测平台,能原生渲染这些多模态内容。想象一下,评审专家要直接在浏览器里打开一个Blender 3D文件,对比AI生成的建筑模型和人类专业人士做的哪个更合理。这种评测不可能靠自动打分,必须靠真人专家。所以每个项目都由三位独立评审打分,采用三人多数决,最终自动化率指标的评审者一致性高达94.4%。这说明,评分不是瞎猜,而是高度可靠的。
那到底怎么算“AI干得好”?Scale定义了一个核心标准:一个“理性的客户”是否会接受这份交付?这不是比谁画得更炫、谁写得更长,而是看是否真正满足brief要求,达到可商用的专业水平。评审用三档打分:1分(失败)、2分(达标)、3分(超越人类)。只要拿到2分或3分,就算自动化成功。
结果呢?残酷到让人笑不出来。目前最强的AI代理Manus,自动化率只有2.5%。其他模型表现更差。这意味着,在240个真实项目里,Manus只搞定了6个。其他234个,要么质量太差,要么缺文件,要么格式错误,要么前后矛盾。客户看了只会说:“退钱。”
但有意思的是,虽然绝对成功率极低,Scale却发现了一个积极信号:Elo评分显示,AI的能力在稳步提升。Elo原本是国际象棋里的相对强度评分系统,Scale把它拿来比较不同AI代理的相对表现。人类基准固定在1000分,新模型哪怕只比老模型稍微好一点,也能在Elo上体现出来。这说明,RLI这个基准足够敏感,能捕捉到细微进步,即使离“真正能干活”还很远。
那AI到底败在哪儿?Scale做了详细归因分析。失败原因主要分四类:
第一,质量太差,占45.6%。很多AI产出的东西看起来像“小孩涂鸦”——图像模糊、逻辑混乱、代码满是bug、3D模型比例失调。比如让它设计一个咖啡馆logo,结果生成一个卡通猫头,完全不符合客户品牌调性。
第二,交付不完整,占35.7%。AI经常只做一半:视频只导出前10秒、CAD图纸漏掉关键剖面图、代码缺了依赖文件、报告只有摘要没有正文。这种半成品,客户怎么可能接受?
第三,技术性问题,占17.6%。AI生成的文件格式错误、内容为空、甚至直接损坏。比如让它输出MP4视频,结果给个.txt文件;让它生成STL 3D打印文件,结果是乱码。这种低级错误,说明AI连基本的文件操作都没搞定。
第四,逻辑不一致,占14.8%。同一个项目里,不同文件之间说不通。比如建筑平面图显示客厅朝南,但3D渲染图里却朝北;产品说明书写的是“防水”,但设计图里连密封圈都没有。这种自相矛盾,暴露了AI缺乏全局一致性理解。
当然,也不是全军覆没。在某些特定领域,AI确实小有斩获。比如音频处理:生成音效、人声分离、背景音乐合成,成功率相对较高。图像生成也偶有亮点,比如简单logo、广告Banner、产品海报。此外,结构化的报告写作(比如市场数据汇总)、标准化的数据检索任务,AI也能勉强应付。但请注意,这些只是“偶尔成功”,离规模化替代人类还差十万八千里。
那这次测试用了哪些AI代理?包括Manus、Claude Sonnet 4.5、GPT-5、ChatGPT Agent、Gemini 2.5 Pro等前沿模型。每个代理都在两种环境中测试:一种是命令行接口(基于OpenHands框架),适合代码、数据处理类任务;另一种是图形界面模拟环境(Computer Use),AI可以像人一样操作鼠标键盘。最终排行榜取每个代理在两种环境中的最佳表现。
为了公平,所有代理都用了统一的工具链:比如调用gpt-image-1生成图片、openai/tts-1合成语音、veo-3.0-generate-preview生成视频预览。每个任务还给了30美元的生成预算,确保AI有足够资源尝试。此外,所有代理都收到一个“评测兼容性提示”,明确告知支持哪些文件格式,避免因为输出不兼容而被误判失败。
但即便如此,结果依然惨淡。这说明,问题不在工具,而在AI本身的核心能力——理解复杂需求、规划多步骤任务、保证输出一致性、处理多模态协同——这些能力目前几乎为零。
RLI也坦承自身局限。首先,评测完全依赖人工专家,成本高、速度慢,无法高频测试新模型。其次,数据集虽广,但刻意排除了需要长期维护(如SEO优化)、物理操作(如维修)或直接客户沟通(如在线客服)的任务。最后,虽然只有10个项目公开,但未来模型可能“偷学”这些样本,存在基准污染风险。不过,官方排行榜基于230个私有项目,能有效缓解这一问题。
现在,我们把镜头拉远一点看。RLI的出现,其实是对当前AI hype的一次精准刹车。过去一年,无数创业公司宣称“AI代理已Ready for Work”,投资人砸钱如流水,媒体天天吹“白领失业倒计时”。但RLI用真实数据告诉我们:别急,AI连最基础的专业交付都搞不定。
为什么?因为真实世界的任务不是单轮问答,不是写个邮件、做个PPT那么简单。它要求你理解模糊需求、协调多个工具、迭代修正、保证质量、按时交付。这背后是工程、审美、逻辑、经验的综合体现。而当前的AI,本质上还是“超级鹦鹉”——能模仿,但不能创造;能拼凑,但不能统筹。
举个例子:客户要你“为新咖啡品牌设计一套VI系统,包含logo、包装、门店招牌、社交媒体素材,并输出印刷用的CMYK文件和屏幕用的RGB版本”。这听起来简单,但涉及品牌策略、色彩心理学、印刷工艺、数字媒体规范、文件格式转换……任何一个环节出错,整套方案就废了。RLI里就有类似项目,结果AI交出来的logo用了无法印刷的荧光色,包装尺寸不符合行业标准,社交媒体素材分辨率太低。这种错误,人类设计师绝不会犯。
所以,RLI的价值不在于“打脸”,而在于建立一个真实、可衡量的标尺。它告诉我们:AI的进步不能只看token生成速度或上下文长度,而要看能否在真实经济活动中创造价值。目前来看,AI离“劳动力替代”还差得远,但在某些细分场景(如音频生成、简单图像创作)已有实用价值。这提醒我们:别盲目All in AI代理,但也不要全盘否定,而是精准识别“AI能做什么、不能做什么”。
最后,简单介绍一下这份报告背后的团队。Scale AI是一家专注于AI数据基础设施的公司,由Alexandr Wang在2016年创立,总部位于旧金山。他们长期为OpenAI、Meta、特斯拉等巨头提供高质量训练数据和评估服务。RLI项目由Scale Research团队主导,成员包括来自斯坦福、MIT、CMU的AI研究员和工程师,具备深厚的多模态AI与人机交互背景。他们不做模型,只做“裁判”,因此评估结果相对中立可信。
回到我们开头的问题:AI代理能接私活吗?RLI的答案很明确:现在不能,至少97.5%的情况下不能。但这不意味着AI没用,而是提醒我们——别被营销话术忽悠,要回归真实场景、真实交付、真实价值。技术演进需要耐心,泡沫终会破裂,留下的才是真金。
所以,下次再听到“AI已取代人类工作”的论调,不妨反问一句:它通过RLI测试了吗?如果没有,那大概率只是又一个PPT创业项目罢了。