为什么我们还没迎来真正的AI革命?
2025年本该是“AI智能体元年”——那些能自动订机票、安排会议、填表格、甚至替你操作手机App的自主AI系统,应该已经彻底改变我们的生活。纸面上看,当今最顶尖的大模型确实令人震撼:它们能在国际数学奥林匹克竞赛中拿下金牌水准,编程能力超越99%的人类开发者,各类科学与数学基准测试纷纷“饱和”。
但现实却泼了一盆冷水:AI革命迟迟未至。你打开ChatGPT,大多数人还在用它写情书、改简历、润色邮件;那些被大肆宣传的“智能体浏览器”,比如ChatGPT Atlas和Perplexity的Comet,用户寥寥,口碑平平。
问题出在哪?不是AI不够聪明,而是它太“不可靠”——尤其是在那些“要么全对,要么全错”的任务中。
90%的成功率,为什么反而成了绊脚石?
想象一下,一个AI助手帮你订酒店,90%的情况下都成功了,但10%的时候它订错了日期、选错了房型,甚至刷了你的信用卡却没生成确认单。这时候,你敢完全放手吗?显然不能。
你必须反复检查、核对、甚至重做——这比自己动手还累。这正是AI智能体面临的“90%问题”:在非关键任务中,90%的准确率或许够用;但在需要“端到端完成”的场景里,哪怕只有10%的失败率,也会让整个系统变得不可信、不可用。
就像管理咨询行业常说的:学校里拿个B+可以毕业,但职场上交付的必须是A+作品。AI若不能做到近乎完美,人类宁愿亲力亲为。
二元任务 vs 非二元任务:AI的“能力边界”在哪里?
要理解AI为何在某些领域大放异彩,而在另一些领域寸步难行,关键在于区分“二元任务”与“非二元任务”。
二元任务就像开车、订票、转账——结果只有“成功”或“失败”,没有中间状态。这类任务对可靠性要求极高,因为一次错误可能带来严重后果,比如撞车或财务损失。而非二元任务则不同:写代码、起草合同、生成报告……AI哪怕只完成80%,剩下20%由人类修补,整体效率依然大幅提升。
正因如此,今天我们看到的AI应用大多集中在“辅助创作”“内容生成”“客户服务初筛”等领域——它们是“增强型工具”,而非“替代型代理”。
苹果为何迟迟不推真正的AI代理?答案是:不敢犯错
很多人批评苹果在AI时代“掉队”了。iPhone 16搭载的Apple Intelligence,目前只支持邮件摘要、自定义emoji(即“生成表情”)等鸡肋功能。
为什么?苹果内部人士透露,真正的跨应用AI代理功能早已开发完成,但因“错误率仍不可接受”而被无限期推迟。
想想看,如果Siri擅自替你回复老板的邮件,或在你不知情的情况下授权支付,后果不堪设想。苹果的哲学是“宁缺毋滥”——在安全性和隐私至上的前提下,宁可慢一步,也不愿冒失控之险。三星、谷歌亦如此:Galaxy的实时语音转录、Pixel的“Magic Cue”智能提示,都是“安全区”内的小步试探,远未触及真正的智能体核心。
中国厂商激进突围:字节跳动的“AI手机”引爆市场
正当美国科技巨头踌躇不前时,中国厂商却选择“先开枪,再瞄准”。
字节跳动联合中兴推出的努比亚M153手机,搭载其自研AI助手“豆包”,实现了真正的跨App语音代理操作。你只需说一句“帮我订明天去上海的机票,然后发消息告诉张总”,手机就会自动打开航旅纵横、完成订票,再跳转到微信群聊发送通知。
更惊人的是,它甚至能调用特斯拉App远程打开车尾箱!这套系统类似OpenAI的Agent架构:通过持续截屏分析界面,模拟人类点击操作。
尽管尚未亲测,但小红书和微信朋友圈已被刷屏,首批库存几小时内售罄。美国驻深圳风投Taylor Ogan称其为“又一个深度求索时刻”——意指中国AI硬件正以惊人速度落地。
生态封锁:微信、支付宝为何对AI代理说“不”?
然而,字节的激进策略很快撞上南墙。当豆包试图操作微信、支付宝、拼多多等国民级App时,系统会自动触发反自动化机制,直接封禁操作权限。这背后不仅是技术问题,更是平台权力的博弈。
腾讯、蚂蚁集团等巨头绝不愿将用户界面控制权交予第三方AI——这等于让外人“代你操作银行账户”。正如科技媒体人赵鹏(Poe Zhao)所言:“AI代理与App开发者之间,一场‘控制权战争’已然打响。”若主流App拒绝开放接口,再强大的AI代理也形同虚设。这正是字节模式的最大软肋:缺乏生态合作,仅靠“屏幕模拟”难以持久。
华为的“联盟路线”:缓慢但稳固的智能体生态
与字节的“野蛮生长”不同,华为走了一条更稳健的路。其最新HarmonyOS 6系统中的“小艺”AI代理,不强行接管第三方App,而是通过官方合作框架,邀请开发者主动集成。目前,京东、喜马拉雅、大麦网、携程等已加入“小艺智能体生态”,用户可通过语音指令完成购物、听书、订票等操作。
这种方式虽推进缓慢——毕竟每个合作都要谈判、开发、测试——但胜在安全、合规、体验流畅。可惜的是,微信、支付宝仍未入局,导致华为智能体的“生活闭环”仍有缺口。未来胜负,取决于华为能否撬动这些超级App的“铁壁”。
智能家居的教训:可靠性比智能更重要
AI代理的困境在智能家居领域早有预演。亚马逊曾试图将生成式AI注入Alexa,推出“Alexa+”,结果用户抱怨连连:连“开灯”这种基础指令都频频出错。原因很简单——传统智能家居靠预设规则(“说‘开灯’就触发开关”),100%可靠;而LLM驱动的AI试图“理解语境”,反而在简单任务上翻车。
这证明:在高可靠要求的场景中,笨办法可能比“聪明”更有效。除非AI能跨越“最后1%”的可靠性鸿沟,否则家庭用户宁愿回到确定性世界。
从“替代”到“增强”:AI如何重塑职业未来?
许多人担心AI会取代人类工作,但现实更复杂。
以放射科医生为例:2016年,图灵奖得主杰弗里·辛顿曾预言“现在就不该再培养放射科医生”,因为AI很快将接管影像诊断。然而到2024年,放射科医生需求不降反升,平均年薪高达49.8万美元。
为什么?因为AI成了他们的“超级显微镜”——能快速标记可疑病灶,但最终诊断仍需人类结合临床经验判断。
这印证了经济学家达龙·阿西莫格鲁的观点:AI既是“替代技术”,也是“增强技术”。在非二元任务中,它放大顶尖专家的价值;在二元任务中,它仍难撼动人类地位。
特斯拉Autopilot的启示:“9”的数量决定生死
前特斯拉AI负责人安德烈·卡帕西曾提出“9的进阶”理论:自动驾驶从90%到99%相对容易,但从99.9%到99.999%却要付出百倍努力,因为最后那些“长尾场景”——暴雨夜、施工路段、突然窜出的动物——才是最难攻克的。而恰恰是这些极端案例,决定了系统能否真正商用。
同理,AI代理要进入金融、医疗、政务等高敏领域,必须跨越多个“9”的可靠性门槛。当前63%(OSWorld基准)或90%(²-bench)的成功率,离“可放手”还差得远。
极客辣评
如果任务具有可验证性,其实90%的成功率就可以了。在软件中,事务机制也无法100%实现可靠性,关键是人可以去验证,比如你上互联网,也可能登录某个网站超时,那么你刷新一次,重试一次就可以。
本文以焦虑心态放大了不确定性,本身就是一种保守思维。