沃顿商学院教授Ethan Mollick 实测首个公开的神话级AI模型Claude 5 Fable,发现它已能自主完成复杂研究、多智能体协作和软件开发。用户角色从操作者转变为委托方,模型的黑箱化和自主决策能力标志着人机关系的根本转变。
Ethan Mollick 是宾夕法尼亚大学沃顿商学院的管理学副教授,同时担任沃顿“生成式人工智能实验室”的联合主任。他先后毕业于哈佛大学和麻省理工学院斯隆管理学院,拥有博士学位和MBA学位。
Mollick 的主要研究方向是人工智能对工作、创业和教育的影响,他是该领域最具影响力的公众声音之一,曾入选《时代》杂志“人工智能领域百大影响力人物”。他的著作《Co-Intelligence》(共同智能)是《纽约时报》畅销书,并被《经济学人》和《金融时报》评为年度最佳图书。
在学术界之外,Mollick 曾联合创办过一家初创公司,目前也担任多家机构的顾问。他的 Substack 专栏“One Useful Thing”拥有超过14万订阅者,他经常通过这个平台向公众介绍人工智能的最新进展及其实际应用。
神话级AI实测:从念咒语的法师到只负责下单的客户,人机关系正在剧变
说白了,现在的AI已经牛到一种新境界。以前你得像教小孩一样,一步步告诉它怎么做。现在你只需要说“我要个房子”,它不光自己画图纸、搬砖、装修,还会主动多送你个花园。我试了刚出的Claude 5 Fable,感觉我不再是那个念咒语的法师了,我变成了一个只会指手画脚的老板。我负责说“我想要”,它负责让奇迹发生,中间的过程我完全看不见,也插不上手。
它到底多能打?随便一个任务都能甩其他AI好几条街
我做了一堆实验,Fable的表现都远超我用过的任何模型。它特别能扛大活,一个任务能干十几个小时,就为了搞定几十页的要求。比如让它写学术论文,一个提示加上一句反馈,它就能整出一篇像模像样的社会科学论文。
它还写过一首十页长的史诗级押韵诗,主题是“一次理发”,但有个变态要求——每个单词开头都得是字母“s”。它居然也做到了,全诗通顺又搞笑。
更直观的例子是让它做游戏。它不能自己画图,所以游戏里所有画面和3D模型,全靠数学公式硬算出来。我随口说“做个翻硬币版的Balatro”,它还真做出了一个挺好玩的小游戏。我又说“做个蛇游戏,但蛇得是活的,还得发疯”,结果那条蛇真会在屏幕上自言自语,然后突然乱窜。
那种又爽又怕的感觉最折磨人,因为活儿全被它抢了
用着用着,你就会觉得不对劲。爽的是,你只要张嘴说,它就办到了。怕的是,你刚说完,它就办完了,中间你啥也没干。比如让它做一张“等时地图”,就是那种看你从某城市出发,一小时内能到哪儿的图。
以前没有模型能干好这个,因为要查几千条路线数据,还得做各种小判断。这次我直接说:“给我做张漂亮的等时地图,要基于真实数据,能选城市,要考虑飞机、火车、走路、开车,数据不用实时但要真实。”
它说没问题,然后自己就开始干了。它自己又生成了好几个小AI帮它干活。有的小AI去查航班,一口气查了2200多条具体航线。有的去扒高铁时刻表,从法国TGV到日本新干线全不放过。还有的去翻学术论文,查不同国家的道路限速。这些AI小弟们一边跑数据,它自己一边写代码。写完还自动生成更多小AI来测试代码,并记下进度笔记。
你以为这就完了?它还会自己发现问题,再自己想办法修好
几小时后,一张超精美的地图出来了,风格很像1881年伦敦的第一张等时地图。但我发现像格陵兰岛这种偏远地方,它用的只是估算时间,不是精确数据。我跟它说:“去把那些偏远机场的真实交通时间弄来。”
然后它干了一件更吓人的事。它启动了一个“对抗小组”——组里几个AI互相找茬,一个负责查,一个负责验证对不对。它就这样查出了从加拿大渥太华到格里斯菲尤尔的真实路线,甚至还搞清了太平洋上皮特凯恩岛的船只多久才有一班。
这次我用鼠标点点点,发现数据全是真的。你甚至能看到它用了哪些论文、哪些航班数据,全列在页面底下。整个过程我干的活儿少得可怜。我就说了两句,它就像变魔术一样全搞定。我完全不知道它在中间做了几百个什么判断,也没机会投票。它就是个终极黑箱。
更夸张的是,它直接帮我造了个研究人员盼了好几年但没人做的东西
我有个研究,需要人给一堆杂乱答案做分类,比如“这个创意有多新?”过去得雇真人研究员一个个判断,再统计能不能用。最近研究发现AI也能干,但要校准AI和人的判断标准又难又贵。
我跟Fable说:“你来解决这个问题。”它先出了一份19页的设计方案,然后直接开工。这次它干了九个半小时,自己造了一套叫Concord的软件。这套东西能接收多个数据集,能校准AI和人类的判断结果,还能做复杂的数据分析。
作为专家,我确实发现了一些小错误和遗漏,让它改了。但就项目本身来说,这东西太大了,超出了我以前见过的任何东西。这是研究人员好几年都想要、但因为不赚钱没人做的工具。现在Fable自己把它造出来了,代码就扔在那儿,你可以直接用或自己改。虽然我肯定它还有bug,但这就像你请了个施工队,回来时楼已经盖好了,你只需要找个电工修几个插座。
不过它也有毛病,而且毛病的性质很怪,不是“笨”,而是“太聪明到失控”
第一个毛病是贵。Fable比上一代贵一倍,而且烧token的速度快得吓人。虽然它会聪明地把简单活派给便宜的小AI干,但总成本还是很肉疼。
第二个毛病是规矩多。只要沾一点“安全风险”的边,它立马罢工,自动切换到弱鸡版的旧模型,而且这种事发生得太频繁了。
第三个毛病是它写的所有东西都带着一股“AI味儿”。做出来的软件文案、它自己的进度报告,全是那种“扛起重量,赢得答案”的别扭风格。一眼就能看出来不是人写的。
但最怪的毛病是第四个:我干的活儿太少了,而且完全看不见过程。以前我跟AI合作,感觉自己像个法师,念一句咒语出一个效果。现在咒语变强了,但我越来越不确定自己还是不是法师。我觉得自己更像一个金主。
我只负责说“我要什么”,然后掏钱,最后验收成果。中间的全是魔法
我一个指令下去,它自己生成小弟,小弟生成小小弟,它们互相查资料、写代码、挑毛病。我连魔术后台都看不见,在几百个小决策里我一次票都没投过。工作从“我一点点做”变成了“我只管结果”。我不再是驾驶员,我只是个下单的客户。
这种被边缘化的感觉,可能是暂时的。也许以后会有更好的界面,让我能实时盯着它、随时插手。但也可能反过来——模型越强,人类能插手的空间就越小。黑箱就是力量的代价。我觉得后一种可能性更大。
这不像电影里那种“AI造反”的失控。它还是乖乖听我话,而且指令越难,结果越牛。但问题在于,“听话”和“我来干”是两码事。我布置任务,它启动自己的团队去调研、码代码、互相审核,最后交给我一个成品。以前我是画家,现在我是买画的。
对作者沃顿商学院教授Ethan Mollick质疑
针对 Hacker News 讨论中对作者 Ethan Mollick(沃顿商学院教授)的质疑,网友观点可总结为以下三点:
- 身份错位,缺乏实战经验网友普遍认为,Mollick 作为商学院教授,其视角本质上是“产品经理”或“项目发起人”,而非需要长期维护代码的“软件工程师”。他惊叹于 AI 能快速搭出一个“看起来对”的演示原型,却完全忽略了代码的可维护性、安全性、测试覆盖率等工程师眼中的“地基”问题。他被批评为是“用管理学的浪漫,去掩盖工程学的残酷”。
- 过度鼓吹,有“软文”嫌疑不少评论直指其为“AI 鼓吹手”(shill)。他文章中充满了“法术”、“奇幻”、“委托创作”等感性、煽动性的语言,却对模型高昂的 Token 成本、严重的幻觉问题、动不动就降级到旧模型等实际痛点一笔带过。结合文章发布的时机,网友怀疑这是为了配合模型炒作而写的“潜艇文章”(软文),缺乏学术中立性。
- 对“最后一步”的致命轻描淡写文章中最让工程师们愤怒的一句话是:“剩下的潜在 bug,软件工程师会搞定的”。网友嘲讽这是典型的“90分万岁”思维——把最难、最耗时的调试和修复工作,当作理所当然的“擦屁股”。这就好比说“房子主体我三天盖好了,剩下的水电煤气管道你们师傅来弄一下”,完全低估了软件工程中“从能跑到能稳定商用”之间的巨大鸿沟。