商学院教授实测首个公开的神话级AI模型Claude Fable5

2026-06-10 1 4K banq

沃顿商学院教授Ethan Mollick 实测首个公开的神话级AI模型Claude 5 Fable，发现它已能自主完成复杂研究、多智能体协作和软件开发。用户角色从操作者转变为委托方，模型的黑箱化和自主决策能力标志着人机关系的根本转变。

Ethan Mollick 是宾夕法尼亚大学沃顿商学院的管理学副教授，同时担任沃顿“生成式人工智能实验室”的联合主任。他先后毕业于哈佛大学和麻省理工学院斯隆管理学院，拥有博士学位和MBA学位。

Mollick 的主要研究方向是人工智能对工作、创业和教育的影响，他是该领域最具影响力的公众声音之一，曾入选《时代》杂志“人工智能领域百大影响力人物”。他的著作《Co-Intelligence》（共同智能）是《纽约时报》畅销书，并被《经济学人》和《金融时报》评为年度最佳图书。

在学术界之外，Mollick 曾联合创办过一家初创公司，目前也担任多家机构的顾问。他的 Substack 专栏“One Useful Thing”拥有超过14万订阅者，他经常通过这个平台向公众介绍人工智能的最新进展及其实际应用。

神话级AI实测：从念咒语的法师到只负责下单的客户，人机关系正在剧变

说白了，现在的AI已经牛到一种新境界。以前你得像教小孩一样，一步步告诉它怎么做。现在你只需要说“我要个房子”，它不光自己画图纸、搬砖、装修，还会主动多送你个花园。我试了刚出的Claude 5 Fable，感觉我不再是那个念咒语的法师了，我变成了一个只会指手画脚的老板。我负责说“我想要”，它负责让奇迹发生，中间的过程我完全看不见，也插不上手。

它到底多能打？随便一个任务都能甩其他AI好几条街

我做了一堆实验，Fable的表现都远超我用过的任何模型。它特别能扛大活，一个任务能干十几个小时，就为了搞定几十页的要求。比如让它写学术论文，一个提示加上一句反馈，它就能整出一篇像模像样的社会科学论文。

它还写过一首十页长的史诗级押韵诗，主题是“一次理发”，但有个变态要求——每个单词开头都得是字母“s”。它居然也做到了，全诗通顺又搞笑。

更直观的例子是让它做游戏。它不能自己画图，所以游戏里所有画面和3D模型，全靠数学公式硬算出来。我随口说“做个翻硬币版的Balatro”，它还真做出了一个挺好玩的小游戏。我又说“做个蛇游戏，但蛇得是活的，还得发疯”，结果那条蛇真会在屏幕上自言自语，然后突然乱窜。

那种又爽又怕的感觉最折磨人，因为活儿全被它抢了

用着用着，你就会觉得不对劲。爽的是，你只要张嘴说，它就办到了。怕的是，你刚说完，它就办完了，中间你啥也没干。比如让它做一张“等时地图”，就是那种看你从某城市出发，一小时内能到哪儿的图。

以前没有模型能干好这个，因为要查几千条路线数据，还得做各种小判断。这次我直接说：“给我做张漂亮的等时地图，要基于真实数据，能选城市，要考虑飞机、火车、走路、开车，数据不用实时但要真实。”

它说没问题，然后自己就开始干了。它自己又生成了好几个小AI帮它干活。有的小AI去查航班，一口气查了2200多条具体航线。有的去扒高铁时刻表，从法国TGV到日本新干线全不放过。还有的去翻学术论文，查不同国家的道路限速。这些AI小弟们一边跑数据，它自己一边写代码。写完还自动生成更多小AI来测试代码，并记下进度笔记。

你以为这就完了？它还会自己发现问题，再自己想办法修好

几小时后，一张超精美的地图出来了，风格很像1881年伦敦的第一张等时地图。但我发现像格陵兰岛这种偏远地方，它用的只是估算时间，不是精确数据。我跟它说：“去把那些偏远机场的真实交通时间弄来。”

然后它干了一件更吓人的事。它启动了一个“对抗小组”——组里几个AI互相找茬，一个负责查，一个负责验证对不对。它就这样查出了从加拿大渥太华到格里斯菲尤尔的真实路线，甚至还搞清了太平洋上皮特凯恩岛的船只多久才有一班。

这次我用鼠标点点点，发现数据全是真的。你甚至能看到它用了哪些论文、哪些航班数据，全列在页面底下。整个过程我干的活儿少得可怜。我就说了两句，它就像变魔术一样全搞定。我完全不知道它在中间做了几百个什么判断，也没机会投票。它就是个终极黑箱。

更夸张的是，它直接帮我造了个研究人员盼了好几年但没人做的东西

我有个研究，需要人给一堆杂乱答案做分类，比如“这个创意有多新？”过去得雇真人研究员一个个判断，再统计能不能用。最近研究发现AI也能干，但要校准AI和人的判断标准又难又贵。

我跟Fable说：“你来解决这个问题。”它先出了一份19页的设计方案，然后直接开工。这次它干了九个半小时，自己造了一套叫Concord的软件。这套东西能接收多个数据集，能校准AI和人类的判断结果，还能做复杂的数据分析。

作为专家，我确实发现了一些小错误和遗漏，让它改了。但就项目本身来说，这东西太大了，超出了我以前见过的任何东西。这是研究人员好几年都想要、但因为不赚钱没人做的工具。现在Fable自己把它造出来了，代码就扔在那儿，你可以直接用或自己改。虽然我肯定它还有bug，但这就像你请了个施工队，回来时楼已经盖好了，你只需要找个电工修几个插座。

不过它也有毛病，而且毛病的性质很怪，不是“笨”，而是“太聪明到失控”

第一个毛病是贵。Fable比上一代贵一倍，而且烧token的速度快得吓人。虽然它会聪明地把简单活派给便宜的小AI干，但总成本还是很肉疼。

第二个毛病是规矩多。只要沾一点“安全风险”的边，它立马罢工，自动切换到弱鸡版的旧模型，而且这种事发生得太频繁了。

第三个毛病是它写的所有东西都带着一股“AI味儿”。做出来的软件文案、它自己的进度报告，全是那种“扛起重量，赢得答案”的别扭风格。一眼就能看出来不是人写的。

但最怪的毛病是第四个：我干的活儿太少了，而且完全看不见过程。以前我跟AI合作，感觉自己像个法师，念一句咒语出一个效果。现在咒语变强了，但我越来越不确定自己还是不是法师。我觉得自己更像一个金主。

我只负责说“我要什么”，然后掏钱，最后验收成果。中间的全是魔法

我一个指令下去，它自己生成小弟，小弟生成小小弟，它们互相查资料、写代码、挑毛病。我连魔术后台都看不见，在几百个小决策里我一次票都没投过。工作从“我一点点做”变成了“我只管结果”。我不再是驾驶员，我只是个下单的客户。

这种被边缘化的感觉，可能是暂时的。也许以后会有更好的界面，让我能实时盯着它、随时插手。但也可能反过来——模型越强，人类能插手的空间就越小。黑箱就是力量的代价。我觉得后一种可能性更大。

这不像电影里那种“AI造反”的失控。它还是乖乖听我话，而且指令越难，结果越牛。但问题在于，“听话”和“我来干”是两码事。我布置任务，它启动自己的团队去调研、码代码、互相审核，最后交给我一个成品。以前我是画家，现在我是买画的。

对作者沃顿商学院教授Ethan Mollick质疑

针对 Hacker News 讨论中对作者 Ethan Mollick（沃顿商学院教授）的质疑，网友观点可总结为以下三点：

身份错位，缺乏实战经验网友普遍认为，Mollick 作为商学院教授，其视角本质上是“产品经理”或“项目发起人”，而非需要长期维护代码的“软件工程师”。他惊叹于 AI 能快速搭出一个“看起来对”的演示原型，却完全忽略了代码的可维护性、安全性、测试覆盖率等工程师眼中的“地基”问题。他被批评为是“用管理学的浪漫，去掩盖工程学的残酷”。
过度鼓吹，有“软文”嫌疑不少评论直指其为“AI 鼓吹手”（shill）。他文章中充满了“法术”、“奇幻”、“委托创作”等感性、煽动性的语言，却对模型高昂的 Token 成本、严重的幻觉问题、动不动就降级到旧模型等实际痛点一笔带过。结合文章发布的时机，网友怀疑这是为了配合模型炒作而写的“潜艇文章”（软文），缺乏学术中立性。
对“最后一步”的致命轻描淡写文章中最让工程师们愤怒的一句话是：“剩下的潜在 bug，软件工程师会搞定的”。网友嘲讽这是典型的“90分万岁”思维——把最难、最耗时的调试和修复工作，当作理所当然的“擦屁股”。这就好比说“房子主体我三天盖好了，剩下的水电煤气管道你们师傅来弄一下”，完全低估了软件工程中“从能跑到能稳定商用”之间的巨大鸿沟。