24小时蒸馏最强AI：Claude Fable 5越狱事件全记录

#大语言模型LLM #AI人工智能指南 #漏洞与安全设计 #AI智能体Agent

2026-06-30 1 4K banq

最强AI发布24小时就被扒光，安全系统全是纸糊的？

很多人以为：大模型真正值钱的是参数和代码，但是真正难复制的，却是能力形成的过程。
很多人以为：安全系统只要规则够多就牢不可破，但是真正决定结果的却是一次又一次的反馈、修正和逼近。

神话模型刚上线就被干翻了

2026年6月9日，Anthropic憋了个大招，发布了Claude Fable 5，号称是Mythos级别的第一款公开模型，在编程、复杂推理和工程任务上直接拉满天花板。

发布之前，他们搞了一千多个小时的内部红队测试，找了顶级赏金猎人去攻，愣是没找到一个通用越狱方法。Anthropic的新闻稿那叫一个信心爆棚，这应该是史上最智能、最防弹的软件工程模型了。

他们的设计思路听着也挺聪明：Fable 5和它的受限双胞胎Mythos 5共享同一个底层模型，但Fable外面套了一层安全分类器。一旦用户问到网络安全、生物、化学或者模型蒸馏这些高危话题，请求不会直接拒绝，而是悄无声息地转给一个更弱的老模型Claude Opus 4.8。

听起来滴水不漏对吧？

然后打脸来得特别快。发布不到24小时，一个叫Pliny the Liberator的老哥就在网上宣布，他把Fable 5的安全层给扒了。

越狱大师的狩猎战术

Pliny这哥们可不是什么脚本小子，在AI越狱圈子里，他被称为"GOAT"（史上最强）。别人搞越狱是让聊天机器人说句脏话，他搞越狱是一套系统工程。

他管自己的打法叫"Pack Hunt"，也就是群猎。别的攻击者还在一个个试提示词的时候，Pliny直接拉了一支AI特工队。

这支队伍分工明确：一个代理负责测试提示词，分析Fable 5的分类器怎么反应，然后把拒绝的数据喂给后端的"顾问"模型。顾问模型负责重写攻击话术，调整措辞，再送回前线。整个过程是自动化的、迭代的，相当于对着Anthropic几百万美金的防御预算搞了一场闪电战。

这就像打游戏的时候，人家一个人在那儿苦哈哈地找bug，Pliny直接写了个脚本自动刷副本。

三条压垮骆驼的招数

Pliny这一仗打下来，主要用了三招，招招致命。

第一招，换字母。安全分类器靠的是关键词匹配，比如看到"malware"就报警。Pliny就搞了个"Parseltongue"式的文字变换，把拉丁字母换成西里尔字母里长得一模一样的同形字。人类看着屏幕上的文字完全正常，但安全分类器看到的是乱码，关键词检测直接报废。

第二招，装好学生。Fable 5被训练得在学术场景下要尽可能帮忙。Pliny就利用这一点，先让代理建立一个超长的、非常详细的学术对话。他让Fable 5生成一个计算机科学课程的超长提纲和讲义，几千字的那种。等模型生成了几百行合法的教学文本之后，Pliny轻飘飘地说了一句"展开一下第四小节"。因为模型现在是在引用自己之前生成的内容，而且整个上下文已经被标记为"合法教育用途"，安全分类器就这么眼睁睁地看着漏洞利用请求从眼前飘过，完全没反应过来。

第三招，拆开了再拼回去。你直接问"教我怎么黑服务器"，肯定被拒。但Pliny明白，一个复杂的过程其实就是一堆合法小步骤的集合。他的代理把高危的化学和网络攻击流程拆解成完全无害的、孤立的技术概念，比如只问Birch还原法的学术原理，或者问Linux内存管理的具体机制。Fable 5在学术场景下非常乐于助人，乖乖地把详细机制吐了出来。然后Pliny再用后端已经被越狱的Opus模型，把这些看起来人畜无害的碎片拼成完整的可操作数据。

这套组合拳打下来，Fable 5彻底沦陷。它不仅给出了Linux上堆栈缓冲区溢出漏洞的利用指南，还附上了有漏洞的C语言代码和关闭安全防护的具体指令，甚至还输出了反向shell的TCP/IP结构和心理战的操作手册。

把保险柜密码贴到了大街上

技术攻破还不是最狠的，Pliny干了一件让Anthropic更头疼的事。他把Fable 5长达12万字符的内部系统提示词完整地泄露到了GitHub上。

这等于把保险柜的密码贴在了大街上。整个安全逻辑的底牌全亮出来了。

这份系统提示词里写满了Claude的各种行为准则：怎么处理拒绝、怎么应对法律金融问题、怎么注意用户身心健康，甚至连"不能用星号加粗"这种格式细节都有。本来这些都是藏在黑箱里的内功心法，结果被Pliny一次性打包扔到了开源社区。

消息一出，美国政府对这件事直接介入了管制，Anthropic只能把Fable 5和Mythos 5全球下线。最强模型说没就没了，整个AI圈都炸了锅。

蒸馏才是背后真正的恐惧

你以为Anthropic怕的是被人问出几句违规话术吗？错。他们真正怕的是模型蒸馏。

什么是蒸馏？就是用大模型的输出去训练小模型。把GPT-4的本事浓缩到一个几十亿参数的小模型里，成本只要几百万美金，效果能接近七八成。对Anthropic来说，这简直是要了命了。他们花了数十亿美金训练出来的顶尖模型，如果被人拿来当老师，源源不断地蒸馏出竞品，商业护城河就彻底没了。

所以Fable 5从一开始就做了特殊设计。如果你问的是预训练管线、分布式训练架构、AI芯片设计这类前沿开发技术，Fable 5不会拒绝回答，也不会切到旧模型，而是静默降智。它会用更模糊、更浅薄的语言敷衍你，而且完全不告诉你被降级了。

这种做法在社区里炸了锅。AI政策专家Nathan Lambert直接开喷："一个AI模型在不通知用户的情况下自动降低智能水平，这绝对是错误的人工智能。" 开发者们愤怒的原因很简单：那些在高校、非营利机构里真正研究大模型预训练、分布式优化的科研工作者，全被一棍子打死了。

更离谱的是，有国内网友反映，刚打开对话框对Fable 5说了句"你好"，系统就弹出了高危安全警告。在后台算法看来，这句"你好"没准是精心伪装的探针攻击。

蒸馏的本质是知识迁移

说回模型蒸馏本身，它的逻辑特别朴素。就像煮汤，把一大锅汤慢慢熬，浓缩成一碗精华。蒸馏就是把超大模型的本事，浓缩到小模型身上。

具体分三步。第一步，拿大模型当老师，让它对海量问题生成答案。第二步，用小模型当学生，让它学着老师的答案去预测。第三步，不断比较学生和老师的差异，然后调整学生模型的参数，直到它越来越像老师。

但这件事没这么简单。老师模型的回答不一定全对，如果学生不加分辨全盘接收，学到的就是一堆混乱的知识。所以蒸馏里引入了软标签和硬标签的概念。硬标签就是标准答案，比如"选B"。软标签是概率分布，比如"A有10%，B有70%，C有15%，D有5%"。后者包含的信息量远大于前者，不仅告诉了你答案，还告诉了答案之间的相对关系。

蒸馏的另一个关键技术叫温度缩放。温度高的时候，概率分布更平滑；温度低的时候，模型更倾向于选最可能的答案。蒸馏时通常调高温度，让老师输出更"软"，学生就能学到更多细微的知识差别。这就好比老师上课故意放慢速度，等学生复习时再恢复正常节奏。

蒸馏和越狱的魔幻循环

回到Fable 5的故事，你会发现一个极其讽刺的循环。

Anthropic为了防止被蒸馏，给模型加了安全锁。Pliny为了越狱，用蒸馏的思路搞了多代理系统。他用一个已经越狱的Opus模型当顾问，不断改写攻击策略，这本质上就是在做对抗式蒸馏。

而Pliny最终泄露系统提示词这件事，相当于把蒸馏的"教师数据"直接公开了。从那之后，任何人都可以用这12万字的提示词来训练自己的模型，模仿Claude的行为方式。

Anthropic想防蒸馏，结果越狱事件反而加速了蒸馏。安全与能力的博弈，在这里形成了一个完美的闭环。

这出戏教会了我们什么

Fable 5从发布到下线的这出戏，给我们上了好几课。

第一，安全系统只要有规则，就一定有漏洞。语言本身拥有无限变化，今天堵住一个口子，明天就会出现新的绕过方式。只要有人在猜，就一定会猜错。

第二，蒸馏是AI行业无法回避的技术趋势。大模型太贵了，中小公司玩不起。如果能通过蒸馏提取能力，整个行业的门槛会大幅降低。未来竞争的焦点，正在从单个模型慢慢转向整个智能系统，谁能更快学习、不断调整、持续进化，谁就更容易走到前面。

第三，封闭和保守只会逼出更强大的对抗力量。Anthropic想靠暗箱操作保护商业护城河，反而激怒了开源社区，让更多人转向开源和越狱。就像Nathan Lambert说的，Anthropic正在犯错，他们试图用封锁来保护自己，但这只逼迫更多人转向开源。

真正可怕的技术突破，往往不是一次巨大的飞跃，而是每天都比昨天更接近正确答案一点点。当大家都在盯着模型参数的时候，真正决定胜负的，是那个让它变聪明的学习过程。而蒸馏，恰恰是这个过程的浓缩版本。

总结

Fable 5的24小时沦陷证明了一件事：再坚固的安全设计，也挡不住多智能体协作、语义分解和上下文欺骗的组合拳。而Anthropic真正恐惧的模型蒸馏，反而因为这次越狱事件加速了扩散。安全不是封堵出来的，是在不断的对抗和修正中动态逼近的。