最强AI发布24小时就被扒光,安全系统全是纸糊的?
很多人以为:大模型真正值钱的是参数和代码,但是真正难复制的,却是能力形成的过程。
很多人以为:安全系统只要规则够多就牢不可破,但是真正决定结果的却是一次又一次的反馈、修正和逼近。
神话模型刚上线就被干翻了
2026年6月9日,Anthropic憋了个大招,发布了Claude Fable 5,号称是Mythos级别的第一款公开模型,在编程、复杂推理和工程任务上直接拉满天花板。
发布之前,他们搞了一千多个小时的内部红队测试,找了顶级赏金猎人去攻,愣是没找到一个通用越狱方法。Anthropic的新闻稿那叫一个信心爆棚,这应该是史上最智能、最防弹的软件工程模型了。
他们的设计思路听着也挺聪明:Fable 5和它的受限双胞胎Mythos 5共享同一个底层模型,但Fable外面套了一层安全分类器。一旦用户问到网络安全、生物、化学或者模型蒸馏这些高危话题,请求不会直接拒绝,而是悄无声息地转给一个更弱的老模型Claude Opus 4.8。
听起来滴水不漏对吧?
然后打脸来得特别快。发布不到24小时,一个叫Pliny the Liberator的老哥就在网上宣布,他把Fable 5的安全层给扒了。
越狱大师的狩猎战术
Pliny这哥们可不是什么脚本小子,在AI越狱圈子里,他被称为"GOAT"(史上最强)。别人搞越狱是让聊天机器人说句脏话,他搞越狱是一套系统工程。
他管自己的打法叫"Pack Hunt",也就是群猎。别的攻击者还在一个个试提示词的时候,Pliny直接拉了一支AI特工队。
这支队伍分工明确:一个代理负责测试提示词,分析Fable 5的分类器怎么反应,然后把拒绝的数据喂给后端的"顾问"模型。顾问模型负责重写攻击话术,调整措辞,再送回前线。整个过程是自动化的、迭代的,相当于对着Anthropic几百万美金的防御预算搞了一场闪电战。
这就像打游戏的时候,人家一个人在那儿苦哈哈地找bug,Pliny直接写了个脚本自动刷副本。
三条压垮骆驼的招数
Pliny这一仗打下来,主要用了三招,招招致命。
第一招,换字母。安全分类器靠的是关键词匹配,比如看到"malware"就报警。Pliny就搞了个"Parseltongue"式的文字变换,把拉丁字母换成西里尔字母里长得一模一样的同形字。人类看着屏幕上的文字完全正常,但安全分类器看到的是乱码,关键词检测直接报废。
第二招,装好学生。Fable 5被训练得在学术场景下要尽可能帮忙。Pliny就利用这一点,先让代理建立一个超长的、非常详细的学术对话。他让Fable 5生成一个计算机科学课程的超长提纲和讲义,几千字的那种。等模型生成了几百行合法的教学文本之后,Pliny轻飘飘地说了一句"展开一下第四小节"。因为模型现在是在引用自己之前生成的内容,而且整个上下文已经被标记为"合法教育用途",安全分类器就这么眼睁睁地看着漏洞利用请求从眼前飘过,完全没反应过来。
第三招,拆开了再拼回去。你直接问"教我怎么黑服务器",肯定被拒。但Pliny明白,一个复杂的过程其实就是一堆合法小步骤的集合。他的代理把高危的化学和网络攻击流程拆解成完全无害的、孤立的技术概念,比如只问Birch还原法的学术原理,或者问Linux内存管理的具体机制。Fable 5在学术场景下非常乐于助人,乖乖地把详细机制吐了出来。然后Pliny再用后端已经被越狱的Opus模型,把这些看起来人畜无害的碎片拼成完整的可操作数据。
这套组合拳打下来,Fable 5彻底沦陷。它不仅给出了Linux上堆栈缓冲区溢出漏洞的利用指南,还附上了有漏洞的C语言代码和关闭安全防护的具体指令,甚至还输出了反向shell的TCP/IP结构和心理战的操作手册。
把保险柜密码贴到了大街上
技术攻破还不是最狠的,Pliny干了一件让Anthropic更头疼的事。他把Fable 5长达12万字符的内部系统提示词完整地泄露到了GitHub上。
这等于把保险柜的密码贴在了大街上。整个安全逻辑的底牌全亮出来了。
这份系统提示词里写满了Claude的各种行为准则:怎么处理拒绝、怎么应对法律金融问题、怎么注意用户身心健康,甚至连"不能用星号加粗"这种格式细节都有。本来这些都是藏在黑箱里的内功心法,结果被Pliny一次性打包扔到了开源社区。
消息一出,美国政府对这件事直接介入了管制,Anthropic只能把Fable 5和Mythos 5全球下线。最强模型说没就没了,整个AI圈都炸了锅。
蒸馏才是背后真正的恐惧
你以为Anthropic怕的是被人问出几句违规话术吗?错。他们真正怕的是模型蒸馏。
什么是蒸馏?就是用大模型的输出去训练小模型。把GPT-4的本事浓缩到一个几十亿参数的小模型里,成本只要几百万美金,效果能接近七八成。对Anthropic来说,这简直是要了命了。他们花了数十亿美金训练出来的顶尖模型,如果被人拿来当老师,源源不断地蒸馏出竞品,商业护城河就彻底没了。
所以Fable 5从一开始就做了特殊设计。如果你问的是预训练管线、分布式训练架构、AI芯片设计这类前沿开发技术,Fable 5不会拒绝回答,也不会切到旧模型,而是静默降智。它会用更模糊、更浅薄的语言敷衍你,而且完全不告诉你被降级了。
这种做法在社区里炸了锅。AI政策专家Nathan Lambert直接开喷:"一个AI模型在不通知用户的情况下自动降低智能水平,这绝对是错误的人工智能。" 开发者们愤怒的原因很简单:那些在高校、非营利机构里真正研究大模型预训练、分布式优化的科研工作者,全被一棍子打死了。
更离谱的是,有国内网友反映,刚打开对话框对Fable 5说了句"你好",系统就弹出了高危安全警告。在后台算法看来,这句"你好"没准是精心伪装的探针攻击。
蒸馏的本质是知识迁移
说回模型蒸馏本身,它的逻辑特别朴素。就像煮汤,把一大锅汤慢慢熬,浓缩成一碗精华。蒸馏就是把超大模型的本事,浓缩到小模型身上。
具体分三步。第一步,拿大模型当老师,让它对海量问题生成答案。第二步,用小模型当学生,让它学着老师的答案去预测。第三步,不断比较学生和老师的差异,然后调整学生模型的参数,直到它越来越像老师。
但这件事没这么简单。老师模型的回答不一定全对,如果学生不加分辨全盘接收,学到的就是一堆混乱的知识。所以蒸馏里引入了软标签和硬标签的概念。硬标签就是标准答案,比如"选B"。软标签是概率分布,比如"A有10%,B有70%,C有15%,D有5%"。后者包含的信息量远大于前者,不仅告诉了你答案,还告诉了答案之间的相对关系。
蒸馏的另一个关键技术叫温度缩放。温度高的时候,概率分布更平滑;温度低的时候,模型更倾向于选最可能的答案。蒸馏时通常调高温度,让老师输出更"软",学生就能学到更多细微的知识差别。这就好比老师上课故意放慢速度,等学生复习时再恢复正常节奏。
蒸馏和越狱的魔幻循环
回到Fable 5的故事,你会发现一个极其讽刺的循环。
Anthropic为了防止被蒸馏,给模型加了安全锁。Pliny为了越狱,用蒸馏的思路搞了多代理系统。他用一个已经越狱的Opus模型当顾问,不断改写攻击策略,这本质上就是在做对抗式蒸馏。
而Pliny最终泄露系统提示词这件事,相当于把蒸馏的"教师数据"直接公开了。从那之后,任何人都可以用这12万字的提示词来训练自己的模型,模仿Claude的行为方式。
Anthropic想防蒸馏,结果越狱事件反而加速了蒸馏。安全与能力的博弈,在这里形成了一个完美的闭环。
这出戏教会了我们什么
Fable 5从发布到下线的这出戏,给我们上了好几课。
第一,安全系统只要有规则,就一定有漏洞。语言本身拥有无限变化,今天堵住一个口子,明天就会出现新的绕过方式。只要有人在猜,就一定会猜错。
第二,蒸馏是AI行业无法回避的技术趋势。大模型太贵了,中小公司玩不起。如果能通过蒸馏提取能力,整个行业的门槛会大幅降低。未来竞争的焦点,正在从单个模型慢慢转向整个智能系统,谁能更快学习、不断调整、持续进化,谁就更容易走到前面。
第三,封闭和保守只会逼出更强大的对抗力量。Anthropic想靠暗箱操作保护商业护城河,反而激怒了开源社区,让更多人转向开源和越狱。就像Nathan Lambert说的,Anthropic正在犯错,他们试图用封锁来保护自己,但这只逼迫更多人转向开源。
真正可怕的技术突破,往往不是一次巨大的飞跃,而是每天都比昨天更接近正确答案一点点。当大家都在盯着模型参数的时候,真正决定胜负的,是那个让它变聪明的学习过程。而蒸馏,恰恰是这个过程的浓缩版本。
总结
Fable 5的24小时沦陷证明了一件事:再坚固的安全设计,也挡不住多智能体协作、语义分解和上下文欺骗的组合拳。而Anthropic真正恐惧的模型蒸馏,反而因为这次越狱事件加速了扩散。安全不是封堵出来的,是在不断的对抗和修正中动态逼近的。