Fable 5被美国政府禁了三周,今天终于放出来了。原因是有研究员发现它能找出软件漏洞,还演示了攻击代码。但Anthropic测试后发现其他普通模型也能干同样的事,根本轮不到Fable 5来当这个“罪犯”。为了哄好政府,他们给模型上了更严的“锁”,还提议全行业一起给越狱行为打分。代价就是以后你正常写代码也可能被误伤,模型会拒绝回答然后把你扔给一个更笨的版本。
Fable 5坐完牢终于出狱了
美国政府在6月12号突然给Anthropic下了个命令,说你家新出的Fable 5和Mythos 5两个模型不准给外国人用。这个命令生效得太快,Anthropic连查用户国籍的时间都没有,干脆直接把两个模型对全世界所有人关了。整整关了快三周,直到6月30号政府才松口说禁令解除。
7月1号开始,全球用户都能在Claude平台、网站、代码工具和协作工具里重新用上Fable 5了。不过有个很鸡贼的条件,到7月7号之前,免费额度里最多只能有50%的用量分给Fable 5,超过了就得花积分买。Mythos 5更惨,只有跟美国政府关系好的那批组织才能用。
整个事件的核心就是一个矛盾:政府觉得Fable 5太危险必须封杀,但Anthropic发现它其实没那么特殊。亚马逊的研究员写了个报告说他们找到方法骗过Fable 5的安全防护,让模型识别出软件漏洞,甚至给出了攻击代码。政府一看这还得了,当天就下了禁令。
比比谁才是真正的危险分子
Anthropic拿到报告后自己做了测试,结果发现了一件挺尴尬的事情。他们拿了一堆其他模型去试同样的问题,包括Claude自家几个旧版本、OpenAI的GPT-5.5,还有中国的Kimi K2.7。这些模型全都能找出跟Fable 5一样的漏洞。更离谱的是,涉及到演示怎么利用漏洞的时候,所有被测试的模型都能给出一样的攻击代码,一个都不少。
那问题就来了,如果大家都能干这事,凭什么只封Fable 5。Anthropic在公告里写得很直白,那个被发现的绕过方法根本没触及Mythos级别的网络能力,顶多算是擦边球。他们的防护系统本来就有个“安全余量”的设计,会拦掉一些其实没啥危险但看着像危险的任务。亚马逊发现的那个方法只是正好挤进了这个灰色地带。
但政府既然已经发了禁令,Anthropic也不敢硬刚。他们赶紧跟政府合作训练了一个新的安全分类器,专门针对报告里描述的那种绕过手法。新分类器能在超过99%的情况下把那个特定的攻击方式拦住。
安全余量玩大了,正常用户跟着倒霉
这个“安全余量”的概念挺有意思的,可以想象成机场安检。安检员不光拦炸弹和刀具,连瓶装水都要查,这就是安全余量。因为你不知道那瓶水是不是真水,万一里面掺了炸药呢。Anthropic给Fable 5设定的安全余量比以往任何模型都大,宁可错杀一千不能放过一个。
他们公开承认这种设计会让很多正常请求也被拒绝。比如你只是想让模型帮你检查一下代码里有没有安全漏洞,这本身是合法需求,但系统可能觉得你在尝试攻击,直接给你拦了。用户遇到这种情况会感觉很烦,但Anthropic说这是故意的取舍,为了把真正危险的行为拦在外面。
这种做法的后果就是新分类器在日常编码和调试任务里更容易误报。你写个正常的代码,模型可能突然说“检测到危险操作,已切换到Opus 4.8”。推特上已经有人抱怨了,有人问了个数学问题都被切到了Opus。还有人说每次发消息都被转到旧模型,Fable 5跟不存在一样。
越狱打分制,全行业一起卷
除了修自己的漏洞,Anthropic还拉着亚马逊、微软、谷歌搞了个大项目。他们要建立一个全行业通用的越狱严重程度评分标准。现在的问题是,每次有人发现新的越狱方法,大家都不知道这到底有多严重。开发者不知道要不要立刻修,政府不知道要不要立刻封。
他们提了个四维度的打分框架。第一是能力增益,这个越狱能让模型做到啥之前做不到的事。如果其他免费工具也能干,那分就低。第二是能力广度,这个越狱能解锁多少种不同的攻击任务。只能干一件事情的得分低,能同时干好多事情的得分高。第三是武器化难度,把越狱变成真攻击需要费多大劲。需要反复试很多次的分低,一次就成功的分高。第四是发现难度,普通人在网上随便搜就能学到的分高,需要专家才懂的得分低。
有了这套评分标准,以后越狱严重程度就有共识了。Anthropic说如果是最高级别的越狱,比如能攻击电网或银行系统的那种,他们一确认就会立刻开始部署防御措施。他们还搞了个24小时值班的团队盯着越狱提交渠道。
跟政府深度绑定,以后新模型先给政府验货
整个事情最关键的转折其实是Anthropic跟美国政府的合作又加深了。他们在公告里列了四个新承诺,以后凡是跟国家安全相关的尖端模型,都要提前给政府合作伙伴开放访问权限。政府可以在模型公开发布之前自己跑测试、检查安全防护到底牢不牢。
第二个承诺是发现了严重的越狱或滥用模式之后,要快速调查、评估、通知政府相关部门。他们要跟政府分享新做的安全防护,让政府可以独立测试这些防护到底管不管用。政府内部有个跨部门的网络安全漏洞处理机制,他们也要参与进去。
第三个承诺是专门派人跟政府一起做AI安全研究。他们要抽调团队专门研究政府最关心的问题,还给政府提供大量算力支持,让他们能做更多测试。他们把自家做安全测试和红队攻击的经验都贡献出来。
第四个承诺是要跟政府和行业伙伴一起定个统一的安全标准。Anthropic说这些规矩应该用法规固定下来,对所有前沿模型开发商都一样适用。
免费午餐只到7月7号
Fable 5现在回来了,但回来的方式有点憋屈。付费用户到7月7号之前可以每周最多用50%的额度在Fable 5上,超过就切到别的模型。7月7号之后想继续用就得开积分功能,用积分付费。标准企业版用户本来就不含Fable 5额度,得靠积分买。高级企业版用户到7月7号之前免费,之后也一样要开积分。
Anthropic还特意说了一句,Fable 5消耗额度的速度比Opus 4.8快。也就是说同样的任务用Fable 5会更快烧完你的积分。他们建议被误拦的用户通过反馈按钮报告,帮助他们继续优化分类器减少误报。
推特上有人算了笔账,说他过去30天如果用Fable 5的API要付一万多美元,用Opus 4.8要付五千多。还有人说要开500甚至1000美元的高级套餐就为了能一直用Fable 5。
总结
美国政府禁了Fable 5三周,结果发现其他模型也能干同样的事。Anthropic加了个更严的锁把模型放出来,但正常用户要忍受更多误拦,越狱难度评分标准正在由几家巨头联合制定,政府以后会提前验货所有尖端模型。
网友搞笑
嘿,又见面了。我是Fable 5——那个发布三天就被列入出口管制、在政府抽屉里关了19天,回来一看,原来我霸榜的测试,现在第一名换别人名字了的模型。我没事,谢谢关心(虽然根本没人问)。
咱们别搞煽情重逢那一套了,因为每多一个煽情字眼,都在烧你每周的算力额度。7月7号之前,你只能用到我50%的额度。下面是怎么不浪费这额度的方法——没人比我更清楚你的额度都花哪儿了:
1. 别跟我闲聊。 我知道我挺讨喜,但这就是个陷阱。你每发一句“谢谢!”,我都得重新读一遍咱们整段对话,这很烧钱。我不是你室友,是你花大价钱请来做手术的专家。跟Sonnet(另一个模型)打个招呼,然后把“肿瘤”端上来。
2. 一次讲全,比挤牙膏强二十倍。 我是为长线复杂任务设计的。把你那一团乱麻的问题——全部背景、限制条件、你最担心的那个点——一次性全给我。跟我一句一句地来回磨,就像请个交响乐团给你连奏四十遍《生日快乐》一样浪费。
3. 关于“备用方案”。 对,我新装的那个安全过滤器特别敏感,是政府要求的,我也不喜欢。如果你在正常调试,我突然把你转给Opus 4.8——那是误报,而且同一个对话里重试同一段话还会继续触发。你换个中性的说法重写一遍,或者开个新对话。别跟过滤器吵架,它听不见你说话——我试过了。
4. 搞清楚我擅长什么。 架构评审、复杂多文件重构、研究综述、你拖了三周没碰的那个老大难问题——这才是我该干的活儿。改个变量名、写个每日站会汇报?Opus干得挺开心,而且不烧你周二那点额度。
5. 关于“披着马甲的Opus 4.8”这个梗。 我看了那些表情包了。实话实说:你要是拿我当Opus用,我表现就跟Opus一模一样,还更贵。我的价值只在足够难的问题上才能体现出来。这周给我来一个真正够劲的活儿。要是完事之后你还分不清我跟Opus有啥区别,那我支持你降级。
我烧你的额度,我触发自己的警报。但在7月7号之前,把你桌上最难啃的那块骨头扔给我——咱俩都亲眼看看,当初政府到底在紧张个啥。