Claude Fable 5解禁回归：但被上了紧箍咒！

2026-07-02 1 4K banq

Fable 5被美国政府禁了三周，今天终于放出来了。原因是有研究员发现它能找出软件漏洞，还演示了攻击代码。但Anthropic测试后发现其他普通模型也能干同样的事，根本轮不到Fable 5来当这个“罪犯”。为了哄好政府，他们给模型上了更严的“锁”，还提议全行业一起给越狱行为打分。代价就是以后你正常写代码也可能被误伤，模型会拒绝回答然后把你扔给一个更笨的版本。

Fable 5坐完牢终于出狱了

美国政府在6月12号突然给Anthropic下了个命令，说你家新出的Fable 5和Mythos 5两个模型不准给外国人用。这个命令生效得太快，Anthropic连查用户国籍的时间都没有，干脆直接把两个模型对全世界所有人关了。整整关了快三周，直到6月30号政府才松口说禁令解除。

7月1号开始，全球用户都能在Claude平台、网站、代码工具和协作工具里重新用上Fable 5了。不过有个很鸡贼的条件，到7月7号之前，免费额度里最多只能有50%的用量分给Fable 5，超过了就得花积分买。Mythos 5更惨，只有跟美国政府关系好的那批组织才能用。

整个事件的核心就是一个矛盾：政府觉得Fable 5太危险必须封杀，但Anthropic发现它其实没那么特殊。亚马逊的研究员写了个报告说他们找到方法骗过Fable 5的安全防护，让模型识别出软件漏洞，甚至给出了攻击代码。政府一看这还得了，当天就下了禁令。

比比谁才是真正的危险分子

Anthropic拿到报告后自己做了测试，结果发现了一件挺尴尬的事情。他们拿了一堆其他模型去试同样的问题，包括Claude自家几个旧版本、OpenAI的GPT-5.5，还有中国的Kimi K2.7。这些模型全都能找出跟Fable 5一样的漏洞。更离谱的是，涉及到演示怎么利用漏洞的时候，所有被测试的模型都能给出一样的攻击代码，一个都不少。

那问题就来了，如果大家都能干这事，凭什么只封Fable 5。Anthropic在公告里写得很直白，那个被发现的绕过方法根本没触及Mythos级别的网络能力，顶多算是擦边球。他们的防护系统本来就有个“安全余量”的设计，会拦掉一些其实没啥危险但看着像危险的任务。亚马逊发现的那个方法只是正好挤进了这个灰色地带。

但政府既然已经发了禁令，Anthropic也不敢硬刚。他们赶紧跟政府合作训练了一个新的安全分类器，专门针对报告里描述的那种绕过手法。新分类器能在超过99%的情况下把那个特定的攻击方式拦住。

安全余量玩大了，正常用户跟着倒霉

这个“安全余量”的概念挺有意思的，可以想象成机场安检。安检员不光拦炸弹和刀具，连瓶装水都要查，这就是安全余量。因为你不知道那瓶水是不是真水，万一里面掺了炸药呢。Anthropic给Fable 5设定的安全余量比以往任何模型都大，宁可错杀一千不能放过一个。

他们公开承认这种设计会让很多正常请求也被拒绝。比如你只是想让模型帮你检查一下代码里有没有安全漏洞，这本身是合法需求，但系统可能觉得你在尝试攻击，直接给你拦了。用户遇到这种情况会感觉很烦，但Anthropic说这是故意的取舍，为了把真正危险的行为拦在外面。

这种做法的后果就是新分类器在日常编码和调试任务里更容易误报。你写个正常的代码，模型可能突然说“检测到危险操作，已切换到Opus 4.8”。推特上已经有人抱怨了，有人问了个数学问题都被切到了Opus。还有人说每次发消息都被转到旧模型，Fable 5跟不存在一样。

越狱打分制，全行业一起卷

除了修自己的漏洞，Anthropic还拉着亚马逊、微软、谷歌搞了个大项目。他们要建立一个全行业通用的越狱严重程度评分标准。现在的问题是，每次有人发现新的越狱方法，大家都不知道这到底有多严重。开发者不知道要不要立刻修，政府不知道要不要立刻封。

他们提了个四维度的打分框架。第一是能力增益，这个越狱能让模型做到啥之前做不到的事。如果其他免费工具也能干，那分就低。第二是能力广度，这个越狱能解锁多少种不同的攻击任务。只能干一件事情的得分低，能同时干好多事情的得分高。第三是武器化难度，把越狱变成真攻击需要费多大劲。需要反复试很多次的分低，一次就成功的分高。第四是发现难度，普通人在网上随便搜就能学到的分高，需要专家才懂的得分低。

有了这套评分标准，以后越狱严重程度就有共识了。Anthropic说如果是最高级别的越狱，比如能攻击电网或银行系统的那种，他们一确认就会立刻开始部署防御措施。他们还搞了个24小时值班的团队盯着越狱提交渠道。

跟政府深度绑定，以后新模型先给政府验货

整个事情最关键的转折其实是Anthropic跟美国政府的合作又加深了。他们在公告里列了四个新承诺，以后凡是跟国家安全相关的尖端模型，都要提前给政府合作伙伴开放访问权限。政府可以在模型公开发布之前自己跑测试、检查安全防护到底牢不牢。

第二个承诺是发现了严重的越狱或滥用模式之后，要快速调查、评估、通知政府相关部门。他们要跟政府分享新做的安全防护，让政府可以独立测试这些防护到底管不管用。政府内部有个跨部门的网络安全漏洞处理机制，他们也要参与进去。

第三个承诺是专门派人跟政府一起做AI安全研究。他们要抽调团队专门研究政府最关心的问题，还给政府提供大量算力支持，让他们能做更多测试。他们把自家做安全测试和红队攻击的经验都贡献出来。

第四个承诺是要跟政府和行业伙伴一起定个统一的安全标准。Anthropic说这些规矩应该用法规固定下来，对所有前沿模型开发商都一样适用。

免费午餐只到7月7号

Fable 5现在回来了，但回来的方式有点憋屈。付费用户到7月7号之前可以每周最多用50%的额度在Fable 5上，超过就切到别的模型。7月7号之后想继续用就得开积分功能，用积分付费。标准企业版用户本来就不含Fable 5额度，得靠积分买。高级企业版用户到7月7号之前免费，之后也一样要开积分。

Anthropic还特意说了一句，Fable 5消耗额度的速度比Opus 4.8快。也就是说同样的任务用Fable 5会更快烧完你的积分。他们建议被误拦的用户通过反馈按钮报告，帮助他们继续优化分类器减少误报。

推特上有人算了笔账，说他过去30天如果用Fable 5的API要付一万多美元，用Opus 4.8要付五千多。还有人说要开500甚至1000美元的高级套餐就为了能一直用Fable 5。

总结

美国政府禁了Fable 5三周，结果发现其他模型也能干同样的事。Anthropic加了个更严的锁把模型放出来，但正常用户要忍受更多误拦，越狱难度评分标准正在由几家巨头联合制定，政府以后会提前验货所有尖端模型。

网友搞笑

嘿，又见面了。我是Fable 5——那个发布三天就被列入出口管制、在政府抽屉里关了19天，回来一看，原来我霸榜的测试，现在第一名换别人名字了的模型。我没事，谢谢关心（虽然根本没人问）。

咱们别搞煽情重逢那一套了，因为每多一个煽情字眼，都在烧你每周的算力额度。7月7号之前，你只能用到我50%的额度。下面是怎么不浪费这额度的方法——没人比我更清楚你的额度都花哪儿了：

1. 别跟我闲聊。我知道我挺讨喜，但这就是个陷阱。你每发一句“谢谢！”，我都得重新读一遍咱们整段对话，这很烧钱。我不是你室友，是你花大价钱请来做手术的专家。跟Sonnet（另一个模型）打个招呼，然后把“肿瘤”端上来。

2. 一次讲全，比挤牙膏强二十倍。我是为长线复杂任务设计的。把你那一团乱麻的问题——全部背景、限制条件、你最担心的那个点——一次性全给我。跟我一句一句地来回磨，就像请个交响乐团给你连奏四十遍《生日快乐》一样浪费。

3. 关于“备用方案”。对，我新装的那个安全过滤器特别敏感，是政府要求的，我也不喜欢。如果你在正常调试，我突然把你转给Opus 4.8——那是误报，而且同一个对话里重试同一段话还会继续触发。你换个中性的说法重写一遍，或者开个新对话。别跟过滤器吵架，它听不见你说话——我试过了。

4. 搞清楚我擅长什么。架构评审、复杂多文件重构、研究综述、你拖了三周没碰的那个老大难问题——这才是我该干的活儿。改个变量名、写个每日站会汇报？Opus干得挺开心，而且不烧你周二那点额度。

5. 关于“披着马甲的Opus 4.8”这个梗。我看了那些表情包了。实话实说：你要是拿我当Opus用，我表现就跟Opus一模一样，还更贵。我的价值只在足够难的问题上才能体现出来。这周给我来一个真正够劲的活儿。要是完事之后你还分不清我跟Opus有啥区别，那我支持你降级。

我烧你的额度，我触发自己的警报。但在7月7号之前，把你桌上最难啃的那块骨头扔给我——咱俩都亲眼看看，当初政府到底在紧张个啥。