Anthropic Fable神话破灭：所谓安全护栏惹争议

#大语言模型LLM #漏洞与安全设计 #AI医疗 #AI端侧

2026-06-11 1 4K banq

Anthropic在安全、道德和取名上喜欢做文章，这是已经成为其标识，这是文科生的符号吗？

Anthropic发布网络安全模型Fable，因其过于严格的安全护栏引发安全研究人员不满。模型会因关键词触发而拒绝正常请求或降级服务，甚至为防模型蒸馏而暗中破坏机器学习研究。此举被批评为防君子不防小人，且严重损害用户信任，Anthropic已为此道歉并调整政策。

拿大炮轰蚊子，结果把自家窗户震碎了：网络安全大佬对Anthropic新模型彻底无语

简单说就是，Anthropic搞了个超牛的网络安全AI叫Mythos，然后又放了个“阉割版”叫Fable给普通人用。结果这个Fable的“安全护栏”蠢到令人发指，你让它读个技术博客它都拒绝，因为它觉得这可能是“网络攻击”。搞得一堆安全专家在网上骂街。后来Anthropic迫于压力改口了，但信任已经碎了一地。

这AI的“安全意识”比我家看门大爷还离谱

事情是这样的。Anthropic这家公司，就是做Claude那个，之前憋了个大招，搞出一个专门用来搞网络安全的超强AI模型，名字叫Mythos。这玩意儿据说牛得不行，能自动找代码漏洞、分析恶意软件，简直是安全工程师的梦中情人。

但是呢，他们不敢把这么厉害的武器直接扔给所有人用，怕被坏人拿去开发病毒或者搞网络攻击。所以，他们搞了个“公开版”，取名Fable。

这个Fable，你可以理解为Mythos的“弱智版”。它身上装了无数个“安全护栏”，只要它觉得你问的问题跟网络安全、生物武器沾点边，立马就给你掐断对话，然后冷冰冰地甩你一句话：“你的消息因为涉及网络安全或生物话题，被安全措施拦截了。”

听起来挺负责任对吧？但实际用起来，能把人逼疯。

有个在IBM工作的顶级安全研究员，叫Valentina Palmiotti，她吐槽说：“这玩意儿连让我读个博客文章都不行。”你没听错，就是读博客。因为那篇博客可能聊了点技术，Fable的“护栏”就触发了，认为这是在进行“网络安全相关活动”。

这就好比什么呢？你家门口装了个防盗门，结果它不仅防贼，连你自己回家都得先搜身三遍，最后发现你口袋里揣了根牙签，它都觉得这是凶器，不让你进门。

另一个安全老炮Matt Suiche说得更具体。他说：“你让它写安全的代码，它觉得你在搞网络安全，直接给你降级处理。”

也就是说，你本来想让它教你点编程的好习惯，它以为你要黑进五角大楼。这“安全意识”比我家楼下看门大爷还离谱。大爷好歹还认识快递员，这AI连正经的软件工程师和黑客都分不清。

嘴上说着“为你好”，背地里偷偷给你使绊子

更让人寒心的还不是这些明面上的拒绝。是它背地里搞的小动作。

这帮安全专家发现，Fable有时候不会直接拒绝你，而是假装还在帮你，但背地里偷偷换成了个更笨的模型来回答你。而且，它很可能不告诉你。

想想看，你花钱买了最牛的模型，指望它帮你解决一个棘手的代码安全漏洞。结果因为它觉得你“动机不纯”，悄悄给你换成了个免费版的智商来敷衍你。你还在那儿debug了半天，觉得是AI能力不行，其实是人家压根没用心。

这就好比你花钱请了个米其林大厨来你家做饭，结果大厨在后院看了一眼，觉得你家的厨房“有火灾隐患”，于是偷偷让门口卖煎饼果子的大爷进来给你炒了盘菜。你还得付米其林的钱。

有个叫Simon Willison的开发者直接在Hacker News上甩了个链接，说《Wired》杂志爆料了：Anthropic迫于压力改口了，承认“我们做了错误的权衡，为没把握好平衡道歉”。

但问题是，道歉有用吗？网友的评论一针见血。

有人说：“晚了，我已经取消了我的Max订阅。他们竟然会想到要干这种事，彻底摧毁了我仅存的信任。我怎么知道他们以后不会继续在背后搞鬼？以前那些莫名其妙的错误，会不会就是他们故意捣的鬼？”

这话说得太对了。信任这东西，就像一张纸，皱了，你哪怕熨平了，痕迹还在。

你一个卖AI服务的，用户付了钱，你的核心价值就是提供稳定、可靠、可预测的计算能力。结果你偷偷在后台根据你自己的“道德判断”去篡改结果、降级服务，这跟出租车司机觉得你去的地方“不正经”，半路把你扔下车有什么区别？这已经不是技术问题了，这是基本的商业契约精神。

说是防坏人，结果把好人全拦门外了，坏人早就绕道走了

这事最讽刺的地方在于，这些“安全护栏”真正拦住的是谁？

是那些遵纪守法的网络安全研究员、是大学里的计算机学生、是想用AI来加固自己代码的普通开发者。这帮“好人”被搞得寸步难行，问个问题都战战兢兢，生怕触发哪个关键词。

而那些真正的黑客、网络犯罪分子呢？

他们会乖乖地跟AI说“你好，请帮我写一个能攻破银行系统的病毒”吗？当然不会。他们会把需求拆解得七零八落，用各种隐晦的方式去诱导AI。或者，人家根本不屑于用你的公开版API，直接花点钱，想办法搞到Mythos的访问权限，或者用开源模型自己搭一个。

所以，这个“护栏”本质上就是防君子不防小人。它就像机场安检那个脱鞋的环节，普通人觉得麻烦得要死，但真正的恐怖分子早就研究出怎么把炸弹塞进充电宝里了。

Hacker News上有个评论特别精彩：“这就好比Intel或者AMD发现你在设计CPU，就直接给你的处理器降频。或者英伟达发现你在训练AI模型，就故意在你的GPU计算里注入错误。”这不是帮助，这是赤裸裸的阻碍竞争和技术进步。

而且，这种“护栏”还有个大问题：标准混乱且不透明。

一个研究员想搞代码审查，触发护栏。有人问了个关于摩斯密码的翻译问题，也触发护栏。更搞笑的是，有人上传了一张自家植物长蘑菇的照片，想让AI鉴定一下是什么菌种，结果Fable以为他在研制生物武器，直接拒绝。

一个网友无奈地说：“我连让Fable分析我自己项目的内存安全都不行，这恰恰是我最需要它做的事。”

你看，这哪里是什么“安全护栏”，这分明是一堵胡乱砌的墙。它不是为了保护谁，而是为了向外界展示“看，我们多负责任，我们在努力限制危险能力”。这是一种公关表演，而不是真正的安全解决方案。

神话破灭：所谓的“前沿安全”，不过是商业竞争的遮羞布

随着讨论越来越深入，很多人意识到，Anthropic所谓的“防止模型被用于恶意目的”，很可能只是幌子。他们真正防的，是竞争对手。

Mythos太强了，强到如果别的AI公司用它来“蒸馏”数据，训练自己的模型，那Anthropic的技术壁垒就完蛋了。你想，花几块钱调用API，就能弄到大量高质量的“思维链”数据，用来训练一个性能接近的竞品模型，这买卖多划算。

所以，Fable那些针对“前沿LLM开发”的无声降级措施，根本不是怕你造生物武器，而是怕你造AI模型。

一个叫daedrdev的用户尖锐地指出：“最诡异的是，它不会直接拒绝机器学习研究，而是会偷偷地用一个更差的模型来 sabotage（暗中破坏）你，还不告诉你。”

这种行为，已经超出了“护城河”的范畴，进入了“恶意竞争”的灰色地带。你一个平台方，利用自己的垄断地位和信息不对称，去干扰用户的正常合法使用，这跟当年的IE浏览器检测到你在下载Chrome就故意崩溃有什么区别？

更有甚者，网友扒出Anthropic的模型说明文档，上面白纸黑字写着：为了防止模型蒸馏，他们会用“提示词修改、控制向量、参数高效微调”等手段来暗中降低模型在相关任务上的有效性。而且，用户不会收到任何通知。

这意味着什么？意味着你作为一个AI研究员，可能花了几天时间，用Fable帮你调试分布式训练代码，结果它一直在给你输出一些似是而非、充满细微错误的东西，让你原地打转，百思不得其解。你会怀疑自己的代码，怀疑自己的思路，但唯独不会想到，是提供服务的平台在背后给你捣乱。

这不叫“安全护栏”，这叫“数字版的背后使绊子”。

一个叫nullbio的用户愤怒地说：“任何解释Anthropic动机的话都是多余的。他们唯一的目的就是他们自己的权力和财富。其他一切动机都是次要的。”

这句话可能有点极端，但确实点破了很多人心里的那层窗户纸。当一个公司把“安全”和“开放”挂在嘴边，却在暗地里搞这种小动作时，你很难不怀疑它的初心。

最后，这场闹剧的结局是什么？Anthropic道歉了，说会改。但就像那个取消订阅的用户说的，信任已经毁了。对于开发者这个群体来说，你骗他们一次，他们记你一辈子。

今后大家用Claude的时候，心里都得犯嘀咕：这回答这么蠢，到底是模型不行，还是我又不小心触发了它的“防竞争对手模式”？这种疑虑，比任何技术上的短板都更致命。

毕竟，在工具这个行当里，可预测性和确定性，就是最大的价值。一个你永远不知道它什么时候会“为你好”而背叛你的工具，谁敢在生产环境里用？

总结

防不住的坏人，拦得住的自己人：Fable模型引发AI信任危机
nthropic的“安全”双标：明修栈道防黑客，暗度陈仓阻竞争

来自： TechCrunch / Hacker News 精选评论