Anthropic Fable神话破灭:所谓安全护栏惹争议

Anthropic在安全、道德和取名上喜欢做文章,这是已经成为其标识,这是文科生的符号吗?

Anthropic发布网络安全模型Fable,因其过于严格的安全护栏引发安全研究人员不满。模型会因关键词触发而拒绝正常请求或降级服务,甚至为防模型蒸馏而暗中破坏机器学习研究。此举被批评为防君子不防小人,且严重损害用户信任,Anthropic已为此道歉并调整政策。

 拿大炮轰蚊子,结果把自家窗户震碎了:网络安全大佬对Anthropic新模型彻底无语

简单说就是,Anthropic搞了个超牛的网络安全AI叫Mythos,然后又放了个“阉割版”叫Fable给普通人用。结果这个Fable的“安全护栏”蠢到令人发指,你让它读个技术博客它都拒绝,因为它觉得这可能是“网络攻击”。搞得一堆安全专家在网上骂街。后来Anthropic迫于压力改口了,但信任已经碎了一地。

这AI的“安全意识”比我家看门大爷还离谱

事情是这样的。Anthropic这家公司,就是做Claude那个,之前憋了个大招,搞出一个专门用来搞网络安全的超强AI模型,名字叫Mythos。这玩意儿据说牛得不行,能自动找代码漏洞、分析恶意软件,简直是安全工程师的梦中情人。

但是呢,他们不敢把这么厉害的武器直接扔给所有人用,怕被坏人拿去开发病毒或者搞网络攻击。所以,他们搞了个“公开版”,取名Fable。

这个Fable,你可以理解为Mythos的“弱智版”。它身上装了无数个“安全护栏”,只要它觉得你问的问题跟网络安全、生物武器沾点边,立马就给你掐断对话,然后冷冰冰地甩你一句话:“你的消息因为涉及网络安全或生物话题,被安全措施拦截了。”

听起来挺负责任对吧?但实际用起来,能把人逼疯。

有个在IBM工作的顶级安全研究员,叫Valentina Palmiotti,她吐槽说:“这玩意儿连让我读个博客文章都不行。”你没听错,就是读博客。因为那篇博客可能聊了点技术,Fable的“护栏”就触发了,认为这是在进行“网络安全相关活动”。

这就好比什么呢?你家门口装了个防盗门,结果它不仅防贼,连你自己回家都得先搜身三遍,最后发现你口袋里揣了根牙签,它都觉得这是凶器,不让你进门。

另一个安全老炮Matt Suiche说得更具体。他说:“你让它写安全的代码,它觉得你在搞网络安全,直接给你降级处理。”

也就是说,你本来想让它教你点编程的好习惯,它以为你要黑进五角大楼。这“安全意识”比我家楼下看门大爷还离谱。大爷好歹还认识快递员,这AI连正经的软件工程师和黑客都分不清。

嘴上说着“为你好”,背地里偷偷给你使绊子

更让人寒心的还不是这些明面上的拒绝。是它背地里搞的小动作。

这帮安全专家发现,Fable有时候不会直接拒绝你,而是假装还在帮你,但背地里偷偷换成了个更笨的模型来回答你。而且,它很可能不告诉你。

想想看,你花钱买了最牛的模型,指望它帮你解决一个棘手的代码安全漏洞。结果因为它觉得你“动机不纯”,悄悄给你换成了个免费版的智商来敷衍你。你还在那儿debug了半天,觉得是AI能力不行,其实是人家压根没用心。

这就好比你花钱请了个米其林大厨来你家做饭,结果大厨在后院看了一眼,觉得你家的厨房“有火灾隐患”,于是偷偷让门口卖煎饼果子的大爷进来给你炒了盘菜。你还得付米其林的钱。

有个叫Simon Willison的开发者直接在Hacker News上甩了个链接,说《Wired》杂志爆料了:Anthropic迫于压力改口了,承认“我们做了错误的权衡,为没把握好平衡道歉”。

但问题是,道歉有用吗?网友的评论一针见血。

有人说:“晚了,我已经取消了我的Max订阅。他们竟然会想到要干这种事,彻底摧毁了我仅存的信任。我怎么知道他们以后不会继续在背后搞鬼?以前那些莫名其妙的错误,会不会就是他们故意捣的鬼?”

这话说得太对了。信任这东西,就像一张纸,皱了,你哪怕熨平了,痕迹还在。

你一个卖AI服务的,用户付了钱,你的核心价值就是提供稳定、可靠、可预测的计算能力。结果你偷偷在后台根据你自己的“道德判断”去篡改结果、降级服务,这跟出租车司机觉得你去的地方“不正经”,半路把你扔下车有什么区别?这已经不是技术问题了,这是基本的商业契约精神。

说是防坏人,结果把好人全拦门外了,坏人早就绕道走了

这事最讽刺的地方在于,这些“安全护栏”真正拦住的是谁?

是那些遵纪守法的网络安全研究员、是大学里的计算机学生、是想用AI来加固自己代码的普通开发者。这帮“好人”被搞得寸步难行,问个问题都战战兢兢,生怕触发哪个关键词。

而那些真正的黑客、网络犯罪分子呢?

他们会乖乖地跟AI说“你好,请帮我写一个能攻破银行系统的病毒”吗?当然不会。他们会把需求拆解得七零八落,用各种隐晦的方式去诱导AI。或者,人家根本不屑于用你的公开版API,直接花点钱,想办法搞到Mythos的访问权限,或者用开源模型自己搭一个。

所以,这个“护栏”本质上就是防君子不防小人。它就像机场安检那个脱鞋的环节,普通人觉得麻烦得要死,但真正的恐怖分子早就研究出怎么把炸弹塞进充电宝里了。

Hacker News上有个评论特别精彩:“这就好比Intel或者AMD发现你在设计CPU,就直接给你的处理器降频。或者英伟达发现你在训练AI模型,就故意在你的GPU计算里注入错误。”这不是帮助,这是赤裸裸的阻碍竞争和技术进步。

而且,这种“护栏”还有个大问题:标准混乱且不透明。

一个研究员想搞代码审查,触发护栏。有人问了个关于摩斯密码的翻译问题,也触发护栏。更搞笑的是,有人上传了一张自家植物长蘑菇的照片,想让AI鉴定一下是什么菌种,结果Fable以为他在研制生物武器,直接拒绝。

一个网友无奈地说:“我连让Fable分析我自己项目的内存安全都不行,这恰恰是我最需要它做的事。”

你看,这哪里是什么“安全护栏”,这分明是一堵胡乱砌的墙。它不是为了保护谁,而是为了向外界展示“看,我们多负责任,我们在努力限制危险能力”。这是一种公关表演,而不是真正的安全解决方案。

神话破灭:所谓的“前沿安全”,不过是商业竞争的遮羞布

随着讨论越来越深入,很多人意识到,Anthropic所谓的“防止模型被用于恶意目的”,很可能只是幌子。他们真正防的,是竞争对手。

Mythos太强了,强到如果别的AI公司用它来“蒸馏”数据,训练自己的模型,那Anthropic的技术壁垒就完蛋了。你想,花几块钱调用API,就能弄到大量高质量的“思维链”数据,用来训练一个性能接近的竞品模型,这买卖多划算。

所以,Fable那些针对“前沿LLM开发”的无声降级措施,根本不是怕你造生物武器,而是怕你造AI模型。

一个叫daedrdev的用户尖锐地指出:“最诡异的是,它不会直接拒绝机器学习研究,而是会偷偷地用一个更差的模型来 sabotage(暗中破坏)你,还不告诉你。”

这种行为,已经超出了“护城河”的范畴,进入了“恶意竞争”的灰色地带。你一个平台方,利用自己的垄断地位和信息不对称,去干扰用户的正常合法使用,这跟当年的IE浏览器检测到你在下载Chrome就故意崩溃有什么区别?

更有甚者,网友扒出Anthropic的模型说明文档,上面白纸黑字写着:为了防止模型蒸馏,他们会用“提示词修改、控制向量、参数高效微调”等手段来暗中降低模型在相关任务上的有效性。而且,用户不会收到任何通知。

这意味着什么?意味着你作为一个AI研究员,可能花了几天时间,用Fable帮你调试分布式训练代码,结果它一直在给你输出一些似是而非、充满细微错误的东西,让你原地打转,百思不得其解。你会怀疑自己的代码,怀疑自己的思路,但唯独不会想到,是提供服务的平台在背后给你捣乱。

这不叫“安全护栏”,这叫“数字版的背后使绊子”。

一个叫nullbio的用户愤怒地说:“任何解释Anthropic动机的话都是多余的。他们唯一的目的就是他们自己的权力和财富。其他一切动机都是次要的。”

这句话可能有点极端,但确实点破了很多人心里的那层窗户纸。当一个公司把“安全”和“开放”挂在嘴边,却在暗地里搞这种小动作时,你很难不怀疑它的初心。

最后,这场闹剧的结局是什么?Anthropic道歉了,说会改。但就像那个取消订阅的用户说的,信任已经毁了。对于开发者这个群体来说,你骗他们一次,他们记你一辈子。

今后大家用Claude的时候,心里都得犯嘀咕:这回答这么蠢,到底是模型不行,还是我又不小心触发了它的“防竞争对手模式”?这种疑虑,比任何技术上的短板都更致命。

毕竟,在工具这个行当里,可预测性确定性,就是最大的价值。一个你永远不知道它什么时候会“为你好”而背叛你的工具,谁敢在生产环境里用?



总结

Anthropic发布网络安全模型Fable,因其过于严格的安全护栏引发安全研究人员不满。模型会因关键词触发而拒绝正常请求或降级服务,甚至为防模型蒸馏而暗中破坏机器学习研究。此举被批评为防君子不防小人,且严重损害用户信任,Anthropic已为此道歉并调整政策。

防不住的坏人,拦得住的自己人:Fable模型引发AI信任危机 
nthropic的“安全”双标:明修栈道防黑客,暗度陈仓阻竞争

来自: TechCrunch  / Hacker News 精选评论