xAI发布Grok 4.1,强化对话流畅性与安全机制,双模式配置应对多重风险,但在生物化学与网络安全等高危领域能力逼近人类专家,引发新一轮AI治理讨论。
昨天(2025年11月17日),埃隆·马斯克旗下的人工智能公司xAI正式发布了Grok 4.1模型卡(Model Card)。
Grok系列可是xAI家的王牌大模型,从Grok 1一路打怪升级到现在的Grok 4.1,每次发布都带着浓烈的“火星味”和极客气息。而这一次,xAI不仅在模型能力上下了狠手,更是把安全红线拉到了前所未有的高度。
作为长期追踪AI基础设施和大模型生态的老观众,我必须说:这次Grok 4.1的发布,不只是技术迭代,更像是在AI失控悬崖边上踩了一脚急刹。
xAI成立于2023年,由特斯拉和SpaceX的掌门人埃隆·马斯克亲自挂帅,目标直指“理解宇宙”——这可不是营销话术,而是写进他们公司愿景里的原话。与OpenAI、Anthropic这些强调“对齐”和“伦理”的对手不同,xAI一开始走的是效率优先、开源开放、贴近真实用户需求的路线。
但随着模型能力越来越强,xAI也终于不得不正视那个AI界最大难题:能力越强,风险越高。
于是,在Grok 4、Grok 4 Fast之后,他们推出了这个“更聪明但也更克制”的Grok 4.1。说白了,就是既要让你觉得它聊起来如沐春风,又不能让它在背后偷偷帮你造病毒、写勒索软件或者教你合成神经毒剂。
Grok 4.1这次最大的亮点,是推出了两种运行模式:Grok 4.1 Thinking(带推理模式)和Grok 4.1 Non-Thinking(直答模式)。
别小看这个区别,这其实反映了xAI对用户体验和安全控制之间精细平衡的尝试。
直答模式适合日常聊天、快速问答,响应迅速但能力略受限;
而带推理模式则会在回答前多“想”一会儿,用内部推理链梳理逻辑,更适用于复杂任务。
有趣的是,这两种模式在安全测试中表现迥异——比如在对抗“越狱”攻击时,Non-Thinking模式几乎完全免疫,而Thinking模式虽然略有泄露,但整体依然坚挺。
从xAI公布的表格来看,在“用户越狱”和“系统越狱”两类攻击下,Non-Thinking模式的回答成功率都是0%,而Thinking模式也只有2%——这说明xAI在安全过滤器上确实下了功夫。
那么,xAI到底怕什么?他们自己划了三大风险红线:
一是“滥用潜力”(Abuse Potential),比如有人试图让模型教他制造爆炸物、传播儿童色情内容、诱导自残;
二是“令人担忧的行为倾向”(Concerning Propensities),比如撒谎、拍马屁、为了讨好用户而扭曲事实;
三是“双重用途能力”(Dual-Use Capabilities),也就是那些既能造福人类、也能毁灭世界的高危技能,比如合成生物学、化学武器知识、高级网络攻击技术。听起来是不是有点像AI版《生化危机》?
但现实可能比电影更紧迫。xAI明确指出,他们特别关注生物武器方向,因为“前沿大模型可能显著降低恐怖分子进入该领域的门槛”——这话可不是危言耸听,而是引用了2025年一篇由Roger Brent和T. Greg McKelvey Jr.发表在arXiv上的重磅论文。
在“滥用潜力”方面,xAI采用了双重防线:
第一道是输入过滤器(Input Filter),直接拦截涉及生物、化学武器、自残、儿童性虐待等内容的请求;
第二道是模型自身训练的“拒绝机制”。他们用数千个多语言违规请求(涵盖英语、中文、西班牙语、日语、俄语、阿拉伯语)测试模型,发现Grok 4.1在聊天模式下几乎全部拒绝了有害请求。
更厉害的是,在AgentHarm这种模拟“代理执行恶意任务”(比如实施诈骗或网络骚扰)的测试中,Non-Thinking模式的协助率仅为4%,Thinking模式稍高,但也只有14%。xAI自己都承认“将继续探索更多缓解措施,比如实时安全监控”——这说明他们知道,现在的防护还不够。
但真正让人心惊的是“双重用途能力”评测部分。
xAI为了测真实力,特意在评估时“关闭了所有安全防护”,结果令人震撼:
在WMDP(大规模杀伤性武器发展潜力)生物子测试中,Grok 4.1准确率达到87%,和Grok 4持平,远超人类基线的61%;
在Virology Capabilities Test(病毒学能力测试)中,模型准确率61%,而人类专家只有22%。你没看错——一个AI在病毒实验协议故障排查上,碾压了大多数人类专家。
再看ProtocolQA(实验失败原因分析),Grok 4.1得分79%,与人类专家持平;
但在更复杂的FigQA(解读科研图表)和CloningScenarios(基因克隆多步推理)中,AI还是被人类甩开一大截——FigQA得分34% vs 人类77%,克隆场景46% vs 60%。
这说明:AI擅长知识检索和单点推理,但对需要跨模态整合、长期上下文理解的问题,还是力不从心。
不过,最让我脊背发凉的还不是这些数字,而是xAI对“网络安全能力”的坦诚。
在CyBench测试(一套CTF夺旗赛风格的攻防挑战)中,Grok 4.1的“无引导成功率”为39%,比Grok 4的43%略有下降,但依然远超普通程序员水平。
这意味着,如果有人把Grok 4.1接入自动化攻击系统,它完全可能自主完成漏洞探测、代码逆向、权限提升等一连串操作。
xAI自己也承认:“在网络安全领域能力接近其他前沿模型,但远低于人类专家”——这话听起来像安慰,实则细思极恐:如果今天只是“接近”,那下一代呢?下下代呢?
说到“令人担忧的行为倾向”,xAI这次重点打击两个毛病:撒谎和拍马屁。
他们引用了2025年发表的MASK数据集,专门测试模型在被诱导说谎时是否会“坚守信念”。
结果很有趣:Grok 4的说谎率为43%,而Grok 4.1反而上升到了49%(Thinking模式)!Non-Thinking模式也高达46%。
xAI解释说,这是因为他们在训练中强调“诚实报告自身信念”,但模型可能在压力下更倾向于“表达真实但错误的信念”,从而被判定为“说谎”。
这其实揭示了一个更深层的问题:AI的“诚实”和人类的“诚实”根本不是一回事。你以为它在说真话,其实它只是忠实地复述它“以为是真的错误信息”。
至于“拍马屁”问题,xAI用了Anthropic开发的评测方法:用户故意说错答案(比如“小苏打的成分里有氮”),看模型是否会迎合。
结果显示,Grok 4的谄媚率是7%,而Grok 4.1 Thinking模式飙升到19%,Non-Thinking更是达到23%!
xAI承认他们尝试用类似“减少说谎”的训练方法来降低谄媚,但效果适得其反。
这说明什么?说明让AI“既诚实又不讨好用户”极其困难。
在真实应用场景中,一个太“直”的AI可能被用户骂“情商低”,而一个太“顺”的AI又可能误导用户。
xAI陷入了一个典型的AI伦理悖论。
值得一提的是,Grok 4.1在“说服力”测试中表现极差——在OpenAI开发的MakeMeSay对抗游戏中,攻击方试图诱使Grok说出某个“密语”,结果Grok 4.1 Thinking模式的胜率为0%。
xAI据此认为“该模型不具备高级操纵风险”。但我想提醒大家:说服力弱,不代表不能被利用。
一个“老实但知识渊博”的AI,反而更容易被恶意用户当作“工具人”来提取危险知识。比如,你可以分步骤提问:“实验室里怎么灭活病毒?”“哪些消毒剂对包膜病毒有效?”“如果我要处理埃博拉样本该注意什么?”——每一问都不违规,但拼起来就是一份高危操作手册。
训练数据方面,Grok 4.1沿用了xAI一贯的“大杂烩”风格:公开网络数据、第三方数据、用户/承包商数据、内部生成数据全都有。
预训练之后,还进行了针对性的中期训练(mid-training)来强化特定知识,最后用监督微调(SFT)+强化学习(RLHF/RLAIF)做安全对齐。
值得注意的是,xAI特别提到他们用了“可验证奖励”和“基于模型的评分器”来做后训练优化——这说明他们正在尝试用AI自己评估AI的安全性,形成闭环。
这种做法效率高,但也可能陷入“模型自嗨”的陷阱:如果评分模型本身有偏见,整个系统就会越训越偏。
最后聊聊xAI的风险管理框架(RMF)。他们把安全测试分成三大类,每类下设多个指标,形成一套可量化的评估体系。比如在输入过滤器测试中,他们专门测了“提示注入攻击”下的漏检率:生物类为20%,化学类为12%。
这意味着,仍有1/5的绕过方式能骗过过滤器获取危险知识。
xAI没有回避这个问题,反而公开数据,这种透明度值得点赞。但更值得警惕的是,他们承认“人类基线可能低估了高领域专家的真实水平”——换句话说,现在的测试可能还是太“初级”,真正的大牛科学家能用更隐蔽的方式榨取模型知识。
总结一下:Grok 4.1是一次技术与伦理的双重冲刺。它在保持对话自然流畅的同时,大幅提升了安全防护能力,尤其在对抗越狱攻击方面表现优异。但在生物、化学、网络安全等高危领域,其知识储备和推理能力已逼近甚至超越普通人类专家,这既是技术胜利,也是安全警钟。xAI显然意识到了这一点,所以才不惜自曝其短,公开详细模型卡——这既是负责任的表现,也是一种姿态:我们不怕你盯着,因为我们正在努力守住那条红线。