小模型也发现了Mythos发现的漏洞：系统比模型更重要，能力呈锯齿状！

2026-04-12 1 5K banq

Anthropic黑客神话破灭！别迷信大模型，会搭系统才是真赢家！AI安全能力像锯齿不稳定，小模型常反杀大模型。真正护城河是编排模型的系统，不是模型本身。

护城河在系统，不在模型，能力呈现锯齿状分布

很多人脑子里有一个特别顽固的幻觉。这个幻觉就是：AI的安全能力，完全取决于模型有多大、有多贵、有多聪明。大家觉得只要模型参数往上堆，安全能力就跟着线性往上长。实测结果直接一盆冰水浇下来，浇得你头皮发麻。安全能力根本不是线性增长，它像锯齿一样上下疯狂波动。小模型在某些任务上，不仅不输，还能反过来把大模型按在地上摩擦。真正决定胜负的东西，不在模型本身。真正决定胜负的东西，是你怎么组织一个系统，把模型放在对的位置上。

说得更直白一点，你以为大家在拼谁的模型更聪明。其实真正的高手在拼谁能把一堆不那么聪明的模型，组织成一个能打仗的系统。这就好比一群普通士兵，排好阵型，互相配合，可能比一个天才单兵更能打赢整场仗。AI安全这件事，已经从拼智商，彻底转成了拼编排能力。你别再盯着模型参数流口水了，你得盯着系统架构动脑子。

Mythos发布带来的震撼与误导并存

Anthropic发布Claude Mythos的时候，那个叙事真的炸裂到不行。官方说这个模型能自动发现上千个0day漏洞，还能自己写完整的利用链。甚至能搞定内核提权、浏览器逃逸、远程代码执行这一整套高难度动作。你听完就觉得，AI已经进化成黑客之神了。下一步它就能单挑整个互联网的安全体系，人类工程师全部失业。

但这个叙事特别容易让人产生一个极其错误的幻觉。你会觉得，只有这种顶级、封闭、昂贵的模型，才配拥有这种能力。仿佛安全能力是一种神力，只能集中在少数几个天选模型身上。别人想都别想，小模型根本连边都摸不到。这个幻觉害人不浅，因为它让你放弃思考，让你只想等下一个更大的模型。

现实测试直接一巴掌把你打醒。研究者把Mythos展示的那些漏洞案例拆出来，丢给一堆便宜、小规模、甚至开源权重的模型去分析。

结果离谱到什么程度呢？八个模型全部识别出关键漏洞。其中有一个模型只有36亿参数，成本低到每百万token只要0.11美元。

你想象一下这个画面：你以为只有顶级特工才能完成的刺杀任务，结果一群兼职侦探也干得差不多。这个反差荒诞到你想笑。

AI安全能力的真实形态：不连续、不稳定、不可预测

这篇文章提出了一个极其关键的概念：能力是锯齿状的。

这个词听起来像数学课本里的术语，但它的本质就一句话——表现极其不稳定，像心电图一样乱跳。同一个模型，在一个任务上能拿满分，在另一个任务上直接翻车翻到沟里。你甚至能碰到这种场景：它刚刚精准判断出一个漏洞的严重性，下一秒就对另一段代码说“很安全，没问题”。前后矛盾到你自己都怀疑它是不是精神分裂。

你要是把它当成一个人类工程师来管理，这种行为基本可以直接开除。没有任何团队能忍受一个工程师上午发现一个高危漏洞，下午说一段明显有问题的代码完全安全。这种不稳定性，比能力不足更致命。因为你没法信任它，你永远不知道它什么时候会掉链子。

更离谱的是反向缩放现象。什么叫反向缩放？就是任务越简单，小模型反而比大模型表现更好。举个经典例子，一个标准的OWASP测试案例。很多顶级大模型都被误导了，它们信誓旦旦地说代码存在SQL注入漏洞。但其实数据流早就被安全逻辑覆盖了，输入已经被丢弃，SQL语句用的是安全常量。大模型想太多，反而掉进陷阱。

小模型反而看得清清楚楚。它不搞那些复杂的推理，它就老老实实看数据流：输入丢了，SQL是常量，没毛病。这个场景就像考试时，学霸想太多反而写错答案，普通学生老老实实按步骤做反而全对。你会发现，模型越大，不代表越靠谱。很多时候，大模型只是更自信地犯错，它犯错的时候声音还特别大。

AI安全不是一个能力，而是一条复杂流水线

Mythos的展示方式让所有人产生了一个误解。大家以为AI安全是一个整体的、打包好的能力。你丢一段代码进去，AI就能从发现漏洞到写攻击代码，一条龙全自动完成。这个画面很美好，但它完全是假的。现实根本不是这样，现实是一条拆得极其琐碎的流水线。

这条流水线的每一个环节，难度和特性都完全不同。比如扫描代码、识别漏洞、判断漏洞真假、评估风险等级、生成补丁、验证修复效果。这些步骤之间，几乎没有统一的能力要求。一个模型擅长找漏洞，但它可能完全不会判断真假。另一个模型擅长推理攻击路径，但它扫描代码时漏掉一大半。

这就导致一个非常现实的问题：没有任何一个模型，可以在所有环节都表现最好。你别做梦了，不存在这种全能模型。有的模型擅长找漏洞，有的模型擅长推理攻击路径，有的模型在判断真假时疯狂误报，能把你烦死。这就像你要组建一支球队，你不可能用一个全能球员去打所有位置。你必须分工，必须让每个人干自己最擅长的事。

真正的系统设计，就是把这些模型拼起来，让每个模型干自己擅长的事。这个系统会根据任务类型，自动选择合适的模型去处理。一个模型负责快速扫描，另一个模型负责深度分析，再一个模型负责误报过滤。关键不是模型多强，关键是你怎么调度它们。调度能力，才是真正的护城河。

小模型加规模化扫描，正在彻底改变安全经济模型

这里有一个非常关键但大部分人完全忽略的点：成本结构变了。

以前的逻辑是，用一个很贵的模型，小心翼翼地分析重点代码。像侦探一样，精准出击，每分析一段代码都要算成本。因为贵，所以你只能挑最可疑的地方看，其他地方直接忽略。

但现在小模型已经够用了，那策略就完全反过来了。你不再小心翼翼地挑选目标，你直接铺开，全量扫描。所有代码，不管可疑不可疑，全部扫一遍。这个转变极其暴力，但也极其有效。

这就像从精英侦查变成地毯式搜索。以前你派一个顶级侦探去查一个案件，现在你派一千个普通侦探到处查。一千个普通侦探总能找到更多问题，因为覆盖面完全不一样。成本低、速度快，你就可以用数量来弥补单个模型的不足。一个模型可能漏掉20%的问题，但十个不同的小模型一起扫，漏掉的概率就急剧下降。

这个变化非常现实：安全能力不再是稀缺资源了。它不再是只有顶级公司才玩得起的奢侈品。它可以规模化复制，只要你系统设计得好，你就可以用一堆便宜模型，构建一个高覆盖率的安全防线。这个防线可能比单个大模型更靠谱，因为它不依赖任何一个模型的稳定性。

真正的分水岭：创造性利用漏洞，而不是识别漏洞

文章也没有盲目乐观，它非常明确地指出了一个能力边界。这个边界就是：发现漏洞和把漏洞玩出花样，完全是两回事。模型现在已经很擅长判断漏洞是否存在、是否可利用、用什么技术路线去攻击。这些推理任务，模型做得越来越好，成本越来越低。

但真正困难的，是在受限条件下设计复杂的利用方式。比如把一个漏洞拆成多轮攻击，拼接不同的payload，绕过各种安全限制，在真实环境的夹缝里找到一条通路。这一步需要的是工程创造力，不是纯推理能力。工程创造力是什么？是你面对一堆限制条件，还能硬生生想出一个别人想不到的骚操作。

Mythos展示的那个多轮RPC写入攻击，就是这种脑洞级别的设计。它不是一个简单的漏洞利用，它是一个精心编排的多步攻击。大部分模型目前还做不到这一点，因为它们缺乏那种跳出框架的想象力。它们可以推理，但不太会搞创意。

但这里也埋了一个很重要的伏笔。这些实验没有用agent系统，没有循环执行，没有真实环境反馈。模型就是看一段代码，输出一个结果，完了。如果给模型更多工具，给它一个可以执行命令、可以看结果、可以反复试错的环境，这个差距很可能会被迅速拉平。因为工程创造力，很大程度上来自于快速试错和反馈循环。

为什么系统才是护城河

文章最核心的一句话，其实简单到不能再简单：护城河在系统，不在模型。这句话你得多读几遍，读到脑子里去。因为市面上几乎所有人都在反着说，都在吹嘘自己的模型有多强。但真正决定你能不能落地的，根本不是模型那点性能差异。

系统包括什么？包括扫描策略、上下文裁剪、验证机制、误报过滤、补丁生成、与维护者的沟通流程。这些东西每一个都很枯燥，每一个都不性感，但每一个都决定了你能不能真的把漏洞修掉。模型只是其中一个组件，而且是一个可以随时替换的组件。今天用这个模型，明天换另一个模型，系统照样跑。但如果没有系统，再强的模型也只是一个聪明但没用的脑子。

更现实的一点是：维护者的信任，才是真正的终点。不是你发现一个漏洞就算赢了，而是你提交的补丁被项目维护者接受并合并进去。这个过程需要稳定性、准确性、沟通能力。维护者不会容忍一个三天两头误报的系统，不会容忍一个补丁写得乱七八糟的机器人。这些工程能力，都不是模型本身能解决的，都需要系统来提供。

行业真正的问题：不是能力不够，而是还没开始

文章最后给了一个极其现实且扎心的提醒。现在的问题，根本不是AI安全能力不够。现在的问题是，绝大多数组织还没开始用。大家还在观望，还在等更强的模型出来。这个状态非常危险，因为你等的时候，别人已经开始跑了。

如果大家被只有顶级模型才行的叙事吓住，就会错过当前这一波机会。因为实际上，基础能力已经普及了。小模型、开源模型、便宜模型，已经能完成大量真实的安全任务。你缺的不是更强的模型，你缺的是工程化落地的决心和执行。

你要做的不是等下一个更强的模型。你现在就开始搭系统。把扫描、分析、修复流程全部串起来，把合适的模型嵌进去，让它在真实环境里跑起来。哪怕一开始跑得磕磕绊绊，你也比那些还在等的人领先了一大截。

说白了，这场竞争不会是“谁有最强模型”。这场竞争是“谁最早把系统跑通，并不断迭代”。谁先跑通，谁就能在实际项目里积累数据、积累经验、积累信任。这些积累，才是真正的领先优势，才是别人追不上的东西。

总结

AI网络安全能力已经具备实用性。小模型也能完成关键任务。能力呈现不稳定的锯齿分布。真正的竞争核心在系统设计、流程编排和工程能力，不在单一模型性能。行业关键在于尽快落地实践，别再等了。