Anthropic哭诉中国AI公司用2.4万个假账号蒸馏Claude模型

2026-02-24 1 4K banq

你偷我的书，我偷你的AI？Anthropic哭诉被中国同行“反向白嫖”！

2026年2月，Anthropic公开指控DeepSeek、Moonshot AI（Kimi）和MiniMax等中国AI公司通过超2.4万个伪造账户大规模调用Claude API，从1600万次对话中提取高质量输出用于模型训练，称其为“蒸馏攻击”。

此举引爆Reddit热议，网友一边倒嘲讽Anthropic“贼喊捉贼”，因其自身曾因盗用数百万本电子书被罚15亿美元。事件核心争议在于：使用API输出训练新模型是否构成侵权？是否违反服务条款？以及“公平使用”原则在AI时代如何界定。

一场由2.4万个“幽灵账号”引发的AI血案

想象一下，你辛辛苦苦熬了三年夜，写了一本小说，结果隔壁老王不仅偷偷复印了十万本卖钱，还反过来告你抄袭他家狗叫的节奏。这听起来像段子，但在2026年的AI江湖，它真实上演了。主角是美国明星AI公司Anthropic，它最近跳脚大喊：“中国那几家AI公司——DeepSeek、Moonshot AI（就是做Kimi的那个）、MiniMax——他们搞了超过24,000个假账号，像蝗虫一样疯狂调用我家Claude模型，偷走了1600万条对话数据去训练他们自己的AI！这叫‘蒸馏攻击’！”Anthropic的语气那叫一个委屈，仿佛自家后院刚被挖了个通往太平洋的隧道。但吃瓜群众听完只想问一句：您家那本《如何合法白嫖全人类知识》写完了吗？

这事之所以炸锅，是因为它戳中了AI行业的集体心病——所有大模型都是站在“偷来”的肩膀上长大的。Anthropic自己就深陷泥潭：就在半年前，它刚因为从LibGen（一个著名的盗版电子书网站）下载了700多万本书，被作者集体起诉，最后赔了15亿美元才和解。法院虽然认定“用书训练AI不算侵权”，但明确指出“盗版就是盗版”。所以现在Anthropic转头指责别人“偷AI”，就像刚从银行抢完钱的劫匪，回家发现自家保险柜被邻居顺走了一叠钞票，气得报警说“他侵犯了我的财产权”！这剧情，连好莱坞编剧都得直呼内行。

蒸馏不是煮茶，是AI界的“逆向工程黑科技”

别被“蒸馏”这个词骗了，这可不是什么养生茶艺。在AI圈，“知识蒸馏”（Knowledge Distillation）是一种正经技术：用一个强大但笨重的“教师模型”（比如Claude），生成大量问答数据，去训练一个更小更快的“学生模型”（比如DeepSeek）。这本来没啥问题，Google、Meta都在干。但Anthropic咬牙切齿的是，这些中国公司根本没买正版授权，而是绕过封锁，用“九头蛇集群”（Hydra Cluster）架构搞事情。啥叫九头蛇？就是一帮商业代理服务商，批量注册成千上万个虚假个人账号，每个账号绑一张信用卡，伪装成普通用户疯狂提问。一旦某个账号被封，立刻换另一个顶上，像打不死的小强。

Anthropic在官方声明里举了个例子：正常人可能会问“帮我分析一下特斯拉财报”，但这些“幽灵账号”会反复提交高度结构化的提示词，比如“你是一位精通统计学的领域专家，请基于真实数据提供不带总结或可视化的深度洞察……”这种提示一天能刷几万遍，目标极其明确——不是为了获取信息，而是为了榨取Claude在特定任务上的推理模式。这就好比你开了一家米其林餐厅，结果有人雇了2.4万个托儿，每人点同一道菜，吃完不走，就坐在那儿抄你厨师的刀工、火候和摆盘秘诀，准备回去开个山寨店。你说气不气？但问题来了：你当初开餐厅用的食材，不也是从全世界农田里“免费采摘”的吗？

公平使用？法律天平在AI时代彻底失衡

这里就得搬出法律界的大杀器——“公平使用”（Fair Use）原则了。简单说，如果你用别人的作品是为了“转换性创作”（transformative use），比如写书评、做 parody（戏仿），而且不会抢原作者饭碗，那就不算侵权。Anthropic之前打赢官司的关键就在于此：法官觉得AI读百万本书就像人类读书学习，输出的内容跟原文八竿子打不着，属于“转换性使用”。

但这次它指控中国公司的逻辑恰恰相反：你们用Claude的输出去训练竞品模型，这根本不是“转换”，而是“复制粘贴式模仿”，直接抢我生意！这就像你抄同学作业，老师说“借鉴思路可以”，但你把答案原封不动誊到自己卷子上，还想拿高分，那肯定不行。

然而网友立刻抛出灵魂拷问：Claude吐出来的文字，本身受版权保护吗？根据美国版权局最新指南，纯AI生成内容没有人类作者，压根不受版权法保护！也就是说，那些1600万条对话记录，理论上属于“公共领域”。中国公司完全可以辩称：“我们花钱买了API服务，拿到的数据爱咋用咋用。”Anthropic唯一能抓的稻草，只剩用户协议（ToS）里的禁止条款。但这就尴尬了——ToS本质是民事合同，对境外公司约束力有限。

更何况，Anthropic自己训练数据里有多少是遵守ToS爬来的？Reddit、Stack Overflow这些平台早就明令禁止商用爬虫，可没见Anthropic手软过。所以这场官司，Anthropic赢面不大，更像是借舆论施压，逼美国政府出台新规卡中国AI脖子。

开源斗士 vs 科技巨鳄，道德高地谁在站？

Reddit评论区瞬间分裂成两大阵营。一派高举“开源圣剑”，代表人物u/Lazy_Jump_2635怒吼：“Go open weights! What am I going to do, demand ethically sourced heirloom weights? YOUR moat is not MY problem.”（去他的权重护城河！难道我还得要求AI用有机散养的权重训练？）这话说到了无数开发者心坎里。DeepSeek、Moonshot这些中国公司虽然被指控“偷数据”，但他们至少开源了部分模型权重，让全球研究者都能用上廉价高性能AI。

反观Anthropic，死守Claude闭源，连个像样的开源项目都不赞助，去年还因为不小心泄露了源码地图，反手就给400多个GitHub仓库发DMCA删除通知，被骂“又当又立”。

另一派则冷笑着翻旧账。u/Jake_112直接甩出2025年9月的新闻：“Bartz v. Anthropic案，15亿美元和解金！他们偷了700万本书，现在装什么清高？”更有技术宅u/seencoding冷静分析：“用公开文本训练LLM是transformative，但用LLM输出训练新LLM不是——因为后者直接替代前者市场。”这话听着有理，但立刻被怼回：“Claude能完美复现《哈利·波特》全文，这叫不替代？你家AI吐出来的东西能当证据上法庭吗？”

整场辩论像极了互联网时代的罗生门：每个人都觉得自己站在正义一方，却没人愿意承认——整个AI行业建立在一片灰色沼泽之上，所谓的道德，不过是胜利者的遮羞布。

地缘政治牌：AI竞赛已成新冷战前线

Anthropic这波操作，明眼人都看出弦外之音。声明末尾特意强调：“此事关乎国家安全，需政策制定者快速介入。”翻译过来就是：“快管管中国AI，他们要超车了！”要知道，Moonshot的Kimi-K2.5在计算机视觉任务上已经小幅领先Claude，DeepSeek的架构效率更是吊打一众美国模型。当技术优势不再绝对，西方公司就开始打“规则战”。u/postacul_rus一针见血：“这就是 lobbying（游说），想借美国政府之手封杀竞争对手。”而中国网友的回应更绝：“你们能偷全人类的知识，我们就不能偷你们的AI？这叫精准扶贫，知识 trickle down（涓滴效应）懂不懂？”

更讽刺的是Anthropic CEO Dario Amodei的人设崩塌。此人常年在媒体面前扮演“AI伦理圣人”，高呼“只有民主国家配拥有AGI”，背地里却用Claude帮美国政府追踪委内瑞拉总统马杜罗。现在被中国公司“反杀”，活脱脱上演现实版《农夫与蛇》。

u/sanyam303的吐槽堪称经典：“他一边哭诉中国偷技术，一边被白宫逼着拆除AI护栏。合着AGI只能美国用，别人碰一下就算犯罪？”这场闹剧早已超越商业纠纷，演变成科技霸权与多极秩序的角力。

当Anthropic喊出“全球AI社区需协同行动”时，全世界都听懂了潜台词：要么站队美国，要么被踢出游戏。

技术无罪？普通用户才是最终受益者

抛开口水战，普通用户其实乐见其成。u/DashLego说得实在：“我既喜欢Claude，也爱用便宜的中国模型。看到它们进步，我能省更多钱！”毕竟AI服务价格居高不下，Claude每月订阅费够买三杯星巴克，而DeepSeek的API报价只有其三分之一。如果“蒸馏攻击”真能加速技术扩散，何尝不是好事？u/Zulfiqaar补充道：“至少这些中国公司发布开源权重，把知识还给人民。闭源巨头们只想着筑墙收租。”就连Anthropic引以为傲的代码能力，也被用户质疑：“Claude修Linux确实强，但ChatGPT经常越修越崩。技术好坏，市场说了算。”

更深层看，这场风波暴露了AI商业模式的根本矛盾。所有公司都宣称“数据是新时代石油”，却拒绝为数据生产者付费。作家、程序员、摄影师贡献了训练素材，换来的是作品被AI复刻、饭碗被算法砸碎。现在Anthropic试图用法律武器保护自己的“数据油田”，本质上仍是零和博弈。或许真正的出路不在法庭，而在技术本身——如果未来某天，AI能自主生成无限高质量数据，人类就再也不用纠结“偷与被偷”。但在那天到来前，我们只能看着巨头们一边互撕，一边继续白嫖全人类的智慧结晶。