Mistral CEO暗示DeepSeek抄自家MoE架构！被扒出时间线不对

#AGI通用人工智能 #DeepSeek时刻 #大语言模型LLM #《道德经》认知哲学

2026-01-25 1 12K banq

Mistral CEO透露Mistral于2024年初率先发布稀疏专家混合模型架构，DeepSeek-V3正是在此基础上开发而成，双方技术互通。他认为开源模式让研发效率倍增，中国内部知识共享机制高效，而美国公司投入开源不足导致效率偏低。Mistral因此成为西方开源AI的领军者，填补了这一关键空白。

主持人开场：

"要是所有顶尖的AI模型表现都差不多，那AI生意会变成啥样？"

今天我们就来聊聊这个。欢迎来到《Big Technology》播客，咱们这儿不搞情绪化，专门聊科技圈的那些事儿。今天节目超有料——我们要深扒AI行业正在发生的巨变：那些基础大模型越来越像"双胞胎"，性能都差不多，这会让行业权力格局怎么洗牌？

我们请到了最懂行的嘉宾——Arthur Mensch，Mistral的CEO兼联合创始人。Arthur，欢迎！

Arthur： 很高兴来这儿，谢谢邀请。

主持人： 太棒了。先给不太熟悉Mistral的朋友科普一下：这是一家做AI模型的公司，2023年4月才成立，现在估值已经140亿美元了——两年半造出140亿美金的生意，这速度堪比火箭！公司现在有500号人。Arthur你自己呢，之前在学术界混，还在DeepMind干了两年半。

Arthur： 对头，我们总部在巴黎，但差不多四分之一员工在美国。很多业务都在这边，所以我老往纽约跑，今天就在纽约录节目。

主持人： 好，那咱们直接上硬菜。我觉得现在AI圈最火烧眉毛的问题是：2025年底那会儿，Google突然追上了OpenAI的模型，OpenAI的模型又跟其他家半斤八两。我感觉基础大模型"大路货化"的速度比我预想的快多了。我原本以为是"你追我赶"的马拉松，有人先冲出去，其他人慢慢追。结果现在呢？一堆模型厂商的"前沿模型"性能都差不多，好到难分伯仲。

Arthur，你怎么看？

Arthur： 要我说啊，这技术天生就是要变成"大路货"的。为啥？因为搞这玩意儿其实没那么难。全球大概就10个实验室知道怎么训这模型，大家拿到的数据差不多，用的配方算法也大同小异——说白了，训模型那点知识就薄薄几页纸，传得飞快。你根本造不出什么"知识产权护城河"，想遥遥领先对手？门儿都没有，知识到处流，大家最后都一个德行。

所以问题在于：价值到底从哪儿来？你该搞啥商业模式才能赚钱？我看到有些竞争对手砸了几百上千亿美金造资产，但这些资产贬值快得很——因为大家都在搞"社区竞赛"（开源那套）。

对我们Mistral来说，从一开始就在琢磨：得投够钱给企业创造价值，但又不能瞎烧钱，得让单位经济账算得过来。毕竟造模型是重资产投入，结果造出来的东西还在"社区竞赛"里打转，这账怎么算？

主持人： 那咱们聊聊这场"造最好模型"的军备竞赛。你刚才说了，贵得离谱。OpenAI说要砸1.4万亿美金建基础设施——至少他们是这么说的。要是模型最后都差不多，这些公司会不会突然醒悟："等等，砸这么多钱造下一代模型，值吗？反正别人也能追上。"

Arthur： 战略上嘛，肯定得画条线——投多少钱造资产，才能让一家科技公司给企业或消费者创造价值？说到底，所有这些投资都得靠下游产生的现金流和价值来买单。

我们公司的重点，也是我觉得合理的重点，是往"下游应用"走，搞清楚企业卡在哪儿的 friction（阻力），然后帮他们把 friction 抹平。因为AI行业现在最大的挑战是：三四年前吹得天花乱坠，你问企业赚着钱没？大部分说没有。为啥？他们定制化做得不够，没从问题倒推，光想着"我有锤子"，没想清楚"钉子在哪儿"。

得帮他们找对 use case（使用场景），做对的定制化。比如以前20个人管的供应链流程，现在2个人就能搞定。这种例子多的是。但行业真正的挑战是：得让企业快速看到价值，才能 justify（ justify ）大家集体砸下去的这笔钱。

主持人： 确实有意思。以前这些公司天天喊"模型模型模型"，GPT-5啥时候出？现在OpenAI开始聊怎么把智能转化成应用了。我这儿有个料：几周前Sam Altman跟纽约一帮媒体大佬吃饭，说2026年最大的优先级之一是给企业做应用。这调调从"我们要造AGI"变成"我们要给企业做应用"了。这是"大路货化"逼的？

Arthur： 首先，AGI这概念太简单了，简单到对企业没用。世上不存在一个系统能解决所有问题。就像没有哪个人能搞定全世界所有任务，总得专业化分工。

咱们得从"魔法思维"回到"系统思维"——搞清楚用啥数据能让模型在特定任务上更强，怎么设置反馈飞轮让人机交互产生更多信号，让应用越来越牛。现实里企业都是复杂系统，你没法用"AGI"这一个抽象概念解决所有问题。

AGI某种程度上是"我们还没做到但想做到"的北极星，就是让系统越来越好的愿景。但既然你说很难跟投资人解释"你的技术永远不被对手追上"，那叙事自然要变——从"造一个解决所有问题的超级系统"变成"扎进企业一线，解决他们真·实际问题"。

在Mistral，我们早就想通了这点，这是我们的故事。我们赌AI会更"去中心化"，需要更多定制化，因为数据积累和规模扩张都有天花板。基于此，我们创立了公司，主打给企业更强的定制化能力。

主持人： 好，待会儿再深扒Mistral的故事。但再问一个：我感觉行业有个转变——以前想的是"把模型弄聪明，它们自己就能解决问题"，比如让模型干初级律师的活，或者在多个系统间做数据录入、生成报告。现在好像变了，变成"建基础设施，模型只是其中一个零件"，编排（orchestration）和应用层才是价值所在。这转变有意思。

Arthur： 从系统视角看，永远有两个组件。第一是"静态定义"——人设定的规则，系统该怎么运转，这是人工定义系统的信息。第二是"动态组件"——把模型连到工具上，给模型指令，让它自己调用工具，决定执行路径。

静态部分也很重要，比如设 guardrails（护栏），有时候是决策树。想着全靠动态系统、不要人指导就能解决一切？有点乌托邦，不现实。

过去三年行业变化是：动态部分确实变大了，模型能思考更久、调更多工具、能写代码。但静态部分依然极其重要。就算动态部分膨胀，静态部分能让系统更好、解决以前解决不了的问题。所以"编排"（静态系统）和"智能体"（动态系统）的结合会一直超级重要，两边一起往上走，才能 tackling 越来越复杂的问题。

主持人： 明白了。那假设模型真"大路货"了，AI生意会剩啥？我想有三块：一是消费级产品，比如聊天机器人，OpenAI算这类；二是让现有产品更好，比如让Excel能聊天；三是企业端，咱们聊过的。这三块机会怎么排？

Arthur： 消费端嘛，AI正变成获取信息的方式，广告生意肯定能做起来，但这不是我们重点。

企业端呢，咱们在"重新平台化"所有企业软件。企业里有三类东西：人、数据、流程。以前工具是碎片化的，多个流程、多个数据系统、多个记录系统，团队没法同时访问所有信息。AI让企业可以：从统一数据开始（甚至碎片化数据也行，因为AI能导航），上面盖一层AI理解企业运转，然后生成适合每个人的界面。

比如我是律师，要解决特定问题、做特定审查，把文档丢进去，系统就给我弹对的 widget、显示我要的信息。这是"按需生成的界面"盖在"上下文引擎"上，引擎持续更新对企业的理解，底下记录系统就纯当数据库用，以前盖在上面那堆东西都不需要了。

这个"重新平台化"要花十年，企业采纳慢，但价值巨大——很多以前堆人的流程，现在能跑得飞快，这是效率端。更重要的是另一端：帮企业把专有数据、机器产生的资产（比如制造业），转化成别人复制不了智能。给特定物理问题训模型，比如造飞机的公司、ASML（光刻机巨头），让模型专门擅长操作他们的机器。这是解锁被AI absence（缺席）锁死的技术进步，价值不可估量。

效率端好衡量，五年后公司啥样能建模算。技术进步端更难量化，但价值可能更大——比如核聚变、更精细的半导体刻蚀，这些是物理极限，AI能帮你突破。长期价值创造在这儿，但更难预测。

主持人： 我捋捋。如果这是AI世界的价值驱动，有两条路：一是造比别人好的模型卖高价，但咱们说了这护城河不长久；二是模型本身不值钱，值钱的是 know-how（ know-how ）和实施能力——你可以开源模型，但给企业提供服务，教他们怎么落地、怎么出结果。就这两条路？

Arthur： 对，行业就这个分叉口。我们的选择是走第二条——开源+实施。

开源带来定制化，也带来"去中心化"。假设整个经济都跑在AI系统上，企业肯定不想被人"拔插头"。就像工厂接电网，你得确保没人能因为你不喜欢你就拉闸。如果AI真变成"公用事业"，把智能当电用，你得确保智能供应不会被掐。

用开源，你不用怕踩了Anthropic用户协议的雷被暂停服务。自己跑，自己定规矩。

主持人： 自己定规矩，自己造冗余，服务质量更高。地缘政治咋变，你的系统都能跑。这是IT视角——CIO看开源是造杠杆、保独立。科学视角呢？这是把员工几十年积累的" folklore knowledge（民间知识）"转化成资产的唯一办法，别人偷不走。但这很难，需要对的工具、对的专业知识，这是开源模型的互补商业模式。

主持人： 但闭源厂商比如Anthropic会说，他们也能用你的数据定制化，你不信？

Arthur： 他们会这么说，但会加 guardrails（护栏）。你信他们的工程师能让你深度 access 系统？能信一辈子？我不确定。这既是控制问题，也是定制化问题——vendor（厂商）总想 lock-in（锁死你）。用开源模型，比如我们的或其他人的，你被 vendor lock-in 的程度更低。这技术太重要了，不能拴在一个 vendor 上，这是我们的机会。

主持人： stunning（ stunning ）的是，ChatGPT都出来三年了，把AI带进大众视野。但今天咱们聊的，我总结两个重点：一是今天的AI模型不能自己搞定一切，需要编排；二是要做这种编排/实施，你需要托管服务。这么强大的技术，真要用起来反而成了"托管服务"，有意思。

Arthur： 确实。历史上不是第一次见。新技术、新平台，怎么用它的知识还很稀缺。能建大规模高性能系统、可靠运行、解决真问题的人不多。跟企业打交道，总得加点服务，因为实施复杂——就算像数据库这种成熟技术也一样。

AI更需要服务，因为它要转型业务。得帮企业想想团队怎么围绕系统重组，还得定制化。需要数据科学家懂怎么 leverage 数据、转化成智能，这资源现在还很稀缺。

我预期软件部分在部署中的占比会增加。现在的定制化方式——微调、强化学习——对企业买家太复杂，应该被抽象掉。他们该关心的是"自适应系统从经验和部署中学习"，而不是纠结"该用微调还是强化学习"。我们在做的就是把这些底层 routine 抽象成业务老板能用的高层级系统。但服务部分依然重要，现在两者结合是给企业创造价值最快的路。

主持人： 我开场叫你"模型厂商"，停顿了一下说待会儿聊别的。现在聊透了——Mistral obviously（ obviously ）以造模型为傲，但没服务、没陪企业坐下来教他们怎么用，拼图就不完整。你们觉得自己主要是造模型的，还是做服务的？模型厂商还是服务商？

Arthur： 我们是帮客户创造价值。要创造价值，得有伟大模型（ great models ），得有对的工具训模型。造这些工具的最好办法就是自己训最好的模型。两者紧密相连——我们造容易定制的模型，把工具 export 给客户，帮他们训自己的模型。你不能跟企业说"我帮你建超定制系统"，但对外展示不出你是开源技术 leader。两部分同等重要，第一部分 enable 第二部分，有飞轮效应。我们模型设计的选择都围绕客户需求，比如特别强调物理能力，因为我们服务的制造公司要解决物理问题。科学团队和业务团队坐一起，这就是我们的飞轮。

（中场休息）

主持人： 欢迎回来，继续聊Arthur Mensch，Mistral CEO。Arthur，我想聊聊过去一年开源的进展。我记得1月报道DeepSeek的时候，主旋律是"开源大跃进"，很快闭源模型（GPT、Claude、Gemini）会被开源超越，因为开源社区协作创新，闭源各自为战。但咱们开场聊的是Gemini把GPT模型"大路货"化了，开源好像没兑现年初的期待。是我漏了啥，还是读错了？如果开源被拖后腿，是啥拖的？

Arthur： 看2024年的趋势，差距大概6个月；2025年，差距缩到3个月左右。明年差距多少，大家猜。但确实在显著缩小。

原因是预训练到10^26 flops（算力单位）时有"饱和效应"——能找到的数据就那么多，压缩到头了。起步晚的实验室攒够算力，几个月内都能训到这个规模，效率也提升了。今天任何实验室几个月内都能搞到10^26 flops的设施。饱和效应意味着开源追上来了，闭源先跑的撞上了预训练的天花板。这趋势只会继续。比如我们最新开源的Devstral 2（编程模型），性能大概相当于Anthropic两三个月前的水平。差距在缩小。

但问题本身可能问错了，因为两者提供完全不同的价值主张：一边是用起来方便但依赖厂商；另一边是多花力气自己 ownership、学定制、用对工具、自己维护部署，但能造 leverage 对抗闭源厂商。纯性能看，确实在收敛。

主持人： 你提到"饱和效应"，问个技术问题：模型是不是"练到头"了？不会继续变强了？

Arthur： 会在越来越具体的领域变强。咱们集体把模型练得很聪明了，能长上下文推理、调多工具。但要真落地到银行或制造公司，模型得学企业自己的知识。要往极 specific 的方向练，比如发现新材料、设计飞机，得花功夫找对的奖励信号、找专家，让模型在这个极窄的方向超强。

我们肯定还没做完这块。大家竞争的是"特定能力的 right environment 和 right signal provider"。横向通用推理能力还会提升，但不会有人能拉开巨大差距。真正的差距在垂直领域——找懂怎么设计飞机的专家，教模型怎么做，物理、化学、制药、生物……方向多的是。

未来两年最 exciting 的是模型在极 specific 方向上的爆发。我们的机会是造对平台，enable 这种垂直化——不管是帮企业，还是帮做垂直能力的AI初创。行业从"横向智能增长"转向"把模型练成特定技能专家"，这更 exciting，因为选个领域就能做到 superhuman（超人类），但不会同时所有领域都需要超人类。

主持人： 但之前你说不会有"啥都能干"的模型，如果垂直训练做透了，为啥不行？

Arthur： 选的垂直领域之间不怎么 transfer（迁移）。专门练生物和专门练物理，两者关系不明。想让模型同时解决所有问题，模型会巨巨巨大、巨贵、服务成本巨高。所以专门化更 make sense——生物一个模型、化学一个、特定物理问题一个。

想大规模跑、后台24小时跑、专门想特定问题，模型得尽可能小，因为成本跟大小成正比。把模型撑大让它擅长多模态，部署用起来就不效率。经济账算下来，特定方向专门化更合理。

主持人： 聊聊Mistral的竞争格局。我在美国，跟你说说这边人怎么说的——有些人觉得，Mistral设在欧洲，是想吃"监管红利"：美国公司在欧洲难竞争，Mistral就能捡漏。这说法你怎么看？

Arthur： 我们建技术是为了服务想要"足够控制"的公司和国家。AI这种技术，你不会想完全 delegate 给 vendor，尤其是 foreign entity（外国实体）。以前数据就这样，AI只会更甚。一是商业平衡：依赖外部厂商，你的服务贸易逆差会增加，长期大量进口数字服务是个问题。二是主权、国防——独立国家想要独立国防系统，就需要独立AI，因为AI正在进国防系统。

主持人： 所以"我们不是美国公司，base 欧洲，能帮你建数据保护严格的、国家安全级的系统"这套 pitch，真管用？

Arthur： 这是技术差异化。我们能在 edge（边缘）部署，客户想让我们部署哪儿就部署哪儿。就算我们挂了，系统还能跑——这对很多行业很重要，越 critical 越重要。也意味着我们能服务美国客户，想减少依赖某些厂商的；能服务想要更多定制、更多控制、监管更严的银行。当然也能服务欧洲工业——我们起家的地方，卖东西先从邻居卖起嘛。也能服务亚洲国家，他们也有类似需求：想要我们挂了也能靠的技术，能按自己文化需求定制的。

主持人： 有欧洲政府找你说"我们就是不信Google、Anthropic，不想用他们"吗？

Arthur： 欧洲政府找我们是因为想建技术、服务公民、提升公共部门效率。我们是欧洲公司，欧洲政府投欧洲技术，我们收入再投回欧洲，造生态。这种"欧洲政府→欧洲技术提供商"的收入流很有益。说实话，美国过去80年就是这么干的，欧洲以前做得不够。

主持人： 聊聊跟地理有关的开源努力，比如中国的开源。他们动静很大，好像做得不错？

Arthur： 中国AI很强。我们其实是第一个发开源模型的，他们发现这是好策略，证明也很强。开源不算真竞争，是互相 build on top。他们 release 的你都能看到，学啥好用；我们2024年初发了第一个 sparse mixture of experts（稀疏专家混合模型），他们在此基础上 release DeepSeek-V3，然后……

主持人： DeepSeek是在你们基础上建的？

Arthur： 同架构，我们 release 了重建这架构所需的一切。反过来也一样，投开源的公司 release 的东西，其他开源公司 reuse。R&D（研发）跨实验室分享发现，效率高多了。中国内部知识分享很有效，美国这边效率低——美国公司不怎么投开源。我们当了西方开源提供商的 leader，西方很需要这个。

主持人： 你觉得中国战略是啥？美国老聊"要领先中国"，你觉得中国如果跑太快，有风险吗？

Arthur： 中国很强，垂直整合好，工程师强，有算力、有能源，竞争所需的一切都有。欧洲也有竞争所需的一切。不会有人造出一个AI遥遥领先。看世界全貌，每个够大的主权实体（大经济体）都想在AI使用和部署上有某种 autonomy（自主权）。这 justify 了多个卓越中心的出现——欧洲一个（我们 lead）、中国南方一个、美国西海岸一堆公司。

主持人： 为啥中国战略上想搞开源模型？他们跟你商业模式不同吧，不是全球做实施商。

Arthur： 他们在中国有大生意。建开源模型的中国公司一般是云厂商，比如阿里。他们有垂直整合，能在内部（中国）和运营增长的市场（比如亚洲其他地儿）创造价值。我们在亚洲其他地儿跟他们竞争，不在中国本土。所以他们内部竞争，然后零成本进美国市场——我要是他们，我也这么干。

主持人： 行。最后聊聊你们技术的实际应用。你之前聊AI用于物理、研究、国防，听着都不像聊天机器人。聊聊你们在做的应用，AI会走出聊天机器人吗？

Arthur： 聊天机器人常是 interface（界面），因为AI让人能用人类方式跟机器交互。但只是界面，不是全部。

真正让我们 excited 的应用有两类：一是端到端工作流自动化，彻底改变企业运转方式。比如跟SEMA（航运公司）合作做货物调度——船进港要调度集装箱，得联系几百号人、联系港口、联系监管、操作20个不同软件，以前几百人干。咱们一起搞自动化，能省80%。

主持人： 大语言模型既做沟通，又做决定——不光打电话，还决定分给谁？

Arthur： 它决定、连线、执行，你 measure 对不对，不对就改进系统。

主持人： 效果咋样？

Arthur： 在某些智能体已经活了。很 exciting，有 physical footprint，安全地做决策，给企业带来巨大效率提升。

另一类是增长端的，比如跟ASML合作。ASML做计算光刻和扫描，造刻晶圆的大机器，晶圆做成 Nvidia 的芯片。关键工业组件，半导体制造的核心。这么 specialized 的东西，生成式AI咋帮忙？

生成式AI模型其实是预测模型，能"看"并推理看到的东西。ASML需要推理扫描仪出来的图像，验证芯片刻蚀有没有 error。这挺复杂，需要逻辑思考。图像+逻辑思考的结合，让我们能更快自动化这些。

这里定制化是关键，因为输入数据别处找不到——只有ASML有这些图像。我们找到制造流程里的物理瓶颈，训模型解决它。这种事会在很多地方发生。

通用AI的工业应用让我超级惊喜。以前有计算机视觉技术能看机器或产出说"这不行"或"这行"，但没有"神经中枢"接收信息、做决定、传达给现场的人。现在这套技术能跑通全流程了。

主持人： 对。你需要能感知多种信息的模型，制造业信息常是虚拟化，强视觉模型超有用。基于视觉输入做决策，靠大语言模型编排调 agent、进 workflow 下一步、调工具或写数据库。能"看"工厂里发生啥、流程里发生啥的动态 agent，能自动执行下一步或 call 人验证决策——这里能创造很多价值，会重构制造业。

制造业历史上重构过多次：发明蒸汽机时，得围绕中央蒸汽机重建整个工厂，因为它是能源提供者。未来10年，所有制造流程会围绕大语言模型编排器重建。超有趣，要解决物理问题，系统有 physical footprint，有安全问题，系统复杂度极高!

反方观点：

说DeepSeek在Mixtral基础上搞MoE？扯淡！DeepSeek的MoE论文就比亚里士多把论文挂arXiv晚了3天。

而且Mixtral论文压根没细说怎么训练的，Arthur说的"我们release了重建这架构所需的一切"也是假的——论文就说了句"我们用Google GShard架构，路由简单点，每层都放MoE"，数据、超参数、训练token、消融实验啥都没有。

实际上DeepSeek MoE用的架构跟GShard都不一样，更稀疏（DeepSeek MoE论文甚至没引用Mixtral，引的是GShard）。

不是说Mixtral对MoE没影响，但访谈里这话有点改写叙事的意思，好像在说"看，中国/DeepSeek也在抄Mistral！"

懂MoE的有两派人：
一派觉得DeepSeek是跟着GPT-4/Mixtral/Grok的技术树走的（粗粒度、softmax路由、设计上不表态）；
另一派认为这是完全不同的技术树。

"老MoE" vs "新MoE"

老MoE（oldMoE）

- 家谱：GShard → Switch Transformer → GPT-4 → Mixtral → Grok-1/2
- 核心理念："让稠密模型推理更便宜"
- 特点：8-16个粗粒度专家，top-k softmax路由，辅助损失负载均衡，专家是"准可解释的专家"
- 翻车模式：真正的架构权衡限制了你电路能表达的东西

新MoE（neoMoE）

- 家谱：DeepSeek-MoE → V2 → V3（+中国实验室在这条路上搞的各种新东西）
- 核心理念："稀疏激活作为容量组织原则"
- 特点：几百个细粒度专家 + 共享专家，sigmoid路由，偏置驱动负载均衡，跟注意力创新协同设计，专家是组合特征而非专门家
- 翻车模式：你家工程师技术不行

Arthur在访谈里暗示DeepSeek抄了Mistral的MoE架构，但网友扒出来时间线对不上——DeepSeek论文就晚了3天，根本来不及"基于"Mixtral。而且Mixtral论文写得贼简略，没给训练细节，谈不上"release了一切"。DeepSeek的架构其实更原创，连引用都没提Mixtral，直接引的Google GShard。

更重要的是，这是两条完全不同的技术路线：老MoE是"粗专家+softmax路由"，新MoE是"细专家+共享专家+sigmoid路由"，设计理念都不一样。老MoE想省钱，新MoE想重新组织模型容量。老MoE翻车是架构本身有天花板，新MoE翻车是你家工程师菜。

所以Arthur那句"DeepSeek在我们基础上建的"，被网友怼是往自己脸上贴金，把中国的创新说成"抄西方的"，实际上人家走的是另一条路。

Mistral CEO暗示DeepSeek抄自家MoE架构！被扒出时间线不对

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道