Mistral CEO透露Mistral于2024年初率先发布稀疏专家混合模型架构,DeepSeek-V3正是在此基础上开发而成,双方技术互通。他认为开源模式让研发效率倍增,中国内部知识共享机制高效,而美国公司投入开源不足导致效率偏低。Mistral因此成为西方开源AI的领军者,填补了这一关键空白。
主持人开场:
"要是所有顶尖的AI模型表现都差不多,那AI生意会变成啥样?"
今天我们就来聊聊这个。欢迎来到《Big Technology》播客,咱们这儿不搞情绪化,专门聊科技圈的那些事儿。今天节目超有料——我们要深扒AI行业正在发生的巨变:那些基础大模型越来越像"双胞胎",性能都差不多,这会让行业权力格局怎么洗牌?
我们请到了最懂行的嘉宾——Arthur Mensch,Mistral的CEO兼联合创始人。Arthur,欢迎!
Arthur: 很高兴来这儿,谢谢邀请。
主持人: 太棒了。先给不太熟悉Mistral的朋友科普一下:这是一家做AI模型的公司,2023年4月才成立,现在估值已经140亿美元了——两年半造出140亿美金的生意,这速度堪比火箭!公司现在有500号人。Arthur你自己呢,之前在学术界混,还在DeepMind干了两年半。
Arthur: 对头,我们总部在巴黎,但差不多四分之一员工在美国。很多业务都在这边,所以我老往纽约跑,今天就在纽约录节目。
主持人: 好,那咱们直接上硬菜。我觉得现在AI圈最火烧眉毛的问题是:2025年底那会儿,Google突然追上了OpenAI的模型,OpenAI的模型又跟其他家半斤八两。我感觉基础大模型"大路货化"的速度比我预想的快多了。我原本以为是"你追我赶"的马拉松,有人先冲出去,其他人慢慢追。结果现在呢?一堆模型厂商的"前沿模型"性能都差不多,好到难分伯仲。
Arthur,你怎么看?
Arthur: 要我说啊,这技术天生就是要变成"大路货"的。为啥?因为搞这玩意儿其实没那么难。全球大概就10个实验室知道怎么训这模型,大家拿到的数据差不多,用的配方算法也大同小异——说白了,训模型那点知识就薄薄几页纸,传得飞快。你根本造不出什么"知识产权护城河",想遥遥领先对手?门儿都没有,知识到处流,大家最后都一个德行。
所以问题在于:价值到底从哪儿来?你该搞啥商业模式才能赚钱?我看到有些竞争对手砸了几百上千亿美金造资产,但这些资产贬值快得很——因为大家都在搞"社区竞赛"(开源那套)。
对我们Mistral来说,从一开始就在琢磨:得投够钱给企业创造价值,但又不能瞎烧钱,得让单位经济账算得过来。毕竟造模型是重资产投入,结果造出来的东西还在"社区竞赛"里打转,这账怎么算?
主持人: 那咱们聊聊这场"造最好模型"的军备竞赛。你刚才说了,贵得离谱。OpenAI说要砸1.4万亿美金建基础设施——至少他们是这么说的。要是模型最后都差不多,这些公司会不会突然醒悟:"等等,砸这么多钱造下一代模型,值吗?反正别人也能追上。"
Arthur: 战略上嘛,肯定得画条线——投多少钱造资产,才能让一家科技公司给企业或消费者创造价值?说到底,所有这些投资都得靠下游产生的现金流和价值来买单。
我们公司的重点,也是我觉得合理的重点,是往"下游应用"走,搞清楚企业卡在哪儿的 friction(阻力),然后帮他们把 friction 抹平。因为AI行业现在最大的挑战是:三四年前吹得天花乱坠,你问企业赚着钱没?大部分说没有。为啥?他们定制化做得不够,没从问题倒推,光想着"我有锤子",没想清楚"钉子在哪儿"。
得帮他们找对 use case(使用场景),做对的定制化。比如以前20个人管的供应链流程,现在2个人就能搞定。这种例子多的是。但行业真正的挑战是:得让企业快速看到价值,才能 justify( justify )大家集体砸下去的这笔钱。
主持人: 确实有意思。以前这些公司天天喊"模型模型模型",GPT-5啥时候出?现在OpenAI开始聊怎么把智能转化成应用了。我这儿有个料:几周前Sam Altman跟纽约一帮媒体大佬吃饭,说2026年最大的优先级之一是给企业做应用。这调调从"我们要造AGI"变成"我们要给企业做应用"了。这是"大路货化"逼的?
Arthur: 首先,AGI这概念太简单了,简单到对企业没用。世上不存在一个系统能解决所有问题。就像没有哪个人能搞定全世界所有任务,总得专业化分工。
咱们得从"魔法思维"回到"系统思维"——搞清楚用啥数据能让模型在特定任务上更强,怎么设置反馈飞轮让人机交互产生更多信号,让应用越来越牛。现实里企业都是复杂系统,你没法用"AGI"这一个抽象概念解决所有问题。
AGI某种程度上是"我们还没做到但想做到"的北极星,就是让系统越来越好的愿景。但既然你说很难跟投资人解释"你的技术永远不被对手追上",那叙事自然要变——从"造一个解决所有问题的超级系统"变成"扎进企业一线,解决他们真·实际问题"。
在Mistral,我们早就想通了这点,这是我们的故事。我们赌AI会更"去中心化",需要更多定制化,因为数据积累和规模扩张都有天花板。基于此,我们创立了公司,主打给企业更强的定制化能力。
主持人: 好,待会儿再深扒Mistral的故事。但再问一个:我感觉行业有个转变——以前想的是"把模型弄聪明,它们自己就能解决问题",比如让模型干初级律师的活,或者在多个系统间做数据录入、生成报告。现在好像变了,变成"建基础设施,模型只是其中一个零件",编排(orchestration)和应用层才是价值所在。这转变有意思。
Arthur: 从系统视角看,永远有两个组件。第一是"静态定义"——人设定的规则,系统该怎么运转,这是人工定义系统的信息。第二是"动态组件"——把模型连到工具上,给模型指令,让它自己调用工具,决定执行路径。
静态部分也很重要,比如设 guardrails(护栏),有时候是决策树。想着全靠动态系统、不要人指导就能解决一切?有点乌托邦,不现实。
过去三年行业变化是:动态部分确实变大了,模型能思考更久、调更多工具、能写代码。但静态部分依然极其重要。就算动态部分膨胀,静态部分能让系统更好、解决以前解决不了的问题。所以"编排"(静态系统)和"智能体"(动态系统)的结合会一直超级重要,两边一起往上走,才能 tackling 越来越复杂的问题。
主持人: 明白了。那假设模型真"大路货"了,AI生意会剩啥?我想有三块:一是消费级产品,比如聊天机器人,OpenAI算这类;二是让现有产品更好,比如让Excel能聊天;三是企业端,咱们聊过的。这三块机会怎么排?
Arthur: 消费端嘛,AI正变成获取信息的方式,广告生意肯定能做起来,但这不是我们重点。
企业端呢,咱们在"重新平台化"所有企业软件。企业里有三类东西:人、数据、流程。以前工具是碎片化的,多个流程、多个数据系统、多个记录系统,团队没法同时访问所有信息。AI让企业可以:从统一数据开始(甚至碎片化数据也行,因为AI能导航),上面盖一层AI理解企业运转,然后生成适合每个人的界面。
比如我是律师,要解决特定问题、做特定审查,把文档丢进去,系统就给我弹对的 widget、显示我要的信息。这是"按需生成的界面"盖在"上下文引擎"上,引擎持续更新对企业的理解,底下记录系统就纯当数据库用,以前盖在上面那堆东西都不需要了。
这个"重新平台化"要花十年,企业采纳慢,但价值巨大——很多以前堆人的流程,现在能跑得飞快,这是效率端。更重要的是另一端:帮企业把专有数据、机器产生的资产(比如制造业),转化成别人复制不了智能。给特定物理问题训模型,比如造飞机的公司、ASML(光刻机巨头),让模型专门擅长操作他们的机器。这是解锁被AI absence(缺席)锁死的技术进步,价值不可估量。
效率端好衡量,五年后公司啥样能建模算。技术进步端更难量化,但价值可能更大——比如核聚变、更精细的半导体刻蚀,这些是物理极限,AI能帮你突破。长期价值创造在这儿,但更难预测。
主持人: 我捋捋。如果这是AI世界的价值驱动,有两条路:一是造比别人好的模型卖高价,但咱们说了这护城河不长久;二是模型本身不值钱,值钱的是 know-how( know-how )和实施能力——你可以开源模型,但给企业提供服务,教他们怎么落地、怎么出结果。就这两条路?
Arthur: 对,行业就这个分叉口。我们的选择是走第二条——开源+实施。
开源带来定制化,也带来"去中心化"。假设整个经济都跑在AI系统上,企业肯定不想被人"拔插头"。就像工厂接电网,你得确保没人能因为你不喜欢你就拉闸。如果AI真变成"公用事业",把智能当电用,你得确保智能供应不会被掐。
用开源,你不用怕踩了Anthropic用户协议的雷被暂停服务。自己跑,自己定规矩。
主持人: 自己定规矩,自己造冗余,服务质量更高。地缘政治咋变,你的系统都能跑。这是IT视角——CIO看开源是造杠杆、保独立。科学视角呢?这是把员工几十年积累的" folklore knowledge(民间知识)"转化成资产的唯一办法,别人偷不走。但这很难,需要对的工具、对的专业知识,这是开源模型的互补商业模式。
主持人: 但闭源厂商比如Anthropic会说,他们也能用你的数据定制化,你不信?
Arthur: 他们会这么说,但会加 guardrails(护栏)。你信他们的工程师能让你深度 access 系统?能信一辈子?我不确定。这既是控制问题,也是定制化问题——vendor(厂商)总想 lock-in(锁死你)。用开源模型,比如我们的或其他人的,你被 vendor lock-in 的程度更低。这技术太重要了,不能拴在一个 vendor 上,这是我们的机会。
主持人: stunning( stunning )的是,ChatGPT都出来三年了,把AI带进大众视野。但今天咱们聊的,我总结两个重点:一是今天的AI模型不能自己搞定一切,需要编排;二是要做这种编排/实施,你需要托管服务。这么强大的技术,真要用起来反而成了"托管服务",有意思。
Arthur: 确实。历史上不是第一次见。新技术、新平台,怎么用它的知识还很稀缺。能建大规模高性能系统、可靠运行、解决真问题的人不多。跟企业打交道,总得加点服务,因为实施复杂——就算像数据库这种成熟技术也一样。
AI更需要服务,因为它要转型业务。得帮企业想想团队怎么围绕系统重组,还得定制化。需要数据科学家懂怎么 leverage 数据、转化成智能,这资源现在还很稀缺。
我预期软件部分在部署中的占比会增加。现在的定制化方式——微调、强化学习——对企业买家太复杂,应该被抽象掉。他们该关心的是"自适应系统从经验和部署中学习",而不是纠结"该用微调还是强化学习"。我们在做的就是把这些底层 routine 抽象成业务老板能用的高层级系统。但服务部分依然重要,现在两者结合是给企业创造价值最快的路。
主持人: 我开场叫你"模型厂商",停顿了一下说待会儿聊别的。现在聊透了——Mistral obviously( obviously )以造模型为傲,但没服务、没陪企业坐下来教他们怎么用,拼图就不完整。你们觉得自己主要是造模型的,还是做服务的?模型厂商还是服务商?
Arthur: 我们是帮客户创造价值。要创造价值,得有 伟大模型( great models ),得有对的工具训模型。造这些工具的最好办法就是自己训最好的模型。两者紧密相连——我们造容易定制的模型,把工具 export 给客户,帮他们训自己的模型。你不能跟企业说"我帮你建超定制系统",但对外展示不出你是开源技术 leader。两部分同等重要,第一部分 enable 第二部分,有飞轮效应。我们模型设计的选择都围绕客户需求,比如特别强调物理能力,因为我们服务的制造公司要解决物理问题。科学团队和业务团队坐一起,这就是我们的飞轮。
(中场休息)
主持人: 欢迎回来,继续聊Arthur Mensch,Mistral CEO。Arthur,我想聊聊过去一年开源的进展。我记得1月报道DeepSeek的时候,主旋律是"开源大跃进",很快闭源模型(GPT、Claude、Gemini)会被开源超越,因为开源社区协作创新,闭源各自为战。但咱们开场聊的是Gemini把GPT模型"大路货"化了,开源好像没兑现年初的期待。是我漏了啥,还是读错了?如果开源被拖后腿,是啥拖的?
Arthur: 看2024年的趋势,差距大概6个月;2025年,差距缩到3个月左右。明年差距多少,大家猜。但确实在显著缩小。
原因是预训练到10^26 flops(算力单位)时有"饱和效应"——能找到的数据就那么多,压缩到头了。起步晚的实验室攒够算力,几个月内都能训到这个规模,效率也提升了。今天任何实验室几个月内都能搞到10^26 flops的设施。饱和效应意味着开源追上来了,闭源先跑的撞上了预训练的天花板。这趋势只会继续。比如我们最新开源的Devstral 2(编程模型),性能大概相当于Anthropic两三个月前的水平。差距在缩小。
但问题本身可能问错了,因为两者提供完全不同的价值主张:一边是用起来方便但依赖厂商;另一边是多花力气自己 ownership、学定制、用对工具、自己维护部署,但能造 leverage 对抗闭源厂商。纯性能看,确实在收敛。
主持人: 你提到"饱和效应",问个技术问题:模型是不是"练到头"了?不会继续变强了?
Arthur: 会在越来越具体的领域变强。咱们集体把模型练得很聪明了,能长上下文推理、调多工具。但要真落地到银行或制造公司,模型得学企业自己的知识。要往极 specific 的方向练,比如发现新材料、设计飞机,得花功夫找对的奖励信号、找专家,让模型在这个极窄的方向超强。
我们肯定还没做完这块。大家竞争的是"特定能力的 right environment 和 right signal provider"。横向通用推理能力还会提升,但不会有人能拉开巨大差距。真正的差距在垂直领域——找懂怎么设计飞机的专家,教模型怎么做,物理、化学、制药、生物……方向多的是。
未来两年最 exciting 的是模型在极 specific 方向上的爆发。我们的机会是造对平台,enable 这种垂直化——不管是帮企业,还是帮做垂直能力的AI初创。行业从"横向智能增长"转向"把模型练成特定技能专家",这更 exciting,因为选个领域就能做到 superhuman(超人类),但不会同时所有领域都 需要超人类。
主持人: 但之前你说不会有"啥都能干"的模型,如果垂直训练做透了,为啥不行?
Arthur: 选的垂直领域之间不怎么 transfer(迁移)。专门练生物和专门练物理,两者关系不明。想让模型同时解决所有问题,模型会巨巨巨大、巨贵、服务成本巨高。所以专门化更 make sense——生物一个模型、化学一个、特定物理问题一个。
想大规模跑、后台24小时跑、专门想特定问题,模型得尽可能小,因为成本跟大小成正比。把模型撑大让它擅长多模态,部署用起来就不效率。经济账算下来,特定方向专门化更合理。
主持人: 聊聊Mistral的竞争格局。我在美国,跟你说说这边人怎么说的——有些人觉得,Mistral设在欧洲,是想吃"监管红利":美国公司在欧洲难竞争,Mistral就能捡漏。这说法你怎么看?
Arthur: 我们建技术是为了服务想要"足够控制"的公司和国家。AI这种技术,你不会想完全 delegate 给 vendor,尤其是 foreign entity(外国实体)。以前数据就这样,AI只会更甚。一是商业平衡:依赖外部厂商,你的服务贸易逆差会增加,长期大量进口数字服务是个问题。二是主权、国防——独立国家想要独立国防系统,就需要独立AI,因为AI正在进国防系统。
主持人: 所以"我们不是美国公司,base 欧洲,能帮你建数据保护严格的、国家安全级的系统"这套 pitch,真管用?
Arthur: 这是技术差异化。我们能在 edge(边缘)部署,客户想让我们部署哪儿就部署哪儿。就算我们挂了,系统还能跑——这对很多行业很重要,越 critical 越重要。也意味着我们能服务美国客户,想减少依赖某些厂商的;能服务想要更多定制、更多控制、监管更严的银行。当然也能服务欧洲工业——我们起家的地方,卖东西先从邻居卖起嘛。也能服务亚洲国家,他们也有类似需求:想要我们挂了也能靠的技术,能按自己文化需求定制的。
主持人: 有欧洲政府找你说"我们就是不信Google、Anthropic,不想用他们"吗?
Arthur: 欧洲政府找我们是因为想建技术、服务公民、提升公共部门效率。我们是欧洲公司,欧洲政府投欧洲技术,我们收入再投回欧洲,造生态。这种"欧洲政府→欧洲技术提供商"的收入流很有益。说实话,美国过去80年就是这么干的,欧洲以前做得不够。
主持人: 聊聊跟地理有关的开源努力,比如中国的开源。他们动静很大,好像做得不错?
Arthur: 中国AI很强。我们其实是第一个发开源模型的,他们发现这是好策略,证明也很强。开源不算真竞争,是互相 build on top。他们 release 的你都能看到,学啥好用;我们2024年初发了第一个 sparse mixture of experts(稀疏专家混合模型),他们在此基础上 release DeepSeek-V3,然后……
主持人: DeepSeek是在你们基础上建的?
Arthur: 同架构,我们 release 了重建这架构所需的一切。反过来也一样,投开源的公司 release 的东西,其他开源公司 reuse。R&D(研发)跨实验室分享发现,效率高多了。中国内部知识分享很有效,美国这边效率低——美国公司不怎么投开源。我们当了西方开源提供商的 leader,西方很需要这个。
主持人: 你觉得中国战略是啥?美国老聊"要领先中国",你觉得中国如果跑太快,有风险吗?
Arthur: 中国很强,垂直整合好,工程师强,有算力、有能源,竞争所需的一切都有。欧洲也有竞争所需的一切。不会有人造出一个AI遥遥领先。看世界全貌,每个够大的主权实体(大经济体)都想在AI使用和部署上有某种 autonomy(自主权)。这 justify 了多个卓越中心的出现——欧洲一个(我们 lead)、中国南方一个、美国西海岸一堆公司。
主持人: 为啥中国战略上想搞开源模型?他们跟你商业模式不同吧,不是全球做实施商。
Arthur: 他们在中国有大生意。建开源模型的中国公司一般是云厂商,比如阿里。他们有垂直整合,能在内部(中国)和运营增长的市场(比如亚洲其他地儿)创造价值。我们在亚洲其他地儿跟他们竞争,不在中国本土。所以他们内部竞争,然后零成本进美国市场——我要是他们,我也这么干。
主持人: 行。最后聊聊你们技术的实际应用。你之前聊AI用于物理、研究、国防,听着都不像聊天机器人。聊聊你们在做的应用,AI会走出聊天机器人吗?
Arthur: 聊天机器人常是 interface(界面),因为AI让人能用人类方式跟机器交互。但只是界面,不是全部。
真正让我们 excited 的应用有两类:一是端到端工作流自动化,彻底改变企业运转方式。比如跟SEMA(航运公司)合作做货物调度——船进港要调度集装箱,得联系几百号人、联系港口、联系监管、操作20个不同软件,以前几百人干。咱们一起搞自动化,能省80%。
主持人: 大语言模型既做沟通,又做决定——不光打电话,还决定分给谁?
Arthur: 它决定、连线、执行,你 measure 对不对,不对就改进系统。
主持人: 效果咋样?
Arthur: 在某些 智能体已经 活了。很 exciting,有 physical footprint,安全地做决策,给企业带来巨大效率提升。
另一类是增长端的,比如跟ASML合作。ASML做计算光刻和扫描,造刻晶圆的大机器,晶圆做成 Nvidia 的芯片。关键工业组件,半导体制造的核心。这么 specialized 的东西,生成式AI咋帮忙?
生成式AI模型其实是预测模型,能"看"并推理看到的东西。ASML需要推理扫描仪出来的图像,验证芯片刻蚀有没有 error。这挺复杂,需要逻辑思考。图像+逻辑思考的结合,让我们能更快自动化这些。
这里定制化是关键,因为输入数据别处找不到——只有ASML有这些图像。我们找到制造流程里的物理瓶颈 ,训模型解决它。这种事会在很多地方发生。
通用AI的工业应用让我超级惊喜。以前有计算机视觉技术能看机器或产出说"这不行"或"这行",但没有"神经中枢"接收信息、做决定、传达给现场的人。现在这套技术能跑通全流程了。
主持人: 对。你需要能感知多种信息的模型,制造业信息常是虚拟化,强视觉模型超有用。基于视觉输入做决策,靠大语言模型编排调 agent、进 workflow 下一步、调工具或写数据库。能"看"工厂里发生啥、流程里发生啥的动态 agent,能自动执行下一步或 call 人验证决策——这里能创造很多价值,会重构制造业。
制造业历史上重构过多次:发明蒸汽机时,得围绕中央蒸汽机重建整个工厂,因为它是能源提供者。未来10年,所有制造流程会围绕大语言模型编排器重建。超 有趣,要解决物理问题,系统有 physical footprint,有安全问题,系统复杂度极高!
反方观点:
说DeepSeek在Mixtral基础上搞MoE?扯淡!DeepSeek的MoE论文就比亚里士多把论文挂arXiv晚了3天。
而且Mixtral论文压根没细说怎么训练的,Arthur说的"我们release了重建这架构所需的一切"也是假的——论文就说了句"我们用Google GShard架构,路由简单点,每层都放MoE",数据、超参数、训练token、消融实验啥都没有。
实际上DeepSeek MoE用的架构跟GShard都不一样,更稀疏(DeepSeek MoE论文甚至没引用Mixtral,引的是GShard)。
不是说Mixtral对MoE没影响,但访谈里这话有点改写叙事的意思,好像在说"看,中国/DeepSeek也在抄Mistral!"
懂MoE的有两派人:
一派觉得DeepSeek是跟着GPT-4/Mixtral/Grok的技术树走的(粗粒度、softmax路由、设计上不表态);
另一派认为这是完全不同的技术树。
"老MoE" vs "新MoE"
老MoE(oldMoE)
- 家谱:GShard → Switch Transformer → GPT-4 → Mixtral → Grok-1/2
- 核心理念:"让稠密模型推理更便宜"
- 特点:8-16个粗粒度专家,top-k softmax路由,辅助损失负载均衡,专家是"准可解释的专家"
- 翻车模式:真正的架构权衡限制了你电路能表达的东西
新MoE(neoMoE)
- 家谱:DeepSeek-MoE → V2 → V3(+中国实验室在这条路上搞的各种新东西)
- 核心理念:"稀疏激活作为容量组织原则"
- 特点:几百个细粒度专家 + 共享专家,sigmoid路由,偏置驱动负载均衡,跟注意力创新协同设计,专家是组合特征而非专门家
- 翻车模式:你家工程师技术不行
Arthur在访谈里暗示DeepSeek抄了Mistral的MoE架构,但网友扒出来时间线对不上——DeepSeek论文就晚了3天,根本来不及"基于"Mixtral。而且Mixtral论文写得贼简略,没给训练细节,谈不上"release了一切"。DeepSeek的架构其实更原创,连引用都没提Mixtral,直接引的Google GShard。
更重要的是,这是两条完全不同的技术路线:老MoE是"粗专家+softmax路由",新MoE是"细专家+共享专家+sigmoid路由",设计理念都不一样。老MoE想省钱,新MoE想重新组织模型容量。老MoE翻车是架构本身有天花板,新MoE翻车是你家工程师菜。
所以Arthur那句"DeepSeek在我们基础上建的",被网友怼是往自己脸上贴金,把中国的创新说成"抄西方的",实际上人家走的是另一条路。