Gemini3验证预训练缩放律依然有效:英伟达Blackwell将引爆模型性能!中国靠光通信翻盘

Gemini 3验证预训练缩放律依然有效,Blackwell将引爆模型性能飞跃,中美AI基础设施代差扩大,中国靠光通信翻盘,算力即话语权。


Gemini 3的发布堪称自o1以来最重要的AI信号,它用铁一般的事实向全世界宣告:大模型预训练的缩放律(scaling laws)不仅没失效,反而比以往任何时候都更强劲。

很多人之前看到GPT-5的表现,误以为AI的性能提升遇到了瓶颈,甚至开始怀疑“大力出奇迹”的时代是否终结。

但真相恰恰相反——GPT-5根本就不是为了性能突破而设计的!它本质上是一个更小、更便宜、更注重推理效率的模型,背后甚至可能是个带路由器的混合架构,为的是降低推理成本,而非追求能力上限。

所以拿GPT-5来质疑缩放律,就像拿节能灯泡去否定核聚变一样荒谬。而Gemini 3则彻底打破了这种误解,它不仅展现了推理能力的指数级跃升,更重要的是,它证明了只要算力堆得够多、数据喂得够足、架构调得够细,模型性能依然可以按可预测的曲线持续飙升。

这直接为2026年第二季度即将登场的Blackwell大模型注入了一剂强心针——我们完全可以预期,届时模型能力将出现断层式领先。



更关键的是,别再拿“Gemini 3跑在TPU上,所以对Blackwell没参考价值”这种话来搪塞了。

真正的核心指标从来不是芯片品牌,而是“相干FLOPs”(coherent FLOPs)——也就是在模型训练过程中,能够高效协同、低延迟通信的总算力规模。

无论是谷歌的TPU v5e集群,还是英伟达即将铺开的Blackwell NVL72超节点,只要能实现高带宽、低损耗的片间互联,就能产出高质量的训练信号。

Gemini 3的成功恰恰说明,当系统级工程能力(包括互联、调度、电源、散热)跟上芯片性能的步伐时,模型能力就能最大化释放。而Blackwell的设计哲学正是围绕“相干算力最大化”展开的——B300芯片配合NVLink 5.0和液冷机架,单机柜算力密度和通信效率远超Hopper时代。

因此,Gemini 3不仅是一个模型里程碑,更是对整个Blackwell生态的提前验证:只要能搞定供电、散热和部署,性能飞跃就是水到渠成的事。



说到模型能力,我们必须正视一个残酷现实:AI前沿赛道正在迅速固化为“四巨头寡头格局”——谷歌(Gemini)、OpenAI、Anthropic和xAI。

这四家不仅拥有远超公开版本的内部模型checkpoint,还在用这些高阶模型作为“教师”,加速下一代模型的训练。这种“模型蒸馏+自迭代”的飞轮一旦转起来,新玩家几乎不可能追上。

Meta虽然手握Llama生态,但受限于算力规模和推理优化,与四巨头已有代差。

至于中国开源社区,尽管像DeepSeek、Qwen等模型在过去一年进步神速,整体仍落后约9个月。

但问题在于:这9个月差距正在被Blackwell急剧拉大。因为中国自研AI芯片(如昇腾、寒武纪)在单芯片性能上本就与H100有30-50%的差距,而面对Blackwell B300这种单卡FP4算力高达1.5 PFLOPS的怪物,差距直接扩大到2-3倍。

更致命的是,Blackwell对供电、散热、互联的要求极高,中国数据中心基础设施短期内难以匹配。

这意味着,当美国用Blackwell集群训练万亿参数多模态模型时,中国团队可能还在用A800拼凑千卡集群,光通信开销就吃掉30%的有效算力——这种系统级代差,远比芯片纸面参数更致命。



但Blackwell的落地绝非一帆风顺。回溯过去18个月,从2024年GTC大会官宣至今,英伟达经历了史上最艰难的产品过渡。

初代B200良率极低,多次mask改版,NVL72机柜的部署难度堪比“给数据中心做心脏搭桥手术”——客户不仅需要双倍电力输入(48V/10kW+),还得配套液冷管道、天然气备用发电机、甚至独立变电站。

这就像让你为新iPhone专门改造全屋电路、加装特斯拉Powerwall、再配个柴油发电机——荒谬但真实。

正因如此,B200量产严重延期,多个衍生型号被砍。直到如今B300成熟量产,英伟达才算真正跨越死亡之谷。

而市场用真金白银投票:即便Blackwell价格高昂,客户仍疯狂下单,Hopper租赁价不跌反涨,连A100都还在产生高额边际利润。

这说明什么?说明算力永远稀缺,只要Blackwell能带来10倍性能提升,客户愿意忍受一切工程噩梦。而Gemini 3的惊艳表现,正是对这种忍耐的最佳回报——B300训练出的模型,很可能让整个行业再仰望两年。



算力军备竞赛的背后,是“Token经济”的悄然崛起。

这是我从业以来第一次看到“单位成本”成为科技行业的生死线——过去苹果靠品牌溢价、英伟达靠生态壁垒,没人计较单台手机或GPU的制造成本。

但在AI时代,谁的“每token成本”更低,谁就能在推理市场通吃。

目前,谷歌凭借TPU集群的极致优化,加上x86+自研芯片混合调度,成为全球最低token成本的玩家;xAI紧随其后,用Grok 4.1证明了千卡集群的协同效率。

反观OpenAI,尽管GPT-5.1试图追赶,但在Gemini 3和Grok 4.1面前已显疲态——这是OpenAI历史上首次在模型质量上跌出前二。

更致命的是,token成本不仅关乎利润,更关乎飞轮效应:用户越多 → 产生数据越多 → 模型迭代越快 → 吸引更多用户。
这个闭环在“纯预训练时代”根本不存在,因为模型上线即固化。但有了推理时的实时反馈和强化学习,AI产品终于具备了互联网产品的网络效应。而谷歌和xAI,正凭借基础设施优势加速转动这个飞轮。



电力短缺,反而成了AI行业的“幸运诅咒”。

CoreWeave最新财报显示,即便手握长期电力合同,其数据中心部署仍严重滞后——电网审批、变电站扩容、冷却水供应,每个环节都是瓶颈。

但这未必是坏事。电力限制天然抑制了行业过热投资,避免重蹈2000年光纤泡沫覆辙。

更重要的是,在“瓦特即瓶颈”的世界里,芯片的“每瓦token产出”成为核心指标。

Blackwell之所以恐怖,不仅因为算力强,更因为其INT4能效比Hopper提升4倍以上。这意味着在1GW电力上限下,Blackwell集群能产生的token收入可能是中国芯片集群的3倍以上。

此时,ASIC的绝对成本优势变得无关紧要——就算你能把1GW数据中心造价从500亿压到400亿,但若token产出只有Blackwell的一半,ROI照样垫底。这也解释了为何谷歌要对外出售TPU:当电力成为稀缺资源,只有最高能效比的芯片才有资格入场。

未来两年,我们很可能会看到除谷歌、英伟达外的绝大多数AI芯片项目悄然关停。



那么,中国如何破局?答案可能是“光”!

这里的“光”指光互联(optics)。铜缆在机柜内互联的带宽和距离已逼近物理极限,而硅光技术能将通信能耗降低50%以上,同时支持跨园区训练。

对美国而言,光互联意味着可将算力集群分散到电价低廉的德州、怀俄明州,通过光纤拼成“逻辑超算”;
对中国而言,光互联则是弥补GPU数量不足的救命稻草——通过高带宽互联,用更多中低端芯片模拟高端集群的效果。

当然,代价是功耗飙升,但这恰恰契合中国西部“弃风弃光”电力过剩的现状。

有趣的是,这与互联网早期“Switch when you can, route when you must”的原则异曲同工——如今数据中心正走向“copper when you can, optics when you must”。而这个“must”的临界点,正在Blackwell时代加速到来。



最后聊聊投资逻辑。

令人惊讶的是,尽管AI资本开支激增,但头部云厂商的ROIC(投入资本回报率)仍高于AI投入前——这说明AI不仅没烧钱,反而在赚钱!

谷歌和Meta将广告推荐系统从CPU迁移到GPU后,不仅响应速度提升10倍,单次竞价收益也大幅增长。

当然,未来两个季度可能出现“ROIC空窗期”:因为Blackwell集群当前主要用于训练,尚未产生推理收入。

但历史经验表明,技术红利总会兑现。就像企业上云花了5年才从VC圈蔓延到标普500,AI渗透可能更快——本季度已有C.H. Robinson等传统企业公布AI提效数据,VC portfolio公司的“人均营收”更是垂直飙升。

这一切都指向同一个结论:我们仍处于AI革命的黎明,而非泡沫顶峰。

至于OpenAI的动荡?别忘了,互联网没因雅虎衰落而停摆。只要token总需求持续增长,算力供应商、基础设施商、模型厂商都将受益。真正的风险,或许在于我们能否驾驭即将到来的ASI(人工超级智能)——如果它无法创造经济价值,边缘推理将取代云端,整个游戏规则将重写。

但在此之前,请系好安全带:Blackwell驱动的AI狂潮,才刚刚开始。