前Meta高管重磅爆料:AI芯片战场的真相,英伟达还能笑多久?
一位前Meta(脸书母公司)的高级芯片架构师在一次闭门访谈中罕见开口,深度拆解了当前AI芯片领域的底层博弈逻辑。这位不愿透露姓名的技术大牛,曾深度参与Meta自研芯片MTIA的架构设计与部署策略,对英伟达(NVIDIA)、AMD、谷歌TPU、亚马逊Trainium等主流AI加速器有着第一线的实战经验。
他直言:“现在市场对AI芯片的理解太表面了,真正的战场不在算力数字,而在SerDes、互联协议、功耗控制与软件生态的系统级整合。”
今天,我们就把这场“内部人”访谈的精华整理成文,带你穿透资本市场的狂热叙事,看清AI硬件的真实竞争格局。
英伟达的“护城河”:不只是GPU,而是NVLink背后的SerDes黑科技
很多人以为英伟达的统治力来自于CUDA和GPU算力,但这位前Meta高管却点出了一个更底层、更致命的优势——SerDes(串行器/解串器)技术。
英伟达在NVLink中使用的SerDes,单向带宽高达900 Gbps,而目前市面上最好的以太网SerDes也就800 Gbps。更重要的是,英伟达的方案在功耗效率上碾压以太网,而且在处理链路错误率方面的开销极低。
这听起来可能很技术,但它的实际意义是:当上千颗GPU互联训练一个万亿参数模型时,每一次通信延迟和纠错损耗都会被指数级放大。英伟达通过定制SerDes+NVLink+NVSwitch的垂直整合,构建了一个“内部高速公路网”,而其他玩家还在用“公共高速”——拥堵、收费高、还经常堵车。
更关键的是,这位高管指出,以太网阵营(包括AMD、Meta、亚马逊等)必须在芯片级SerDes性能上追平英伟达,否则哪怕算力再强,也难以突破大规模训练的瓶颈。
他直言:如果你的SerDes不能在芯片边缘(beachfront)做到和英伟达一样的速度、功耗和可靠性,那你的整个AI集群效率就永远低人一等。这解释了为什么Meta和谷歌宁愿投入巨资自研芯片,也不愿完全依赖外部GPU——因为互联效率决定了训练成本,而成本直接决定商业可行性。
AMD的机会窗口:推理战场正在打开,但ROCm生态仍是“半成品”
谈到AMD,这位前高管给出了相对积极但谨慎的评价。他认为:在大规模训练领域,英伟达仍是无可争议的王者;但在推理、分布式推理和小规模训练场景,AMD的表现其实相当不错。
他特别提到,AMD的ROCm软件栈目前已经达到“对超大规模公司和部分新兴云服务商可行”的水平,但对于更广泛的开发者市场——尤其是中小企业和独立AI实验室——ROCm仍然不够成熟、文档混乱、调试困难,生态支持远不如CUDA。
但他也强调,ROCm的差距正在缩小。“现在ROCm距离‘广泛可用’可能只差一层窗户纸。一旦AMD能打通主流框架的无缝支持、提供稳定的驱动更新、建立像CUDA那样的开发者社区,就会迎来一个真正的机会窗口。”不过,他紧接着泼了一盆冷水:“但我们目前并不在这个窗口期内。英伟达还在加速迭代,Blackwell之后还有Rubin,而AMD的MI300系列虽然纸面参数亮眼,实际落地仍需时间验证。”换句话说,AMD不是没有机会,但需要耐心、资源和一次精准的生态爆破。
Meta自研芯片MTIA:被低估的“推荐系统杀手”,正在悄悄抢英伟达饭碗
很多人只盯着英伟达和谷歌TPU,却忽略了Meta的MTIA(Meta Training and Inference Accelerator)。这位前高管透露,MTIA v2虽然是几年前发布的“老将”,但在Meta内部的推荐系统、广告排序等典型AI工作负载上,性能和能效依然优于同期英伟达GPU。而即将大规模部署的MTIA v3,则被Meta内部视为“改变游戏规则”的产品。
他说:“MTIA v3在推荐类AI任务上的每瓦性能(performance per watt)和每美元成本(cost per inference)将全面超越我们能从英伟达买到的任何方案。”更关键的是,MTIA完全基于以太网互联——从单芯片到整个数据中心,全部使用标准以太网协议。这意味着Meta可以摆脱对NVLink生态的依赖,构建一个更开放、更灵活、更低成本的AI基础设施。
他补充道:“MTIA不仅能承接推理任务,还能分担一部分小规模训练和分布式训练负载。随着模型越来越‘稀疏化’‘模块化’,专用芯片的优势会越来越明显。”
这其实揭示了一个重要趋势:通用GPU在“全栈式”大模型训练上仍有优势,但在垂直场景(如推荐、搜索、广告)中,定制ASIC正在以“更省电、更便宜、更高效”的方式蚕食英伟达的市场份额。Meta不是唯一这么做的——谷歌用TPU、亚马逊用Trainium、微软也在秘密开发Maia——这是一场由超大规模公司主导的“去英伟达化”运动。
谷歌TPU:内部绝对统治,但云客户仍要英伟达
谈到谷歌TPU,这位高管直言:“在谷歌内部,TPU几乎100%主导AI训练和推理。从PaLM到Gemini,所有大模型都跑在TPU上。”
但有趣的是,谷歌云(Google Cloud)的外部客户却大量使用英伟达GPU。为什么?答案很简单:开发者生态。
TPU虽然快,但编程模型封闭,调试工具不友好,社区支持弱。而英伟达的CUDA就像AI界的Windows——哪怕性能差一点,大家也愿意用,因为熟悉、稳定、资源多。
他指出,这种“内外双轨制”其实反映了整个AI芯片行业的根本矛盾:超大规模公司追求极致效率,可以承受自研芯片的高前期成本;而普通企业更看重开发效率和迁移成本,宁愿多花点钱买GPU。
因此,TPU短期内很难在公有云市场撼动英伟达的地位,除非谷歌彻底开放TPU生态——但这会削弱其内部优势,几乎不可能。
博通(Broadcom)真正的护城河:不是技术,而是工程资源与生态协同
很多人以为博通(Broadcom)靠的是SerDes技术领先,但这位前高管却给出了不同视角。他说:“博通最大的优势根本不是某个具体技术,而是它拥有整个半导体行业最庞大的工程团队、最深厚的晶圆厂合作关系、最成熟的工具链基础设施,以及最稳定的现金流来支撑这一切。”
他举例道:“像联发科(MediaTek)这类公司,可能在某个芯片设计上很厉害,但它们没有几百个专门优化SerDes的工程师,没有和台积电共建的联合研发团队,也没有能支撑十年迭代的EDA工具链。而博通可以同时并行推进十几个项目,每个项目都有专属的物理设计、信号完整性、热管理团队——这种系统级的工程能力,才是真正的护城河。”
这也解释了为什么博通能持续为英伟达、Meta、谷歌等巨头提供高端互联芯片(如Tomahawk交换机、Jericho DNX等)。它卖的不只是芯片,而是一整套“可预测、高可靠、快速迭代”的工程解决方案。在AI时代,这种基础设施级的能力,比单点性能突破更重要。
总结:未来三年,AI芯片将进入“分层竞争”时代
综合这位前Meta高管的观察,我们可以清晰看到AI芯片市场正在分化为三个层级:
第一层:超大规模训练——英伟达仍占绝对主导,谷歌TPU紧随其后,其他玩家难以撼动,预计至少维持到2028年;
第二层:垂直场景推理(推荐、广告、搜索等)——Meta MTIA、亚马逊Trainium、微软Maia等ASIC将加速替代GPU,凭借能效和成本优势抢占市场份额;
第三层:通用推理与中小企业市场——英伟达凭借CUDA生态继续统治,AMD ROCm有望在未来2-3年打开突破口,但需解决软件成熟度问题。
而互联技术(SerDes+协议)将成为决定集群效率的关键瓶颈。谁能在芯片边缘实现更高带宽、更低功耗、更低延迟的互联,谁就能在AI基础设施的下一阶段占据主动。
这场访谈彻底打破了“算力即一切”的迷思。AI芯片的战争,早已不是浮点性能的比拼,而是一场关于系统架构、软件生态、工程资源与商业策略的综合较量。英伟达依然强大,但它的城墙,正在被一群沉默的ASIC巨兽从内部瓦解。