英伟达十五年前收购迈络思就已锁定今天AI基础设施霸主

英伟达和迈络思这对CP从2009年开始谈恋爱,谈了整整十年终于在2019年领证结婚。这段关系的本质就是:图形处理器每次提速,网络就拖后腿,然后这俩货就一层一层地把瓶颈扒掉。

从图形处理器直接共享内存到远程直接内存访问直连,再到存储直通,最后到频谱X和蓝原统治数据中心,黄仁勋下了一盘十五年的大棋,把图形处理器从打游戏的显卡变成了人工智能时代的计算核心。

更狠的是,这场技术革命早就暗示了存储行业的大爆发,只是大部分人当时没看懂而已。



2009年的那个冬天:图形处理器想说话,中央处理器不让

2009年,英伟达的图形处理器还处于特斯拉和费米时代。那时候科学计算圈突然对这些显卡产生了浓厚兴趣,不是因为能打《魔兽世界》,而是因为算矩阵乘法快得离谱。英伟达拿林帕克这个超算排名基准测试秀了一把肌肉,证明图形处理器确实能搞正经事。

与此同时,中国在超算领域开始发力。2010年11月,天津国家超级计算中心的天河一号A干掉了美国橡树岭实验室的克雷XT5,夺走了世界第一的宝座。这标志着美国长达十年的超算霸权终结。但比排名更刺激的是架构变化:对比2009年11月和2010年11月的全球超算五百强榜单,前五名里突然有三台变成了图形处理器加速的,用的全是英伟达的芯片。

注意,这时候亚历克斯网还没出世,深度学习还是个弟弟,变换器更是连影子都没有。图形处理器纯粹是靠暴力计算在高性能计算领域杀出一片天。这说明黄仁勋对图形处理器的执念远比人工智能热潮来得早,人家早在十五年前就认定这是计算的未来。

天河一号A的配置放今天看依然震撼:一万四千三百三十六个至强处理器加上七千一百六十八块英伟达图形处理器,塞进三千五百四十八个计算托盘,每个托盘两个节点。每个节点配两颗英特尔至强X5670六核中央处理器和一块英伟达特斯拉M2050图形处理器。互联网络是自研的,带宽大概是当时无限带宽的两倍。

但问题也随之而来:图形处理器虽然算得快,却被中央处理器卡住了脖子。所有数据流动都要经过中央处理器调度,图形处理器不能直接跟网络对话,也不能直接读硬盘。这就好比给法拉利装了个人力变速箱,引擎再猛也白搭。

这个瓶颈催生了一个历史性合作。2009年,英伟达和迈络思在超级计算2009大会上正式宣布联手,目标只有一个:把图形处理器从中央处理器的管控下解放出来,让它成为数据中心的一等公民。

当时的典型服务器架构是这样的:Linux系统跑在中央处理器上,图形处理器和无限带宽网卡通过高速外围组件互联挂在中央处理器下面。高速外围组件互联枚举的时候,图形处理器和迈络思网卡被分配到中央处理器内存的不同地址区域。结果就是中央处理器要管所有数据搬运,图形处理器算完的数据得先放到系统内存的缓冲区A,中央处理器再把它复制到缓冲区B(网卡能看到的区域),这个缓冲区复制步骤浪费了大量时间和算力。

英伟达和迈络思的第一步就是干掉这个缓冲区复制。听起来简单,实际上要做三件事:Linux内核更新,让两家驱动能共享主机内存;英伟达和迈络思的驱动要握手,同意共用缓冲区A;迈络思驱动还要注册回调函数,让图形处理器能通知网卡共享缓冲区的变化。

这套组合拳打下来,图形处理器通过无限带宽的通信速度直接提升了三成。更重要的是,图形处理器和网卡之间的坚冰被打破了,这是迈向直接数据协调的第一步。日本的燕2.0超算就用上了这套方案,迈络思网卡加无限带宽交换机加英伟达图形处理器,图形处理器直接技术开始展现实力。



2013年:开普勒架构带来的革命,网卡终于能直接读显存了

2010年的图形处理器直接虽然香,但数据还是得绕道中央处理器的系统内存。这个额外跳转增加了延迟,带宽也被主机内存总线的速度限制。于是工程师们自然想到:为啥不能让网卡直接从图形处理器显存读数据?

这个问题的答案就是图形处理器直接远程直接内存访问,而实现它的关键是开普勒架构的图形处理器,具体型号是英伟达特斯拉K40。

在老款图形处理器(费米及更早)上,高速外围组件互联和图形处理器显存之间的接口有根本限制。虽然显卡可能有6GB显存,但高速外围组件互联总线一次只能看到其中一小部分(通常约256MB,通过BAR1暴露)。要访问窗口外的数据,英伟达驱动(跑在中央处理器上)得重新编程BAR1映射,指向显存的其他区域。图形处理器得滑动这个窗口,中央处理器才能读到数据。这种重映射完全由中央处理器和驱动控制,网卡这种设备根本发不出移动窗口的命令,它只会发送读取物理地址的请求。没有稳定完整的显存映射视图,直接访问就是天方夜谭。

开普勒彻底改变了这个模型。英伟达把整个图形处理器显存地址空间直接暴露给高速外围组件互联总线,这意味着网卡可以随时访问显存中的任何位置,不需要中央处理器参与,也不需要重新映射窗口。网络第一次能把图形处理器显存当作一等远程直接内存访问目标。

软件层面,英伟达在计算统一设备架构4.0中引入了图形处理器直接远程直接内存访问支持,迈络思则更新了MLNX_OFED驱动(也就是无限带宽驱动),在ConnectX-3等适配器上实现了图形处理器显存和迈络思网卡之间的真正点对点远程直接内存访问路径。两者结合,打通了图形处理器和网卡之间的直接数据通道:

图形处理器显存 ⇄ 迈络思网卡 ⇄ 网络

程序员怎么用这功能?这里要致敬消息传递接口的开发者们。消息传递接口是高性能计算领域的标准库,用于在集群节点之间交换计算结果。以前消息传递接口代码得先用cudaMemCpy把数据从图形处理器复制到中央处理器内存,再用MPI_Send发送。有了图形处理器直接远程直接内存访问,消息传递接口库直接更新,你可以直接调用MPI_Send(*gpu_mem_ptr),底层会告诉网卡直接去图形处理器显存读数据,cudaMemCpy(图形处理器到主机)这一步被彻底消灭。

2013年,消息传递接口核心开发者公开演示了这个更新,展示了图形处理器直接远程直接内存访问带来的延迟和吞吐量提升。英伟达也发了详细的开发者博客,讲解如何在实践中使用计算统一设备架构感知消息传递接口并进行基准测试。



2019年:存储瓶颈被打破,固态硬盘和图形处理器终于牵手

到了2010年代末,英伟达的目光转向了存储。图形处理器直接存储在2019年登场,让固态硬盘能直接把数据喂给图形处理器,绕过中央处理器这个中间商。

传统数据路径是:固态硬盘 → 中央处理器内存 → 图形处理器显存。有了图形处理器直接存储,数据从NVMe固态硬盘直接远程直接内存访问到图形处理器显存,延迟大幅降低,中央处理器占用率也下来了。这对人工智能训练至关重要,因为数据集往往太大放不进显存,得从存储反复加载。

2019年还有件大事:英伟达以69亿美元收购了迈络思。这桩婚事把计算和网络彻底绑在一起,黄仁勋的数据中心愿景开始完整呈现。迈络思的无限带宽技术加上英伟达的图形处理器,形成了人工智能工厂的基础设施蓝图。



2022年至今:频谱X和蓝原统治数据中心,正面刚博通

收购完成后,英伟达开始用迈络思的遗产构建完整的网络栈。频谱X以太网平台和蓝原数据处理器成为新武器。

频谱X不是普通的以太网交换机,它是专门为人工智能工作负载设计的。传统以太网在人工智能集群里会遇到拥塞和延迟问题,频谱X通过融合以太网远程直接内存访问和智能拥塞控制解决了这些痛点。它让图形处理器集群能像使用无限带宽一样高效通信,但用的是更普及的以太网基础设施。

蓝原数据处理器更狠,这是一颗网卡上的计算机。蓝原3集成了ARM核心,能卸载网络、存储、安全等任务。据英伟达说,一颗蓝原3能替代大约三百个中央处理器核心。这意味着数据中心可以把基础设施开销从中央处理器上卸下来,让更多算力跑应用。

黄仁勋在2019年去以色列时就说过:数据中心才是新的计算单元,不是单个服务器。当时可能只有百分之五的服务器带图形处理器,但黄仁勋看准了趋势。凯文·迪尔林(英伟达网络高级副总裁,原迈络思高管)回忆说,黄仁勋是唯一真正理解这个愿景的行业领袖。

现在英伟达的网络产品线直接挑战博通。连接X网卡和频谱交换机对标博通的战斧系列,蓝原数据处理器对标博通的数据处理器方案。无限带宽更是博通没有的王牌,许多人工智能训练集群选择无限带宽就是为了确定性性能。



回顾与未来:存储超级周期的信号早就亮了

回头看这十五年的技术演进,一条清晰的脉络浮现:英伟达和迈络思每次都在解决图形处理器太快,其他部件跟不上的问题。从消除缓冲区复制,到远程直接内存访问直连,再到存储直通,最后到数据处理器卸载和智能网络,每一步都在把图形处理器推向数据中心的核心位置。

更重要的是,这场革命早就暗示了存储行业的超级周期。当图形处理器直接存储在2019年发布时,当人工智能训练需要海量数据吞吐时,当NVMe和NVMe over Fabrics成为标配时,存储厂商如闪迪、西部数据的机会就已经注定。只是大部分人当时盯着图形处理器的算力数字,没看懂数据管道的重要性。

未来的数据中心会越来越像一台巨大的计算机,图形处理器是中央处理器,网络是主板总线,存储是内存扩展。英伟达通过迈络思掌握了网络层,通过图形处理器直接技术栈掌握了数据流动,通过计算统一设备架构生态锁定了软件层。这套组合拳让竞争对手很难插足。

博通现在面临的是一个整合了计算、网络、存储的垂直巨头。英伟达不只是卖显卡,它在卖人工智能基础设施的完整解决方案。从芯片到交换机,从网卡到数据处理器,从软件到生态,黄仁勋构建的护城河比大多数人想象的更深。

存储超级周期只是开始。当人工智能模型越来越大,当多模态数据爆炸式增长,当实时推理成为标配,数据移动的速度和效率将决定一切。英伟达和迈络思十五年前埋下的种子,正在长成参天大树。



极客一语道破

最狠的是本文指出了大多数人忽略的信号:存储超级周期。当所有人盯着NVIDIA的GPU算力时,他看懂了GPUDirect Storage和BlueField DPU对存储行业的预示。这种从芯片架构推导行业趋势的能力,是纯粹金融分析师做不到的。