更狠的是,这场技术革命早就暗示了存储行业的大爆发,只是大部分人当时没看懂而已。
2009年的那个冬天:GPU想说话,CPU不让
2009年,NVIDIA的GPU还处于Tesla和Fermi时代。那时候科学计算圈突然对这些显卡产生了浓厚兴趣,不是因为能打《魔兽世界》,而是因为算矩阵乘法快得离谱。NVIDIA拿LINPACK这个超算排名基准测试秀了一把肌肉,证明GPU确实能搞正经事。
与此同时,中国在超算领域开始发力。2010年11月,天津国家超级计算中心的"天河一号A"干掉了美国橡树岭实验室的Cray XT5,夺走了世界第一的宝座。这标志着美国长达十年的超算霸权终结。但比排名更刺激的是架构变化:对比2009年11月和2010年11月的TOP500榜单,前五名里突然有三台变成了GPU加速的,用的全是NVIDIA的芯片。
注意,这时候AlexNet还没出世,深度学习还是个弟弟,Transformer更是连影子都没有。GPU纯粹是靠暴力计算在HPC领域杀出一片天。这说明Jensen Huang对GPU的执念远比AI热潮来得早,人家早在十五年前就认定这是计算的未来。
天河一号A的配置放今天看依然震撼:14336个Xeon处理器加上7168块NVIDIA GPU,塞进3548个计算托盘,每个托盘两个节点。每个节点配两颗Intel Xeon X5670六核CPU和一块NVIDIA Tesla M2050 GPU。互联网络是自研的,带宽大概是当时InfiniBand的两倍。
但问题也随之而来:GPU虽然算得快,却被CPU卡住了脖子。所有数据流动都要经过CPU调度,GPU不能直接跟网络对话,也不能直接读硬盘。这就好比给法拉利装了个人力变速箱,引擎再猛也白搭。
这个瓶颈催生了一个历史性 partnership。2009年,NVIDIA和Mellanox在SC09(超级计算大会)上正式宣布联手,目标只有一个:把GPU从CPU的管控下解放出来,让它成为数据中心的一等公民。
当时的典型服务器架构是这样的:Linux系统跑在CPU上,GPU和InfiniBand网卡通过PCIe挂在CPU下面。PCIe枚举的时候,GPU和Mellanox网卡被分配到CPU内存的不同地址区域。结果就是CPU要管所有数据搬运,GPU算完的数据得先放到系统内存的Buffer A,CPU再把它复制到Buffer B(网卡能看到的区域),这个buffer copy步骤浪费了大量时间和算力。
NVIDIA和Mellanox的第一步就是干掉这个buffer copy。听起来简单,实际上要做三件事:Linux内核更新,让两家驱动能共享主机内存;NVIDIA和Mellanox的驱动要握手,同意共用Buffer A;Mellanox驱动还要注册回调函数,让GPU能通知网卡共享缓冲区的变化。
这套组合拳打下来,GPU通过InfiniBand的通信速度直接提升了30%。更重要的是,GPU和网卡之间的坚冰被打破了,这是迈向直接数据协调的第一步。日本的TSUBAME2.0超算就用上了这套方案,Mellanox网卡加InfiniBand交换机加NVIDIA GPU,GPUDirect技术开始展现实力。
2013年:Kepler架构带来的革命,网卡终于能直接读显存了
2010年的GPUDirect虽然香,但数据还是得绕道CPU的系统内存。这个额外跳转增加了延迟,带宽也被主机内存总线的速度限制。于是工程师们自然想到:为啥不能让网卡直接从GPU显存读数据?
这个问题的答案就是GPUDirect RDMA(远程直接内存访问),而实现它的关键是Kepler架构的GPU,具体型号是NVIDIA Tesla K40。
在老款GPU(Fermi及更早)上,PCIe和GPU显存之间的接口有根本限制。虽然显卡可能有6GB显存,但PCIe总线一次只能看到其中一小部分(通常约256MB,通过BAR1暴露)。要访问窗口外的数据,NVIDIA驱动(跑在CPU上)得重新编程BAR1映射,指向显存的其他区域。GPU得滑动这个窗口,CPU才能读到数据。这种重映射完全由CPU和驱动控制,网卡这种设备根本发不出"移动窗口"的命令,它只会发送"读取物理地址"的请求。没有稳定完整的显存映射视图,直接访问就是天方夜谭。
Kepler彻底改变了这个模型。NVIDIA把整个GPU显存地址空间直接暴露给PCIe总线,这意味着网卡可以随时访问显存中的任何位置,不需要CPU参与,也不需要重新映射窗口。网络第一次能把GPU显存当作一等RDMA目标。
软件层面,NVIDIA在CUDA 4.0中引入了GPUDirect RDMA支持,Mellanox则更新了MLNX_OFED驱动(也就是InfiniBand驱动),在ConnectX-3等适配器上实现了GPU显存和Mellanox网卡之间的真正点对点RDMA路径。两者结合,打通了GPU和网卡之间的直接数据通道:
GPU VRAM ⇄ Mellanox NIC ⇄ Network
程序员怎么用这功能?这里要致敬MPI(消息传递接口)的开发者们。MPI是HPC领域的标准库,用于在集群节点之间交换计算结果。以前MPI代码得先用cudaMemCpy把数据从GPU复制到CPU内存,再用MPI_Send发送。有了GPUDirect RDMA,MPI库直接更新,你可以直接调用MPI_Send(*gpu_mem_ptr),底层会告诉网卡直接去GPU显存读数据,cudaMemCpy(gpu2host)这一步被彻底消灭。
2013年,MPI核心开发者公开演示了这个更新,展示了GPUDirect RDMA带来的延迟和吞吐量提升。NVIDIA也发了详细的开发者博客,讲解如何在实践中使用CUDA-aware MPI并进行基准测试。
2019年:存储瓶颈被打破,SSD和GPU终于牵手
到了2010年代末,NVIDIA的目光转向了存储。GPUDirect Storage在2019年登场,让SSD能直接把数据喂给GPU,绕过CPU这个中间商。
传统数据路径是:SSD → CPU内存 → GPU显存。有了GPUDirect Storage,数据从NVMe SSD直接DMA到GPU显存,延迟大幅降低,CPU占用率也下来了。这对AI训练至关重要,因为数据集往往太大放不进显存,得从存储反复加载。
2019年还有件大事:NVIDIA以69亿美元收购了Mellanox。这桩婚事把计算和网络彻底绑在一起,Jensen Huang的数据中心愿景开始完整呈现。Mellanox的InfiniBand技术加上NVIDIA的GPU,形成了AI工厂的基础设施蓝图。
2022年至今:Spectrum-X和BlueField统治数据中心,正面刚Broadcom
收购完成后,NVIDIA开始用Mellanox的遗产构建完整的网络栈。Spectrum-X以太网平台和BlueField DPU(数据处理器)成为新武器。
Spectrum-X不是普通的以太网交换机,它是专门为AI工作负载设计的。传统以太网在AI集群里会遇到拥塞和延迟问题,Spectrum-X通过RoCE(RDMA over Converged Ethernet)和智能拥塞控制解决了这些痛点。它让GPU集群能像使用InfiniBand一样高效通信,但用的是更普及的以太网基础设施。
BlueField DPU更狠,这是一颗"网卡上的计算机"。BlueField-3集成了ARM核心,能卸载网络、存储、安全等任务。据NVIDIA说,一颗BlueField-3能替代大约300个CPU核心。这意味着数据中心可以把基础设施开销从CPU上卸下来,让更多算力跑应用。
Jensen Huang在2019年去以色列时就说过:数据中心才是新的计算单元,不是单个服务器。当时可能只有5%的服务器带GPU,但Huang看准了趋势。Kevin Deierling(NVIDIA网络高级副总裁,原Mellanox高管)回忆说,Huang是唯一真正理解这个愿景的行业领袖。
现在NVIDIA的网络产品线直接挑战博通Broadcom。ConnectX网卡和Spectrum交换机对标Broadcom的Tomahawk系列,BlueField DPU对标Broadcom的DPU方案。InfiniBand更是Broadcom没有的王牌,许多AI训练集群选择InfiniBand就是为了确定性性能。
回顾与未来:存储超级周期的信号早就亮了
回头看这十五年的技术演进,一条清晰的脉络浮现:NVIDIA和Mellanox每次都在解决"GPU太快,其他部件跟不上"的问题。从消除buffer copy,到RDMA直连,再到存储直通,最后到DPU卸载和智能网络,每一步都在把GPU推向数据中心的核心位置。
更重要的是,这场革命早就暗示了存储行业的超级周期。当GPUDirect Storage在2019年发布时,当AI训练需要海量数据吞吐时,当NVMe和NVMe-oF成为标配时,存储厂商如SNDK(SanDisk)、WD(Western Digital)的机会就已经注定。只是大部分人当时盯着GPU的算力数字,没看懂数据管道的重要性。
未来的数据中心会越来越像一台巨大的计算机,GPU是CPU,网络是主板总线,存储是内存扩展。NVIDIA通过Mellanox掌握了网络层,通过GPUDirect技术栈掌握了数据流动,通过CUDA生态锁定了软件层。这套组合拳让竞争对手很难插足。
Broadcom现在面临的是一个整合了计算、网络、存储的垂直巨头。NVIDIA不只是卖显卡,它在卖AI基础设施的完整解决方案。从芯片到交换机,从网卡到DPU,从软件到生态,Jensen Huang构建的护城河比大多数人想象的更深。
存储超级周期只是开始。当AI模型越来越大,当多模态数据爆炸式增长,当实时推理成为标配,数据移动的速度和效率将决定一切。NVIDIA和Mellanox十五年前埋下的种子,正在长成参天大树。
标题(SEO优化版)
NVIDIA收购Mellanox十五年前就已注定:从GPUDirect到BlueField的AI基础设施霸权之路
标题(冲击力版)
69亿美元娶回Mellanox!Jensen Huang如何用十五年把显卡变成AI时代的印钞机
摘要
NVIDIA与Mellanox从2009年GPUDirect技术合作到2019年69亿美元收购,通过消除GPU与网络、存储之间的数据瓶颈,逐步构建起AI数据中心基础设施霸权。从Shared Memory到RDMA直连,从Spectrum-X到BlueField DPU,Jensen Huang十五年前就预见GPU将成为计算核心,而存储超级周期的信号早已显现。
URL Slug
nvidia mellanox gpudirect ai infrastructure dominance
作者背景与独特性评价
Subbu是ChipLog的主笔,专注于半导体和数据中心基础设施的深度技术分析。不同于一般的财经分析师只会看股价和财报,Subbu的技术背景让他能读懂芯片架构层面的战略意图。这篇文章的独特之处在于它把十五年的技术演进串成了一条完整的叙事线,不是简单罗列产品发布,而是揭示了NVIDIA-Mellanox partnership背后的深层逻辑:每次GPU提速都会暴露新的瓶颈,而解决这些瓶颈的过程就是构建护城河的过程。
最狠的是Subbu指出了大多数人忽略的信号:存储超级周期。当所有人盯着NVIDIA的GPU算力时,他看懂了GPUDirect Storage和BlueField DPU对存储行业的预示。这种从芯片架构推导行业趋势的能力,是纯粹金融分析师做不到的。文章引用原始技术文档、TOP500榜单、SC大会记录等一手资料,论证扎实又有历史纵深感,读起来像看一部科技史诗。