绕过CPU!HighPoint新卡让GPU直连硬盘,AI训练快到飞起


HighPoint发布支持GPUDirect的PCIe 5.0智能交换卡Rocket 7638D,实现GPU与NVMe直连,带宽达64GB/s,大幅提升AI训练效率。

在本周四,全球领先的存储与扩展解决方案厂商HighPoint正式发布了其划时代新品——Rocket 7638D PCIe 5.0智能交换卡。这款产品可不是普通的扩展卡,它专为打通AI训练与推理中的“最后一公里”瓶颈而生,真正实现了GPU与NVMe固态硬盘之间的“直连通信”,彻底绕过CPU和系统内存,让数据传输快到飞起!

你可能会问,这到底有多厉害?简单来说,传统AI训练过程中,数据从高速NVMe硬盘读取后,必须先经过CPU处理、再写入系统内存,最后才被GPU调用。这个过程不仅浪费宝贵的CPU资源,还会造成延迟和带宽瓶颈。而HighPoint的Rocket 7638D,配合NVIDIA从A100开始支持的GPUDirect Storage技术,直接让GPU“伸手”去拿硬盘里的数据,中间不经过任何“中介”,真正实现端到端零拷贝、低延迟、高吞吐的数据通路。

说到GPUDirect,这可是英伟达NVIDIA近年来在AI基础设施领域埋下的关键伏笔。从A100、H100,一直到最新的Blackwell架构GPU,都原生支持这项技术。但问题来了:光有GPU支持还不够!整个PCIe链路中的交换芯片也必须具备P2P DMA(点对点直接内存访问)能力,否则GPUDirect就无法启用。遗憾的是,市面上绝大多数PCIe Gen5交换芯片并不支持这一关键功能。这就像你家装了千兆宽带,但路由器还是百兆的,速度根本跑不满。

HighPoint显然看准了这个痛点。他们这次在Rocket 7638D中搭载了博通(Broadcom)最新一代的PEX 89048 PCIe 5.0交换芯片——这颗芯片不仅拥有完整的P2P DMA支持,内部还集成了一颗ARM架构的微控制器,让整张卡具备独立运行和自我管理的能力。这意味着什么?意味着这张卡不仅能在Intel和AMD的x86服务器上完美运行,还能无缝适配基于ARM架构的新型服务器平台,比如Ampere Altra或华为鲲鹏系列,真正做到“全平台兼容”。

更令人惊叹的是它的物理布局设计。Rocket 7638D总共提供48条PCIe 5.0通道,被巧妙地划分为三个16通道的独立通道组:其中16条用于连接主机主板,确保与CPU的高速通信;另外16条通过CDFP CopprLink高速连接器,专门用于外接GPU扩展箱——这在多GPU训练集群中极为实用;最后16条则全部分配给内部NVMe存储,通过MCIO 8i接口,最多可直连16块高性能NVMe固态硬盘。按目前单盘最大128TB计算,整套系统可轻松构建高达2PB(2000TB)的超高速本地存储池,完全满足大模型训练对海量数据集的苛刻需求。

重点来了!当这套系统配合支持GPUDirect Storage的软件栈(包括Linux内核5.10以上版本、NVIDIA最新驱动、以及支持GDS的文件系统如XFS或BlueField DPU加速方案)时,数据传输带宽可稳定达到64GB/s,延迟极低且高度可预测。这对于需要反复读取TB级训练数据的AI工作负载来说,简直是性能飞跃。想象一下,过去训练一个百亿参数模型可能需要数周,现在或许能缩短30%甚至更多时间,同时释放出大量CPU资源用于其他任务,整体集群效率大幅提升。

HighPoint作为一家深耕存储与PCIe扩展领域超过25年的老牌厂商,其技术积累不容小觑。公司总部位于美国加州,长期为全球超算中心、AI实验室、军工及金融行业提供高可靠、低延迟的I/O解决方案。他们此前推出的Rocket系列RAID卡和NVMe扩展卡已在多个国家级科研项目中部署。此次推出Rocket 7638D,标志着HighPoint正式切入AI基础设施核心赛道,与NVIDIA生态深度绑定。

值得一提的是,这张卡还内置了多项面向大规模部署的运维功能。比如VPD(Vital Product Data)硬件追踪系统,能自动记录每块卡的固件版本、生产批次和配置信息,确保在成百上千节点的数据中心中快速定位和更换故障硬件。此外,配套的健康监控工具可实时显示PCIe链路状态、温度、错误计数等关键指标,极大简化了运维复杂度。对于正在建设AI超算集群或私有云平台的企业来说,这些细节往往决定了系统的长期稳定性和TCO(总拥有成本)。

虽然HighPoint官方尚未公布Rocket 7638D的具体售价,但业内普遍预计其定位属于高端专业市场,初期可能主要面向系统集成商(SI)和OEM厂商供货。不过可以肯定的是,随着AI训练数据规模持续爆炸式增长,这种能打通“存储-计算”直连通道的智能交换卡,将成为下一代AI服务器的标准配置。未来,我们或许会在更多AI一体机、边缘训练节点甚至自动驾驶数据处理平台上看到它的身影。

最后划重点:HighPoint Rocket 7638D不是一张普通的PCIe扩展卡,它是构建高性能AI基础设施的关键拼图。它解决了GPUDirect落地的最后一环,让GPU真正“看见”存储,让数据流动如血液般畅通无阻。如果你正在规划下一代AI训练平台,这张卡绝对值得你放进BOM清单!