先给你整明白这篇文章到底在说啥
TrendForce的机构发了个报告,说英伟达接下来要搞个大事情。这个事儿不是简单的显卡升级,而是要让显卡直接指挥硬盘干活。以前硬盘干活得先问CPU,CPU说行了你再干,现在显卡想自己说了算。这个变化要是真搞成了,那以后AI工厂里的内存体系就彻底变了。
最核心的观点不是某种新技术要取代另一种,而是以后AI服务器里会有好几层内存:
- 最顶层的HBM还是干最苦最累的活儿,要求速度最快;
- 中间可能会多一层叫HBF的东西,用闪存做的,容量特别大,专门存那些不太经常改动的模型数据;
- 最底下就是普通的SSD和网络存储,存那些不着急用的东西。
这个三层结构如果真能跑通,英伟达的控制力会更强,做闪存的厂家能赚到新钱,做传统CPU架构的厂家会难受。
这事儿为啥重要
报告本身只是一个信号。真正重要的是它指向了一个方向。以前的电脑干活,CPU是老大,所有东西都得经过它。显卡再厉害,想从硬盘拿数据也得先跟CPU打招呼。现在显卡自己就成了老大,硬盘直接听显卡的。这就像公司里以前所有部门都得跟总经理汇报,现在销售总监可以直接调配仓库的货,不用再等总经理批条子了。
这个变化对做闪存的公司比如西部数据、铠侠、海力士、三星、美光来说,是个全新的增长点。过去闪存市场总是起起落落,现在AI给它们开辟了一条高端路线。对于HBM的龙头老大们来说,短期内不但没坏处,反而因为AI算力需求越来越大,他们跟着吃肉。
真正难受的是那些靠CPU搬运数据吃饭的公司,还有那些做普通硬盘没啥特色的厂商。
报告到底说了啥
TrendForce的报告讲了两个大厂在搞的新技术。一个是英伟达,一个是亚马逊。他们都在研究怎么让显卡直接管硬盘。报告里提到英伟达计划从Vera Rubin这一代产品开始,搞一个叫GPU直接发起存储访问的东西,英文缩写GIDS。这玩意儿跟现在已经在用的GPUDirect Storage完全是两码事。现在的GDS虽然也快,但本质上还是CPU先发出读数据的指令,然后数据才从硬盘传到显卡。GIDS的意思是不用CPU掺和了,显卡自己就能发起这个命令。
报告里还引用了一个韩国教授的话,说现在CPU的线程数根本跟不上显卡的并行规模,而且显卡和HBM之间来回传数据能吃掉整个系统一半的电。所以把闪存靠近显卡放,在省电和扩容上都有意义。
报告里最抓眼球的是一个数学对比。他们说闪存的存储密度是DRAM的三十倍。如果原来用八个HBM堆叠,换成六个HBF加上两个HBM的混搭方案,内存容量能从192GB暴涨到3120GB,整整翻了十六倍多。这个算法跟闪迪公开的数据基本对得上。闪迪说他们第一代HBF,十六颗Die堆在一起,能干到512GB容量和每秒1.6TB的读取带宽。但是注意,这个对比只是比容量,没比延迟、没比寿命、没比随机访问的性能,也没比软件调度的难度和总拥有成本。而且它用的192GB基线是八颗每颗24GB的HBM配置。
英伟达官方说的Vera Rubin NVL72机柜里,每72颗显卡共享20.7TB的HBM4,平均每颗显卡有288GB。所以那个十六倍的结论只能看个大概方向,不能直接套到真实产品上算账。
报告也老实说了闪存的最大短板,就是写入寿命。闪存的擦写次数大概十万次,DRAM基本可以忽略这个限制。所以HBF最适合干的事儿是存那些在推理过程中基本只读不改的模型参数。如果你的数据写得多、或者需要特别快的随机访问、或者对延迟要求极其苛刻,那HBF就不太合适,除非软件层面能通过预取、批处理和 locality 调度把这些延迟藏起来。
技术层面到底怎么理解
现在已经在用的GDS技术,说白了就是让数据能从硬盘直接传到显卡,中间不用先在CPU内存里倒一手。这已经减少了CPU的负担。但NVIDIA的官方文档也说了,GDS还是需要CPU来发起和管理整个流程。而报告里说的GIDS,改变的不只是数据路径,更是控制路径。
如果用大白话解释,GDS就像是你想搬东西,还得老板签字你才能搬。GIDS就是你自己就能签字,搬完了给老板看一眼就行。
这个区别在AI推理里特别要命,因为现在的AI推理瓶颈早就不是算力不够了,而是数据搬不动。尤其是那些超大模型,每生成一个词都要把整个模型权重刷一遍。
在智能体系统里更惨,因为多步调用工具、超长上下文、多个智能体互相说话,每一步都要读越来越多的状态数据。
英伟达自己宣传Vera Rubin的时候,重点就放在万亿参数的MoE模型、超长上下文窗口、累积的KV缓存、高并发推理这些场景上。每机柜20.7TB的HBM4和每秒1.6PB的带宽,这些数字本身就说明内存墙已经是最大的问题了。
最有可能的实现路径,绝对不是显卡能像访问HBM一样随便访问普通SSD。更现实的架构是软件管理下的多层结构。最热的干活数据在HBM里,中间只读的模型权重和冷门专家在HBF里,蓝 field DPU或者类似的东西负责安全、虚拟化和数据服务,显卡的运行时和编译器根据模型执行的情况提前把数据搬好。
关键就看英伟达能不能把闪存的延迟藏在模型执行的可预测性和大规模并行后面。如果模型权重、专家参数、上下文块都能提前算好什么时候用,提前搬到HBF里,那HBF就像个容量巨大且带宽不低的缓存。如果访问是细粒度的、完全随机的、依赖数据内容的,那闪存的延迟就会暴露出来,显卡就得干等。
这也解释了为什么HBF会先在推理上落地,而不是训练。训练的时候写入量大,优化器状态要频繁更新,激活值要反复存,梯度要同步,对内存一致性要求更高。推理的时候主要是读模型权重,更容易优化。
闪迪自己也明说HBF就是给AI推理用的,说能做到八到十六倍的HBM容量,同样带宽,同样成本,在跑Llama 3.1 405B的8位权重时,模拟性能能达到无限容量HBM的百分之九十八。这个数据当然好看,但只是内部模拟,而且只测了只读的预训练权重,不代表能替代通用DRAM。
HBF和HBM到底啥关系
至少到2027年,HBF都是HBM的补充,不是替代。HBM还是干那些低延迟、高带宽、高写入寿命的活儿。它装的是最热的那部分模型分片、激活值、注意力状态和对延迟敏感的KV缓存。HBF干的是装那些读得多、写很少、又贵到塞不进HBM的数据。最恰当的类比不是闪存取代DRAM,而是闪存在HBM和SSD之间多了一档。海力士和闪迪自己也是这么说的,HBF就是超快的HBM和大容量SSD中间的新层。
经济学上这事儿有吸引力,因为HBM的扩容受限于DRAM晶圆供应、硅通孔产能、先进封装良率、功耗和客户认证。HBF靠闪存的密度优势,能在同样面积里塞多得多的容量。闪迪说第一代HBF十六颗Die堆出512GB和每秒1.6TB读带宽,第二代和第三代计划干到每秒2TB和3.2TB读带宽,每堆容量到1TB和1.5TB,功耗还更低。这些目标要是能实现,推理用的高容量内存层就真的有了。但还是那句话,延迟和写入寿命的差距依然存在。
所以那些说HBM要完蛋的观点,长期看有道理,但有前提条件。如果HBF真的标准化了、量产认证了、被英伟达和AMD的软件栈广泛支持了,那未来的系统每服务一个参数需要的HBM确实会变少,尤其是稀疏的MoE推理,不活跃的专家可以放在HBM外面。但是模型越做越大,上下文越来越长,一般很快就把省下来的内存吃掉了。历史经验告诉我们,内存上的节约从来不会让高端内存的采购额下降,只会让能干更大活的系统变多。
在基准情景下,HBF的作用是解除了限制模型规模的那个紧箍咒,提高了显卡的利用率,从而让整个AI基础设施的投资回报率更高,HBM作为最热的那一层依然有市场。
更近期的风险不是HBM的量被替代,而是HBM供应商的议价能力。如果英伟达真的能用HBF和存储类的上下文内存来补充HBM容量,那它对任何一个HBM供应商的依赖程度都会边际降低。这不会消除HBM的稀缺性,但如果HBF真的成了扩容的标准选项,长期看HBM厂商的战略杠杆会被削弱一点。短期内这个因素被持续的HBM4需求盖过了。
英伟达最新的财报说数据中心一个季度干了752亿美元收入,同比涨了百分之九十二,下个季度指引到910亿美元,而且还没算中国的数据中心收入。这些数字说明近期的需求还是受限于高端AI平台的供应能力,不是需求不够。
什么活儿最适合HBF
最干净最直接的使用场景就是存推理用的模型参数,尤其是大的MoE模型。MoE每生成一个词只会激活一小部分专家,剩下大部分专家都在那闲着。如果能把不活跃的专家存在HBF里,用的时候提前搬到HBM,那就能大大减少单卡需要塞进去的模型大小。这个收益在稠密模型上就没那么明显,因为稠密模型每次推理都要读全部权重,HBF的带宽必须足够高才不会成为瓶颈。稠密模型也能从更大的内存容量里受益,但如果HBF成了关键路径上的一环,预取做得不够好就会卡住。
第二个大场景是超长上下文推理。几十万甚至上百万token的上下文会产生巨大的KV缓存。英伟达自己的CMX上下文内存平台就是专门干这个的,把对延迟敏感的推理上下文预先存好,提高显卡利用率。英伟达自己宣传能做到五倍的每秒token数和五倍的能效。这个方向跟TrendForce的报告高度一致,哪怕GIDS的具体机制还没正式确认。CMX和STX已经证明,英伟达在Vera Rubin这一代就在把上下文内存产品化成一个独立的内存层。
第三个受益的是检索增强生成、向量搜索、推荐系统和数据密集型训练周边的工作流。这些负载经常涉及大型外部语料库、嵌入表、稀疏特征查询或者检索步骤,不太适合直接塞进HBM里。显卡直接指挥存储可以减少CPU开销、降低数据拷贝延迟、让显卡集群在处理混合推理加检索的流水线时更高效。但是延迟的波动和尾部延迟非常关键。一个架构如果提高了平均带宽但搞坏了百分之九十九分位延迟,那对于高端的智能体服务就不太有吸引力。
英伟达在Vera Rubin的宣传里,重点强调低延迟、长上下文、高吞吐的智能体推理,这意味着任何存储层的创新都得用端到端的token延迟和利用率来衡量,不能只看原始带宽。
这事儿靠谱吗,啥时候能见到
报告作为方向性的技术信号,可信度中等。作为英伟达具体产品功能的披露,可信度偏低。方向性可信有四个独立的数据点支撑。
第一,英伟达现有的GDS文档已经表明他们在做存储和显卡之间的高速通道。
第二,英伟达官方宣布的BlueField-4 STX和CMX证明他们确实在把上下文内存单独做一层。
第三,闪迪和海力士已经在搞HBF的标准化工作。
第四,多个闪存厂商都在搞AI用的高带宽或低延迟闪存。
不太可信的部分是报告里说的GIDS这个具体功能会在Vera Rubin上以那种精确的形式出现,因为英伟达官方我看过的材料里没用过GIDS这个说法。
商业化时间不太可能是一刀切的。
第一层货币化其实已经看得见了,就是高性能SSD、DPU、网卡和AI存储参考架构比如BlueField-4 STX。
第二层是2026到2027年的原型和样品阶段HBF。TrendForce报道说闪迪在搞HBF原型产线,二零二六年下半年出原型,年底试产,二零二七年商业化。海力士和闪迪已经启动了OCP的HBF标准化工作流,但海力士自己也说复杂的存储方案包括HBF的需求预计要到二零三零年左右才会起来。
这说明是个分阶段的曲线:二零二六到二零二七年早期样品和超大规模客户认证,二零二七到二零二八年专门化部署,再往后如果软件支持和生产经济学验证了,才会更广泛地标准化。
技术路径上坑不少。显卡直接指挥存储要解决命令提交、内存保护、虚拟地址、多租户隔离、文件系统和对象语义、错误处理、磨损均衡、加密、遥测以及跨几千张显卡的协同。闪存的页大小和SSD的最优访问尺寸跟显卡warp级别的细粒度内存操作天然对不上。HBF可以通过大规模并行、硅通孔堆叠、控制器逻辑、预取和软件管理的放置来克服一部分,但运行时软件栈必须能感知多层结构。
这正是英伟达结构上有优势的那种协同设计问题,但同时也意味着这东西大概率先在英伟达自己优化的推理栈里用起来,之后才会变成通用的可移植方案。