英伟达推ICMS平台,以BlueField-4构建G3.5存储层,专治大模型KV缓存瓶颈,实现5倍吞吐与能效提升,联合WEKA、超微等打造AI推理新标准。
英伟达推出推理上下文内存存储平台,重塑大模型推理基础设施
英伟达正式发布名为“推理上下文内存存储”(Inference Context Memory Storage,简称ICMS)的全新架构,旨在解决当前大语言模型在长上下文、多轮对话和智能体工作流中面临的KV缓存瓶颈问题。
该平台以BlueField-4数据处理器为核心,构建了一个被称为“G3.5”的以太网连接闪存层级,专门用于在集群级别高效存储、共享和预加载KV缓存。
英伟达宣称,相比传统存储方案,ICMS可将每秒生成的令牌数提升最高5倍,同时将能效比提高同样幅度。
这一架构并非孤立硬件,而是与Dynamo推理框架、NIXL传输库和DOCA软件栈深度协同,目标是为2026年下半年Rubin时代的大规模AI推理集群提供标准化基础设施。多家主流存储厂商如戴尔、慧与、IBM、Pure Storage、超微、VAST Data和WEKA均已宣布支持,显示出英伟达正推动整个生态围绕KV缓存管理形成统一范式。
KV缓存为何成为大模型推理的“第一瓶颈”
在Transformer架构的推理过程中,KV缓存是决定性能的关键因素。
每当模型生成一个新词元(token),它都需要快速访问之前所有已处理词元对应的键(Key)和值(Value)向量,以维持注意力机制的连贯性。这部分数据无法压缩或跳过,且其体积随上下文长度线性增长。
以Llama 3 70B模型为例,单个用户保留128,000个词元的上下文,KV缓存就需占用约40GB内存;若上下文扩展至百万级别——这在智能体工作流中并不罕见——内存需求将变得极其庞大。
而GPU的高带宽内存(HBM)容量有限,通常仅几十GB,一旦被KV缓存占满,系统就无法同时处理更多并发会话。此时,要么牺牲并发度,要么反复重新计算历史上下文(即重做prefill阶段),但这会显著增加延迟和能耗。
更复杂的是,智能体任务不仅涉及用户输入的长文本,还包括工具调用记录、外部检索结果、内部推理轨迹等,进一步放大了KV缓存的规模。因此,如何高效管理这一“既关键又可再生”的状态数据,已成为提升推理效率的核心挑战。
ICMS架构:打造专为KV缓存优化的“G3.5”存储层
为应对上述挑战,英伟达提出四层存储层级模型:G1为GPU HBM,G2为系统DRAM,G3为本地或机架级SSD,G4为共享持久化对象存储。而ICMS则在G3与G4之间插入一个全新的“G3.5”层级——这是一个通过Spectrum-X以太网RDMA连接的、集群级别的闪存池,专为KV缓存设计。
与传统企业存储不同,G3.5不强调强一致性、多重复制或复杂元数据管理,因为KV缓存本质上是可再生的:即使丢失,也可通过重新运行前向传播恢复,只是代价较高。
因此,ICMS舍弃了不必要的持久化开销,专注于低延迟、高吞吐的读写性能,并通过硬件预加载机制,在用户思考间隙或任务调度窗口期,将可能用到的KV块提前从闪存拉入DRAM或HBM,从而避免在解码关键路径上触发远程I/O。
这种设计将KV缓存从孤立的节点状态转变为可跨GPU共享的基础设施资源,使得整个推理集群能像操作内存一样操作上下文,极大提升了资源利用率和任务连续性。
BlueField-4:不只是DPU,更是KV缓存的“交通指挥中心”
ICMS的核心硬件载体是BlueField-4数据处理器。它不仅是网络接口卡,更是整个G3.5层级的控制中枢。BlueField-4配备64核Arm Neoverse V2 CPU(相比前代BlueField-3的16核A78大幅提升)、高达250GB/s的LPDDR内存带宽、128GB内存容量,以及800Gb/s的高速网络接口。
更重要的是,它内置硬件加速引擎,可在不消耗主机CPU资源的前提下,完成RDMA协议处理、数据加密、CRC校验等任务,确保敏感的用户提示和会话状态在传输过程中的安全与低延迟。
尽管外界有观点认为“网络连接NVMe闪存”并非全新概念——BlueField-3时代已有类似方案——但BlueField-4的关键价值在于提供了足够的计算与带宽冗余,使KV缓存的迁移、放置和预取决策能在数据平面实时执行,而非依赖外部x86控制器。
换句话说,BlueField-4不是发明了新硬件形态,而是为软件定义的KV流水线提供了可靠的运行底座,让“KV即服务”成为可能。
软件栈协同:Dynamo、NIXL、DOCA与Grove构建完整生态
硬件只是基础,真正的差异化在于软件。
英伟达的Dynamo推理框架负责全局KV缓存调度,决定何时将哪些KV块从HBM卸载到G3.5,又在何时预取回来。
NIXL作为低延迟传输库,提供插件化接口,允许第三方存储厂商无缝接入Dynamo的KV管理逻辑。
DOCA则提供了KV通信与存储的底层API,支持标准NVMe及NVMe-oF协议,甚至包括专为键值操作优化的NVMe KV扩展。
此外,Grove拓扑感知调度器确保任务被分配到靠近其所需KV缓存的GPU上,避免因任务迁移导致缓存失效。
这一整套软件栈共同将KV缓存从“临时副产品”转变为“一级资源”,使其具备流动性、可共享性和可编排性。WEKA等合作伙伴已基于此推出“增强内存网格”和“令牌仓库”概念,声称在处理128K上下文时,首词元响应时间可加快20倍,充分验证了软件协同带来的实际收益。
生态联盟与硬件部署:从JBOF机箱到PB级上下文池
ICMS并非英伟达独揽的封闭系统,而是一个开放的生态系统。
超微、AIC等ODM厂商已推出集成BlueField-4的2U JBOF(Just a Bunch of Flash)机箱,单机箱支持最多32块E3.S NVMe SSD,若采用256TB高密度盘,总容量可达8PB。
AIC的F2032-G6机型可配置2至4颗BlueField-4 DPU,每颗提供800Gb/s吞吐能力,配合ConnectX-9网卡和Spectrum-X交换机,构成完整的推理上下文基础设施。
WEKA展示的8节点集群可实现750万读IOPS和100万写IOPS,
VAST则主张将存储服务直接运行在嵌入GPU服务器的DPU上,减少独立控制器开销。
这些方案虽实现路径不同,但都围绕同一目标:将KV缓存从GPU内存中解放出来,转化为集群级共享资源。行业共识是,“支持ICMS”将成为未来AI存储设备的标配,竞争焦点将转向实际部署中的隔离性、抖动控制和运维便捷性。
性能与经济性:何时值得投资ICMS?
ICMS的价值高度依赖于缓存复用率。
在多轮对话、智能体规划或批量处理共享前缀请求的场景中,保留历史KV可避免昂贵的重计算,显著提升首词元响应速度和整体吞吐。
例如,用户提问后等待10秒再追问,系统可利用这段时间将KV从G3.5预加载回HBM,实现“无缝续聊”。但在单次、无复用的短任务中,频繁搬运KV反而成为负担。
因此,ICMS最适合高并发、长会话、高交互性的服务。
此外,其经济性还体现在能效上——英伟达指出,AI工厂的最大瓶颈已从算力转向电力供应。传统存储为保障数据持久性而引入的冗余校验、后台同步等机制,在KV这种可再生数据上纯属浪费。
G3.5通过精简协议栈,将每瓦特生成的令牌数最大化,即便绝对延迟略高于HBM,只要能提升GPU整体利用率,就具备显著优势。
竞争格局:暂无对手,但替代方案仍在演进
目前,AMD和英特尔尚未推出对标ICMS的专用KV缓存架构。
不过,系统级替代方案依然存在。例如,通过NVLink-C2C实现CPU与GPU内存统一寻址,可将主机DRAM作为KV溢出区,适用于中小规模部署。同时,模型侧优化如分组查询注意力(GQA)、KV量化压缩、稀疏注意力等技术也在持续缩小KV体积。
然而,上下文长度和智能体复杂度的增长速度可能远超压缩效率的提升。英伟达及其伙伴的判断是:“上下文膨胀”是长期趋势,专用存储层仍有广阔空间。
更重要的是,ICMS本质是一次平台化行动——通过DOCA/NIXL接口标准化KV管理,将原本碎片化的解决方案整合为统一生态,从而巩固自身在AI基础设施中的主导地位。
战略意图:从GPU到全栈AI工厂的垂直整合
ICMS标志着英伟达从芯片供应商向全栈AI基础设施提供商的深度转型。通过将DPU、网络、存储和推理软件捆绑为“AI工厂”参考架构,英伟达不仅拉动了BlueField和ConnectX产品的销售,更通过API和验证设计增强了客户粘性。
值得注意的是,提升单GPU并发能力理论上可能减少GPU采购总量,看似不利。
但英伟达的逻辑是:降低推理成本将激发更多应用场景,扩大整体token需求总量,最终带动GPU出货增长。
这与亚马逊通过Annapurna Labs自研芯片优化AWS服务成本的策略如出一辙。
近期英伟达斥资约9亿美元收购Enfabrica相关技术,也印证了其对集群级内存与互连优化的高度重视。ICMS正是这一战略的具体体现——控制数据如何流动、状态如何管理、任务如何调度,从而定义下一代AI基础设施的标准。
风险与挑战:理想很丰满,落地需谨慎
尽管前景广阔,ICMS仍面临多重风险。首先是延迟与尾部抖动问题——若网络拥塞或预加载失败,导致解码阶段被迫读取远程闪存,用户体验将急剧恶化。
Spectrum-X的拥塞控制和自适应路由是关键防线,但实际效果取决于部署质量。
其次是数据语义权衡:将KV视为临时数据虽提升效率,但若高价值会话因缓存丢失而需重算,可能违反服务等级协议(SLO),迫使用户额外增加持久化层,抵消部分收益。
第三是运维复杂度——ICMS将GPU、DPU、RDMA网络、闪存阵列和调度器深度耦合,任一环节故障都可能引发连锁反应,对可观测性和工具链提出极高要求。
第四是标准化与碎片化之间的张力:若DOCA接口保持开放,生态繁荣;若过度绑定英伟达私有扩展,则可能引发客户对供应商锁定的担忧。
最后,模型架构的颠覆性创新(如非Transformer结构)可能从根本上削弱KV缓存的重要性,使G3.5层级失去存在意义。
尽管当前趋势仍支持长上下文发展,但技术演进永远充满不确定性。