万亿Token时代,内存不够?SK海力士把闪存焊上显存,还顺手给数据中心装了光缆!
SK海力士 发布一套叫“H³”的混合架构——把高带宽内存(HBM)和高带宽闪存(HBF)焊在一起,硬生生把显存容量翻了十几倍。更绝的是,他们还在HBM底座里塞了个40MB的SRAM缓冲区,专门用来“骗过”慢悠悠的闪存延迟。
结果呢?原来需要32张B200显卡才能跑的1000万Token任务,现在两张卡就搞定,功耗效率还提升了2.69倍!
长上下文吃掉显存,HBM快被撑爆了
现在的AI大模型越来越贪吃,动不动就要处理几百万、上千万个Token的上下文。你以为这只是多读点书?错!每多一个Token,模型就得额外生成一堆Key-Value缓存数据,这些数据全得塞进显存里。以Llama 3.1 405B这种巨无霸为例,光是一个1000万Token的共享KV缓存,就要占掉5.4TB的空间!
什么概念?你现在买一张顶配的NVIDIA B200显卡,上面焊着192GB的HBM3e显存,连零头都不够。想跑这个任务?得堆32张卡,还得用InfiniBand网络把它们串起来。可问题是,显存贵得要死,HBM每GB的成本比黄金还夸张,谁家数据中心烧得起这钱?更别提这么多卡挤在一起,散热都成问题,机房空调得开到最大档,电费单能吓哭财务总监。所以,光靠堆HBM这条路,走到头就是悬崖。
HBF登场:容量大16倍的“慢速显存”
既然HBM又贵又小,那能不能找个便宜又大的替代品?SK海力士的答案是:High Bandwidth Flash,简称HBF,中文可以叫“高带宽闪存”。这玩意儿可不是你手机里那种普通闪存,它是把一堆NAND闪存芯片垂直叠起来,再用硅通孔(TSV)技术打通上下层,实现超高带宽互联。目标很明确:带宽要接近HBM,容量要碾压HBM。实测下来,HBF的容量能做到HBM的16倍!一张HBF模块就能塞下3TB数据,价格却远低于同等容量的HBM。
不过天下没有免费午餐,HBF也有软肋:读写延迟比HBM慢一大截,写入寿命短,而且每比特的功耗还高出4倍。听起来像是个“高容量低速选手”,但别急,后面有妙招。
不能直连GPU?那就玩“串糖葫芦”!
你可能会问:既然HBF这么香,为啥不直接焊在GPU旁边?答案很简单:物理空间不够!GPU芯片周围的“海岸线”(Shoreline)就那么一圈引脚,早被HBM占满了,根本没地方给HBF插队。SK海力士灵机一动:既然不能并排坐,那就串成一串!他们搞了个“菊花链”(Daisy-chain)结构:GPU先连HBM的底座芯片,HBM底座再通过Die-to-Die(D2D)接口连到HBF的底座芯片。
这样一来,GPU眼里看到的就不是两块独立内存,而是一整块超大“主存”,地址空间完全统一。你写代码时根本不用管数据到底存在HBM还是HBF里,系统自动调度。这操作,就像给你的电脑加了块超大机械硬盘,但操作系统把它伪装成内存的一部分,应用程序毫无察觉。
只读数据扔给HBF,读写频繁的留给HBM
HBF虽然慢,但它有个天然优势:只读场景下完全不怕写入寿命短。而大模型推理过程中,有两类数据天生就是“只读”的:一是预计算好的共享KV缓存,二是模型权重本身。这两样东西一旦生成或加载,就再也不变了,完美匹配HBF的特性。于是策略就定了:所有只读数据统统扔进HBF,省下宝贵的HBM空间。而那些需要实时生成、频繁读写的临时KV缓存,就老老实实待在高速HBM里。这样分工明确,各取所长。
HBM负责冲锋陷阵,HBF负责后勤囤货,整个系统既快又大,还不浪费资源。这就像打仗,精锐部队冲前线,粮草辎重放后方,井井有条。
闪存太慢?我用SRAM缓冲区“隐身术”!
最大的难题来了:HBF的读取延迟高达20微秒,比HBM慢几十倍。要是每次读数据都傻等20微秒,那整个推理速度直接崩盘。怎么办?SK海力士祭出杀手锏:Latency Hiding Buffer(LHB),中文叫“延迟隐藏缓冲区”。这玩意儿其实是个40MB大小的SRAM块,直接集成在HBM的底座芯片里。原理超聪明:因为大模型推理是逐层进行的,下一层要读哪些数据,上一层结束前就已经知道了。
所以系统可以提前把下一批数据从HBF预读到LHB里。等计算单元真正要用时,数据早就躺在高速SRAM里等着了,根本感觉不到HBF的慢。这就像你去餐厅吃饭,服务员提前把下一道菜端到传菜口,你筷子一伸就夹到,完全不用等厨房现炒。
40MB缓冲区只要8平方毫米,值了!
有人会担心:在HBM底座里塞40MB SRAM,会不会占太多面积?算笔账就放心了。按3纳米工艺的SRAM密度(每比特0.021平方微米)来算,40MB SRAM核心面积大约是6.72平方毫米。再加20%的控制电路开销,总共也就8.06平方毫米。而目前HBM底座芯片总面积约121平方毫米,LHB只占6.7%。
这点面积换来的可是16倍的容量扩展和2.69倍的能效提升,简直血赚!更何况,随着制程进步,未来SRAM密度还会更高,LHB的面积占比只会越来越小。这笔账,怎么算都划算。
模拟证明:两张卡干翻三十二张卡
由于HBF还没量产,SK海力士用自研分析模拟器做了全套验证。测试平台是NVIDIA B200 + HBM3e(192GB, 8TB/s),搭配假想的HBF(3TB容量, 8TB/s带宽)。结果震撼:处理100万Token序列时,H³架构能把批处理大小(batch size)提升2.6倍;到了1000万Token这种地狱级难度,批处理大小直接飙升18.8倍!原本需要32张B200才能塞下的任务,现在两张卡轻松搞定。
更夸张的是能效:虽然HBF单比特功耗高,但因为整体吞吐量暴涨6.14倍,最终每瓦特性能反而提升2.69倍。
就算把HBF带宽砍一半做压力测试,能效依然领先2.09倍。这说明H³架构不仅理论可行,而且鲁棒性极强。
光有H³还不够,数据中心得换“光缆血管”
到这里你可能觉得万事大吉,但真正的挑战才刚开始。H³让单卡处理能力暴涨,意味着节点间要传输的数据量也跟着爆炸。比如多个GPU要共享几TB的KV缓存,传统铜缆InfiniBand根本扛不住。铜线传电信号,距离一长就衰减,带宽上不去,功耗还高得离谱。这时候,光学互连(Optics)就成了必选项。只有用光信号代替电信号,才能在机柜之间、甚至跨机房传输海量数据而不掉速。
更重要的是,低功耗光I/O能保住H³辛苦攒下的能效优势。否则,内存省下的电,全被铜缆互连烧光了,总拥有成本(TCO)照样下不来。
未来AI基础设施要走向CXL内存池化,把HBF当成全数据中心共享的“内存云”,那就更离不开CXL over Optics这种黑科技。光有H³是心脏,光互连才是血管,缺一不可。
从单卡革命到光速基建,AI内存新纪元开启
所以你看,SK海力士这波操作不只是换个内存那么简单。它是一场从芯片到系统的全面革新:用HBF解决容量墙,用LHB掩盖延迟,用菊花链整合异构内存,最后用光互连打通数据中心任督二脉。
这套组合拳打下来,AI大模型的长上下文瓶颈被彻底击穿。以后你再也不用担心模型“记性差”,因为它背后站着一个由HBM、HBF和光缆组成的超级记忆体。这不仅是技术的胜利,更是工程智慧的结晶——在现实约束下,用最巧妙的架构设计,把不可能变成可能。
极客辣评:
不同于单纯堆叠HBM或依赖软件优化,H³首次将高带宽闪存HBF作为一级存储引入AI加速器内存子系统,并通过硬件级延迟隐藏与统一地址空间实现无缝融合。
其最大突破在于将“容量-带宽-能效”三角矛盾转化为协同优势,同时前瞻性指出光互连是释放H³规模效应的必要条件,为下一代AI基础设施提供了从芯片到系统的完整技术路径。