SK海力士H³架构破解AI显存墙：HBM+HBF混合内存实现18倍批处理提升

SK海力士提出H³混合架构，结合HBM与高带宽闪存HBF，通过延迟隐藏缓冲区和菊花链连接，使LLM推理批处理提升18.8倍，能效提高2.69倍，并指出光互连是规模化关键。

万亿Token时代，内存不够？SK海力士把闪存焊上显存，还顺手给数据中心装了光缆！

SK海力士发布一套叫“H³”的混合架构——把高带宽内存（HBM）和高带宽闪存（HBF）焊在一起，硬生生把显存容量翻了十几倍。更绝的是，他们还在HBM底座里塞了个40MB的SRAM缓冲区，专门用来“骗过”慢悠悠的闪存延迟。

结果呢？原来需要32张B200显卡才能跑的1000万Token任务，现在两张卡就搞定，功耗效率还提升了2.69倍！

长上下文吃掉显存，HBM快被撑爆了

现在的AI大模型越来越贪吃，动不动就要处理几百万、上千万个Token的上下文。你以为这只是多读点书？错！每多一个Token，模型就得额外生成一堆Key-Value缓存数据，这些数据全得塞进显存里。以Llama 3.1 405B这种巨无霸为例，光是一个1000万Token的共享KV缓存，就要占掉5.4TB的空间！

什么概念？你现在买一张顶配的NVIDIA B200显卡，上面焊着192GB的HBM3e显存，连零头都不够。想跑这个任务？得堆32张卡，还得用InfiniBand网络把它们串起来。可问题是，显存贵得要死，HBM每GB的成本比黄金还夸张，谁家数据中心烧得起这钱？更别提这么多卡挤在一起，散热都成问题，机房空调得开到最大档，电费单能吓哭财务总监。所以，光靠堆HBM这条路，走到头就是悬崖。

HBF登场：容量大16倍的“慢速显存”

既然HBM又贵又小，那能不能找个便宜又大的替代品？SK海力士的答案是：High Bandwidth Flash，简称HBF，中文可以叫“高带宽闪存”。这玩意儿可不是你手机里那种普通闪存，它是把一堆NAND闪存芯片垂直叠起来，再用硅通孔（TSV）技术打通上下层，实现超高带宽互联。目标很明确：带宽要接近HBM，容量要碾压HBM。实测下来，HBF的容量能做到HBM的16倍！一张HBF模块就能塞下3TB数据，价格却远低于同等容量的HBM。

不过天下没有免费午餐，HBF也有软肋：读写延迟比HBM慢一大截，写入寿命短，而且每比特的功耗还高出4倍。听起来像是个“高容量低速选手”，但别急，后面有妙招。

不能直连GPU？那就玩“串糖葫芦”！

你可能会问：既然HBF这么香，为啥不直接焊在GPU旁边？答案很简单：物理空间不够！GPU芯片周围的“海岸线”（Shoreline）就那么一圈引脚，早被HBM占满了，根本没地方给HBF插队。SK海力士灵机一动：既然不能并排坐，那就串成一串！他们搞了个“菊花链”（Daisy-chain）结构：GPU先连HBM的底座芯片，HBM底座再通过Die-to-Die（D2D）接口连到HBF的底座芯片。

这样一来，GPU眼里看到的就不是两块独立内存，而是一整块超大“主存”，地址空间完全统一。你写代码时根本不用管数据到底存在HBM还是HBF里，系统自动调度。这操作，就像给你的电脑加了块超大机械硬盘，但操作系统把它伪装成内存的一部分，应用程序毫无察觉。

只读数据扔给HBF，读写频繁的留给HBM

HBF虽然慢，但它有个天然优势：只读场景下完全不怕写入寿命短。而大模型推理过程中，有两类数据天生就是“只读”的：一是预计算好的共享KV缓存，二是模型权重本身。这两样东西一旦生成或加载，就再也不变了，完美匹配HBF的特性。于是策略就定了：所有只读数据统统扔进HBF，省下宝贵的HBM空间。而那些需要实时生成、频繁读写的临时KV缓存，就老老实实待在高速HBM里。这样分工明确，各取所长。

HBM负责冲锋陷阵，HBF负责后勤囤货，整个系统既快又大，还不浪费资源。这就像打仗，精锐部队冲前线，粮草辎重放后方，井井有条。

闪存太慢？我用SRAM缓冲区“隐身术”！

最大的难题来了：HBF的读取延迟高达20微秒，比HBM慢几十倍。要是每次读数据都傻等20微秒，那整个推理速度直接崩盘。怎么办？SK海力士祭出杀手锏：Latency Hiding Buffer（LHB），中文叫“延迟隐藏缓冲区”。这玩意儿其实是个40MB大小的SRAM块，直接集成在HBM的底座芯片里。原理超聪明：因为大模型推理是逐层进行的，下一层要读哪些数据，上一层结束前就已经知道了。

所以系统可以提前把下一批数据从HBF预读到LHB里。等计算单元真正要用时，数据早就躺在高速SRAM里等着了，根本感觉不到HBF的慢。这就像你去餐厅吃饭，服务员提前把下一道菜端到传菜口，你筷子一伸就夹到，完全不用等厨房现炒。

40MB缓冲区只要8平方毫米，值了！

有人会担心：在HBM底座里塞40MB SRAM，会不会占太多面积？算笔账就放心了。按3纳米工艺的SRAM密度（每比特0.021平方微米）来算，40MB SRAM核心面积大约是6.72平方毫米。再加20%的控制电路开销，总共也就8.06平方毫米。而目前HBM底座芯片总面积约121平方毫米，LHB只占6.7%。

这点面积换来的可是16倍的容量扩展和2.69倍的能效提升，简直血赚！更何况，随着制程进步，未来SRAM密度还会更高，LHB的面积占比只会越来越小。这笔账，怎么算都划算。

模拟证明：两张卡干翻三十二张卡

由于HBF还没量产，SK海力士用自研分析模拟器做了全套验证。测试平台是NVIDIA B200 + HBM3e（192GB, 8TB/s），搭配假想的HBF（3TB容量, 8TB/s带宽）。结果震撼：处理100万Token序列时，H³架构能把批处理大小（batch size）提升2.6倍；到了1000万Token这种地狱级难度，批处理大小直接飙升18.8倍！原本需要32张B200才能塞下的任务，现在两张卡轻松搞定。

更夸张的是能效：虽然HBF单比特功耗高，但因为整体吞吐量暴涨6.14倍，最终每瓦特性能反而提升2.69倍。

就算把HBF带宽砍一半做压力测试，能效依然领先2.09倍。这说明H³架构不仅理论可行，而且鲁棒性极强。

光有H³还不够，数据中心得换“光缆血管”

到这里你可能觉得万事大吉，但真正的挑战才刚开始。H³让单卡处理能力暴涨，意味着节点间要传输的数据量也跟着爆炸。比如多个GPU要共享几TB的KV缓存，传统铜缆InfiniBand根本扛不住。铜线传电信号，距离一长就衰减，带宽上不去，功耗还高得离谱。这时候，光学互连（Optics）就成了必选项。只有用光信号代替电信号，才能在机柜之间、甚至跨机房传输海量数据而不掉速。

更重要的是，低功耗光I/O能保住H³辛苦攒下的能效优势。否则，内存省下的电，全被铜缆互连烧光了，总拥有成本（TCO）照样下不来。

未来AI基础设施要走向CXL内存池化，把HBF当成全数据中心共享的“内存云”，那就更离不开CXL over Optics这种黑科技。光有H³是心脏，光互连才是血管，缺一不可。

从单卡革命到光速基建，AI内存新纪元开启

所以你看，SK海力士这波操作不只是换个内存那么简单。它是一场从芯片到系统的全面革新：用HBF解决容量墙，用LHB掩盖延迟，用菊花链整合异构内存，最后用光互连打通数据中心任督二脉。

这套组合拳打下来，AI大模型的长上下文瓶颈被彻底击穿。以后你再也不用担心模型“记性差”，因为它背后站着一个由HBM、HBF和光缆组成的超级记忆体。这不仅是技术的胜利，更是工程智慧的结晶——在现实约束下，用最巧妙的架构设计，把不可能变成可能。

极客辣评：
不同于单纯堆叠HBM或依赖软件优化，H³首次将高带宽闪存HBF作为一级存储引入AI加速器内存子系统，并通过硬件级延迟隐藏与统一地址空间实现无缝融合。

其最大突破在于将“容量-带宽-能效”三角矛盾转化为协同优势，同时前瞻性指出光互连是释放H³规模效应的必要条件，为下一代AI基础设施提供了从芯片到系统的完整技术路径。

SK海力士H³架构破解AI显存墙：HBM+HBF混合内存实现18倍批处理提升

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道