这玩意儿听起来像个冷门技术名词,可实际上,它是当今全球半导体江湖中最炙手可热的“武林秘籍”。
简单说,HBM就是“高频宽内存”的缩写,它是一种特别的DRAM内存。您可以把普通内存想象成平房,一家一户挨着住;而HBM呢,则是摩天大楼,是把内存芯片像盖高楼一样,一层层垂直堆叠起来。连接这些“楼层”的,可不是普通的楼梯电梯,而是直接在硅片内部打通的无数个微型“隧道”,学名叫TSV(硅通孔)。这些TSV让堆叠起来的内存芯片能直接对话,大大提升了数据传输的带宽。
HBM这“内存超人”主要有三大绝活:
- 速度贼快: 它的数据传输速度是以太字节/秒来计算的!这比我们电脑里常用的DDR内存快了20倍不止。好比是高铁和自行车的区别。
- 特别省电: 因为它就紧挨着处理器(比如GPU)核心放置,数据不用“长途跋涉”,自然就节省了能量,减少了功耗。
- 节省地盘: 在寸土寸金的芯片面积上,它能提供最高的内存容量,可谓是“螺蛳壳里做道场”的典范。
为啥现在HBM这么火?答案全在生成式AI这儿。
训练那些大模型(比如GPT),很多时候瓶颈不在于计算速度不够快,而在于数据喂给处理器的速度跟不上,也就是内存带宽卡了脖子。
Transformer模型中的“注意力机制”需要把每一个词和所有其他词的关系都算一遍,并存储所有输入信息片段(称为token)之间的关系,这个内存消耗量是随着序列长度呈平方级增长的。
一句话有100个字,就要处理近一万次关联;如果是1000个字呢?那可是百万级别的运算! 序列长一点,内存需求就指数级爆炸!这时候,传统DDR内存早就累趴下了,而HBM就像是给大脑装了个超导神经网,每秒能传输数TB的数据,比普通内存快20倍以上!
同样,在模型推理(使用模型)的时候,由于要处理更长的上下文和庞大的键值缓存(KV Cache),内存也是个巨大的约束。
在AI时代,HBM就像是给大脑(GPU)配上了超高速、超大规模的“记忆库”,没有它,再聪明的脑子也转不快。
所以有人说:“AI拼到最后,其实是拼内存。” 这话一点不假。NVIDIA的H100、B200、Blackwell系列之所以能横扫市场,靠的就是背后那一排排闪着寒光的HBM堆栈。它们像忠诚的侍卫,紧贴着GPU核心,用最短的距离、最低的功耗,源源不断地输送数据洪流。
HBM的技术进化史——一场永无止境的“叠叠乐”竞赛
AI芯片的每一代升级,HBM的换代都是性能提升的关键。仔细观察NVIDIA的GPU发布节奏,你会发现一个有趣的“Tick-Tock”模式:在同一架构的第二代产品中,主要升级点往往就是HBM的容量。从H100到H200,从B200到B300,HBM容量提升了50%;而从Rubin到Rubin Ultra,更是直接翻了4倍!
这容量提升靠的是啥?要么是给每个GPU模块配更多的HBM堆栈,要么是在每个HBM堆栈里塞进更多的DRAM芯片层数,要么就是直接升级到新一代的HBM技术。就拿未来的HBM4来说,它通过将每个堆栈的通道数从8个翻倍到16个,并大幅提升每个引脚的数据传输速率,来实现带宽的飞跃。
正因为HBM在GPU和AI芯片中的含量越来越高,它的市场预计将飞速增长。根据SK海力士的预测,从2024年到2028年,HBM行业的年复合增长率将高达50%。对于DRAM生产商来说,HBM已经被证明比传统DRAM更抗周期波动。虽然未来销量可能仍有起伏,但HBM的合同价格都是提前一年谈好的,这可比传统DRAM的短合同甚至现货定价模式要稳定多了。
韩国双雄争霸赛——SK海力士为何笑到最后?
目前的HBM江湖,SK海力士是当之无愧的霸主,市场份额超过60%!它凭的是什么独门绝技?答案就在于其领先的MR-MUF(批量回流模塑底部填充)技术。而它的两大竞争对手——三星和美光,则选择了另一条技术路线:TC-NCF(热压非导电薄膜)。
事实证明,MR-MUF技高一筹。
你可以把MR-MUF理解为“高级胶水工艺”。HBM是把多个DRAM芯片垂直叠起来,中间要用微小的金属柱连接,叫做TSV(硅通孔)。但叠得越高,热量越大,还容易变形断裂。这时候怎么粘合就成了关键。
SK海力士用的是MR-MUF(大规模回流模塑底部填充),整个过程在常温下进行,压力轻柔,像妈妈包饺子一样温柔细致。而且他们用的是一种独家环氧树脂材料,来自日本Namics公司,多年来签了排他协议,别人拿不到配方。这种材料流动性好、散热强、不易起泡,还能减少翘曲——简直就是“内存界的茅台酒”。这也就是为什么三星和美光即使想模仿MR-MUF,也面临着专利和材料供应的双重壁垒。
反观三星,走的是TC-NCF路线,也就是高温高压压合。温度高达300°C,相当于烤箱最高档,还要施加巨大压力。这就好比你用铁锤砸汉堡包,虽然也能粘住,但面包会变形、肉饼会碎裂,良品率自然低。据说SK海力士的良率比三星高出整整20个百分点!这意味着同样的生产线,SK海力士一个月能多出几十万颗合格芯片。
MR-MUF的优势主要体现在:
- 散热性能更好: MR-MUF的热凸点数量是TC-NCF的3倍,能更有效地把芯片产生的热量导出去。HBM层数越多,发热越大,良好的散热至关重要。
- 良品率更高: MR-MUF的平均良品率比TC-NCF高出约20%。这可都是真金白银啊!
- 工艺更温和: MR-MUF在室温和较小压力下进行,而TC-NCF需要在300°C的高温和强压力下操作。高温和强压容易导致芯片“翘曲”(变弯)甚至损坏。
更致命的是,三星曾在2019年犯下一个“战略自杀式错误”——解散了HBM研发团队,理由居然是“市场太小,不值得投入”。谁能想到,三年后ChatGPT横空出世,AI狂潮席卷全球,HBM瞬间变成香饽饽?等三星想重建队伍时,人才早已流失,技术断层严重,追都追不上。
而就在同一年,SK海力士发布了MR-MUF技术,正式拉开差距。这一进一退之间,胜负已定。
三星之所以在这场竞赛中落后,除了后端封装技术选错路,其前道制程(制造DRAM芯片本身)也出了问题。自1a纳米节点以来,三星的前道良率就开始挣扎。有人归因于文化和管理问题,也有人说是激进的技术路线图所致。前道良率对HBM至关重要,因为堆叠的芯片层数会从8层(8-Hi)增加到16层(16-Hi)。假设单颗芯片良率为95%,那么8-Hi堆叠后的最终良率会降到66%,16-Hi更是会暴跌到44%!
因此,三星现在正试图用1c纳米DRAM芯片和4纳米逻辑芯片来打造HBM4,以期追赶对手。但遗憾的是,三星的1c纳米技术成果并不理想,而SK海力士早已在1c纳米上取得了令人印象深刻的良率。值得注意的是,SK海力士甚至计划在HBM4上使用其更成熟的1b纳米技术,以确保良率。如果三星的1c纳米良率不能尽快成熟到90%以上,它在HBM4时代很可能被甩得更远。
决战HBM4——新战场:“地基”芯片的逻辑化
HBM4还有一个革命性的变化:其基础芯片将从传统的DRAM工艺转向先进的FinFET逻辑工艺。
这个基础芯片就像是HBM这座“摩天大楼”的地基,功能至关重要:
- 控制整个DRAM堆栈的读写、刷新和修复操作。
- 管理I/O接口和数据传输,HBM4的物理位宽将比HBM3E翻倍。
- 集成逻辑功能并实现定制化。由于采用逻辑工艺,这个“地基”可以集成电源管理、错误校正码(ECC),甚至可以根据客户需求加入特定的加速器模块,变成一片可定制的“小芯片”(Chiplet)。
这里面的战略考量就深了:台积电的3纳米工艺经过三年验证,稳定可靠。关键问题是,为了性能提升,使用更昂贵但先进的3纳米是否值得?而三星则面临更大的风险,其4纳米工艺的过往表现存在争议,在HBM4量产前,它必须证明自家4纳米基础芯片的质量能媲美竞争对手,否则即使有成本优势,也可能进一步落后。
未来之战——混合键合(Hybrid Bonding),下一代封装的“圣杯”
尽管SK海力士目前领先,但它的王座并非高枕无忧。未来的变数在于一项更尖端的技术:混合键合。
现在的HBM堆叠用的是微凸块连接,好比在两块积木之间粘上小小的“橡皮泥球”来实现连接和导电。而混合键合,则是将两块积木的接触面打磨得极其平整光滑,然后直接让它们的铜触点面对面“铜铜相连”,同时周围的绝缘材料也直接键合,实现机械和电气的双重连接。这个过程不需要中间的“橡皮泥球”(微凸块)了。
混合键合的优势是压倒性的:
- 连接点间距更小(可小于10微米,当前技术是40-55微米),意味着在同样面积下能布设更多连接点。
- 电阻更低,热性能更好。
- 因为没有凸块和填充间隙,整个HBM堆叠的高度可以降低。
为啥现在不用?太贵了! 一台混合键合设备要300万美元,而热压键合设备只要100-200万。而且混合键合需要额外的化学机械抛光(CMP)步骤和更高级别的无尘室,总体拥有成本非常高。
目前看,混合键合的大规模应用可能要等到2028或2029年的HBM5时代,这也与NVIDIA的GPU路线图吻合。三星和美光正试图通过混合键合实现弯道超车,但SK海力士也在积极布局。这场竞赛刚刚开始。
在设备供应商方面,热压键合市场主要由韩国公司Hanmi和Hanwha主导。而混合键合设备的早期领跑者则是荷兰公司Besi,它通过与应用材料公司合作,推出了高精度的设备。ASMPT和Kulicke & Soffa等公司也在奋力直追。
中国玩家的HBM追赶之路——道阻且长,行则将至
如果说韩国是HBM的“武林盟主”,但不能小瞧中国,被逼出了惊人的韧性。
主角名叫长鑫存储(CXMT),2016年才成立,起步晚、底子薄,一开始只能做DDR3、DDR4这类低端内存,在国际市场上几乎没人注意。但短短几年,他们不仅量产了DDR5,还悄悄摸到了HBM的大门。
中国在存储器领域有着惊人的追赶速度,长鑫存储(CXMT)和长江存储(YMTC)就是例子。CXMT成立于2016年,在传统DRAM(如DDR3、DDR4)上进展迅速,并在今年初成功量产了DDR5,缩小了与巨头的差距。
但在HBM方面,长鑫存储CXMT起步较晚。据报道,其在2024年下半年才开始量产HBM2,这比领先企业晚了数年。目前其产量很小,而且国内客户可能更倾向于使用管制前进口的更先进的HBM产品(如SK海力士和三星的)。长鑫存储CXMT的路线图显示,其目标是2025年量产HBM3,2027年攻关HBM3E,相当雄心勃勃。
从技术角度看,CXMT已经具备生产HBM2E和HBM3所需的前道DRAM芯片(1y/1z纳米)能力。但更关键的挑战在于下一代1α纳米节点,在没有EUV光刻机的情况下,要实现高良率难度极大。在后道封装上,CXMT目前很可能采用与三星和美光类似的TC-NCF技术,长鑫已经开始布局下一代技术——混合键合(Hybrid Bonding),相关键合设备此前主要从韩国Hanmi等公司采购。
混合键合这项技术不用焊球,直接让铜对铜原子级结合,连接密度更高、电阻更低、厚度更薄。未来HBM5要想做到16层甚至20层堆叠,非它不可。
目前全球掌握该技术的企业屈指可数,设备商如荷兰Besi、ASMPT正在激烈竞争。而中国企业和科研机构近年来相关专利申请数量猛增。换句话说,当别人还在用“微凸点”修桥铺路时,中国已经在研究“量子隧道”了。也许现在打不过,但一旦技术成熟,极有可能实现“降维打击”。
未来的战场不在芯片,而在工厂之外
很多人以为,半导体的竞争就是晶圆厂之间的对决。其实不然。真正的较量,发生在那些不起眼的角落——比如一台价值300万美元的混合键合机,或者一间达到ISO 1级标准的超净室。
举个例子:现在的HBM封装主要靠热压 bonding 设备(TCB),这类机器单价100~200万美元,韩国Hanmi、Hanwha公司做得风生水起。但到了混合键合时代,设备成本飙升至300万美元一台,且必须搭配化学机械抛光(CMP)、精密检测等全套前道工序,甚至连 grinder(研磨机)和 dicer(划片机)都要升级到“准产线级别”。
这就意味着:过去负责封装的“后段工厂”,正在变成融合前后端的“超级车间”。而谁能掌控这套体系,谁就能在未来HBM供应链中占据主导地位。
这也是为什么SK海力士敢砸38.7亿美元在美国印第安纳州建新厂,Micron豪掷70亿在新加坡扩产。他们在下一盘很大的棋:不仅要造芯片,更要重构全球产业链格局。
江苏的通富微电,已在积极研发混合键合技术;上海微电子虽未涉足HBM专用设备,但在光刻领域持续突破。只要政策稳定、资本耐心、人才不断,中国HBM产业终将走出一条自己的路。
结语
HBM的故事,是技术创新、战略抉择和市场机遇交织的精彩篇章。从SK海力士的长期主义胜利,到三星的战术失误;从MR-MUF与TC-NCF的工艺之争,到混合键合代表的未来方向;从巨头的领跑到中国玩家的奋力追赶——这片小小的垂直堆叠内存,已然成为驱动AI巨轮前进的关键引擎。它的江湖,还将继续风起云涌。而我们,都是这个时代的见证者。