作者背景介绍
本文核心观点源自韩国科学技术院(KAIST)电气与电子工程系教授金正浩(Jung-Ho Kim)。他被业界尊称为“HBM之父”——高带宽内存(High Bandwidth Memory)技术的奠基人之一。早在2017年,他就精准预判SK海力士(SK hynix)的长期价值并公开推荐买入其股票,展现了对半导体存储产业趋势的深刻洞察。近期,他在一档YouTube深度访谈中再次抛出震撼性观点:AI算力的下一个爆发点不在GPU,而在内存;而内存技术本身,也即将迎来从HBM到HBF的历史性跃迁。
第一章:市场权力正在转移——从GPU到内存,AI的“新命脉”浮出水面
过去几年,英伟达凭借GPU在AI训练领域的绝对统治力,股价一路狂飙,成为全球市值最高的公司之一。无数投资者将GPU视为AI时代的“黄金矿机”。然而,金正浩教授却发出一个截然不同的信号:真正的权力正在悄悄转移——从GPU转向内存。他打了一个生动的比喻:如果把GPU比作一块松软香甜的卡斯提拉蛋糕,那么内存就是覆盖其上的那层浓稠鲜奶油。没有奶油,蛋糕再好也显得干涩;没有高性能、大容量的内存,再强大的GPU也无法释放全部潜力。
在AI尤其是生成式AI的运行过程中,模型需要频繁访问海量参数和中间计算结果。这些数据必须存储在靠近计算单元的高速内存中,否则就会形成“内存墙”(Memory Wall),严重拖慢整体性能。因此,随着模型规模指数级增长,内存不再是配角,而是决定AI系统效率与成本的关键瓶颈。
第二章:AI响应速度,其实由内存说了算
很多人以为,AI回答问题快慢主要取决于GPU的算力。但金正浩教授指出,事实恰恰相反——在推理阶段(也就是用户实际使用AI的时候),响应速度更多由内存决定。训练阶段固然需要强大算力,但推理阶段更考验系统对已有知识的快速调用能力。每一次你输入一个问题,AI模型都要从数以百亿计的参数中检索相关信息,这个过程高度依赖内存带宽和容量。
如果内存带宽不足,GPU就会“饿着肚子干活”,算力闲置;如果容量不够,系统就不得不频繁从更慢的存储设备中加载数据,导致延迟飙升。因此,提升内存性能,比单纯堆砌GPU数量更能直接改善用户体验。这也解释了为何英伟达最新一代Blackwell架构不惜成本地集成高达192GB的HBM3e内存——因为内存,就是AI的“氧气”。
第三章:三重爆炸式增长,内存需求逼近极限
当前AI发展正面临三重指数级增长的压力:第一,模型参数量持续膨胀,从百亿迈向万亿甚至十万亿;第二,用户数量激增,全球数亿人每天与AI交互;第三,数据模态从纯文本迅速扩展到图像、音频,再到高分辨率视频。这三股力量叠加,使得对内存容量和带宽的需求呈几何级数攀升。
以视频生成为例,一段10秒的4K视频可能包含数GB的数据,而支撑其生成的AI模型内部状态(如注意力键值缓存)更是庞大到难以想象。传统DRAM内存不仅成本高昂,物理空间也难以容纳如此庞大的数据。金正浩教授直言:“我们正站在内存需求的悬崖边缘,现有技术即将触顶。”
第四章:HBM时代即将落幕,HBF新纪元拉开序幕
正是在这一背景下,金正浩教授做出一个大胆预测:高带宽内存(HBM)的黄金时代即将结束,取而代之的将是“高带宽闪存”(High Bandwidth Flash,简称HBF)。HBF中的“F”代表闪存(Flash Memory),它将承担起存储AI“先验知识”的重任——这些知识被形象地称为“加密书籍”或“先验库”,本质上就是推理过程中反复使用的键值缓存(KV Cache)。
与HBM不同,HBF并非用于实时计算,而是作为高速缓存的“后备军”,在HBM容量不足时快速补充数据。这种设计既能大幅降低系统成本,又能显著提升有效内存容量。据估算,同样采用16层堆叠技术,HBF的容量可达HBM的10倍以上,而成本却远低于DRAM。
第五章:什么是HBF?闪存堆叠如何颠覆AI存储架构
HBF的核心技术思路,是借鉴HBM的成功经验,将NAND闪存芯片进行3D堆叠,并通过硅通孔(TSV)等先进封装技术实现高带宽互联。目前,三星、SK海力士等厂商的NAND闪存已实现128层甚至256层的3D堆叠。若在此基础上再进行16层HBF封装,总层数将高达2000至3000层,形成前所未有的存储密度。
这种结构不仅节省空间,还能通过并行读取大幅提升带宽。更重要的是,NAND闪存具有非易失性——断电后数据不会丢失,无需像DRAM那样持续刷新,从而大幅降低功耗。对于需要7×24小时运行的AI推理服务器而言,这是一项革命性的优势。
第六章:AI计算的四级内存金字塔,HBF居于关键枢纽
金正浩教授描绘了未来AI系统的四级内存架构:
第一级是GPU内部的SRAM,速度最快但容量极小,仅用于临时寄存器和缓存;
第二级是HBM,紧贴GPU芯片,作为“书桌旁的书架”,用于编码器和解码器的实时计算;
第三级就是HBF,相当于“地下室图书馆”,存储大量先验知识,在HBM缺货时快速补位;
第四级则是通过光互联连接的网络存储,如同“城市公共图书馆”,容量近乎无限,但访问延迟较高。
在这一体系中,HBF扮演着承上启下的关键角色——它既不像SRAM和HBM那样昂贵,又比传统SSD快得多,是平衡性能与成本的理想选择。
第七章:DRAM与NAND的本质差异,决定了HBF的独特定位
尽管HBF和HBM都采用堆叠技术,但底层存储介质截然不同。DRAM(HBM的基础)依靠电容存储电荷,必须不断刷新以防止数据丢失,但支持近乎无限次的读写操作。而NAND闪存(HBF的基础)则通过“电子陷阱”机制将电荷锁在浮栅中,无需刷新即可长期保存数据,但写入时需使用高电压进行量子隧穿,会逐渐损伤氧化层,导致寿命有限——通常仅支持约10万次写入。
然而,AI推理场景恰好是“读多写少”:模型参数一旦训练完成,几乎不再修改,推理过程99%以上都是读取操作。这使得NAND闪存的弱点被完美规避,优势被最大化。HBF正是为这种负载量身定制的存储方案。
第八章:2027年商业化落地,万亿市场即将开启
根据金正浩教授的预测,HBF产品最早将在2027至2028年间实现商业化量产。届时,AI对内存带宽和容量的需求将每两年翻一番,20年内增长千倍。这意味着内存市场规模将从当前的数百亿美元,扩张至数十万亿美元级别——一个堪比整个半导体产业的新蓝海。
这一趋势不仅将重塑硬件架构,更将深刻影响资本市场。过去十年是GPU的牛市,未来十年则属于内存厂商。正如教授所言:“当摩尔定律在GPU端逐渐失效,内存创新将成为AI继续前进的唯一引擎。”
第九章:三星与SK海力士,谁将主导HBF时代?
在HBM时代,SK海力士凭借先发优势和与英伟达的深度绑定,一度占据超过60%的市场份额。但在HBF赛道,竞争格局将更加均衡。原因在于:HBF依赖的是NAND闪存技术,而全球NAND市场中,三星电子市占率约30%,SK海力士(通过收购英特尔闪存业务)约占20%,两者技术积累相当。
更重要的是,NAND堆叠技术本就是三星的强项。其V-NAND技术早在2013年就实现量产,如今已推进至232层以上。SK海力士虽起步稍晚,但通过整合英特尔资源,也在3D NAND领域快速追赶。因此,HBF时代很可能不再是“一家独大”,而是“双雄争霸”。
第十章:英伟达的战略焦虑——为何可能收购闪迪或美光?
面对内存成为新瓶颈的现实,英伟达显然不愿将命运完全交予三星或SK海力士。金正浩教授推测,黄仁勋团队正考虑通过并购掌握核心存储技术。他特别提到,英伟达可能会收购一家具备闪存或DRAM能力的公司,比如美光(Micron)或闪迪(SanDisk)。
值得注意的是,闪迪虽已被西部数据收购,但其在NAND控制器和固件优化方面仍有深厚积累;而美光则是全球三大DRAM厂商之一,同时也是重要的NAND供应商。若英伟达能整合其中一家,不仅能确保HBF供应安全,还可能推动“GPU+HBF”一体化设计,彻底重构AI芯片架构。
更激进的设想是:英伟达可能逐步放弃HBM,全面转向HBF路线。因为HBF不仅成本更低,还能通过软件调度实现更灵活的内存管理,长远来看更符合大规模推理部署的需求。
第十一章:内存时代已至,投资逻辑正在重构
金正浩教授最后强调,我们正站在一个历史性拐点上。过去,投资者追逐的是算力;未来,真正的价值将藏在“存储”之中。当GPU性能增长因物理极限而放缓,内存技术的突破将成为AI继续进化的唯一路径。
这不仅是一场技术革命,更是一场资本盛宴。内存厂商将从“幕后供应商”跃升为“核心引擎”,其股价潜力可能远超市场预期。正如2017年他推荐SK海力士时所言:“看懂内存,就看懂了AI的未来。”
如今,他再次发出预警:HBF不是概念,而是即将落地的现实;内存不是配角,而是AI新时代的主角。那些率先布局HBF生态的企业,将主导下一个十年的技术与财富浪潮。
结语
从HBM到HBF,从DRAM到NAND,从配角到主角——内存的进化史,正在书写AI的未来史。金正浩教授的预言,不仅揭示了技术演进的方向,更指明了资本流动的轨迹。在这个“内存为王”的新时代,谁掌握存储,谁就掌握AI的命脉。而这一切,或许就在2027年拉开序幕。