铠侠与英伟达共推AI SSD,构建“HBM+AI SSD”分层内存架构。创意电子凭借先进封装与高速接口整合能力,有望拿下主控芯片大单,开启AI存储新纪元。
一、AI内存瓶颈催生存储革命,HBM已无法独自支撑万亿参数时代
在生成式人工智能狂飙突进的今天,GPU的算力早已不是唯一瓶颈,真正的卡点正从计算转向内存与存储。当前主流AI加速器如英伟达Blackwell架构的GB200,虽搭载高达192GB的HBM3E高带宽内存,总带宽逼近1.2TB/s,看似强大,却在面对千亿乃至万亿参数大模型时仍显捉襟见肘。
HBM之所以被称为“近端内存”,是因为它通过TSV硅通孔技术垂直堆叠多层DRAM芯片,每层之间通过数千条通道互联,实现纳秒级延迟与超大带宽,是GPU进行矩阵运算的“第一战场”。
但HBM的先天局限同样明显:
一是成本极其高昂,单颗HBM3E模组价格可超2000美元;
二是容量扩展空间有限,即便采用HBM4,单堆叠也难以突破256GB;
三是封装复杂,对热管理、信号完整性及良率控制要求严苛,难以大规模部署于普通AI服务器。
更关键的是,大模型推理过程中所需的海量历史上下文、知识库嵌入(embeddings)及KV缓存,远超HBM容量边界,必须依赖外部存储频繁换入换出。
传统SSD在这一场景中表现糟糕——其随机读写IOPS通常仅百万级,延迟高达微秒甚至毫秒,完全无法匹配GPU的高速计算节奏。
由此,业界开始思考:能否构建一种介于HBM与传统SSD之间的“扩展性存储层”,既保留NAND闪存的大容量与低成本优势,又具备接近内存级的访问性能?
答案正是“AI SSD”——一场由铠侠(Kioxia Holdings)与英伟达(NVIDIA)共同推动的存储架构革命。
二、铠侠AI SSD:不是普通固态盘,而是GPU的“冷数据延伸臂”
铠侠此次推出的AI SSD,并非对现有企业级SSD的简单升级,而是一套从底层架构到系统集成全面重构的产品。其核心目标,是在GPU外部构建一个微秒级延迟、亿级IOPS、5TB以上容量的高性能存储层,与HBM形成“热-冷”协同的分层内存体系。
具体而言,该AI SSD采用High-Bandwidth Flash(HBF)或XL-Flash架构,单模块带宽可达64GB/s,远超当前PCIe 5.0 SSD的15GB/s上限。更重要的是,它支持PCIe 7.0直连GPU,无需经过CPU中转,彻底消除传统I/O路径中的协议转换与延迟叠加。每个闪存模组配备独立控制器,并通过PAM4(四电平脉冲幅度调制)高速链路串接,实现低延迟、高并发的随机访问能力。
据内部测试数据,两颗此类AI SSD并联运行时,可实现两亿IOPS的随机读取性能,较现有高端SSD提升近百倍。这意味着,在RAG(检索增强生成)或长上下文推理场景中,GPU可直接从AI SSD中实时拉取数百万条知识片段或历史对话记录,无需等待CPU调度,大幅缩短端到端延迟。
英伟达将这一角色定义为“HBM扩展器”(HBM-expander),即通过AI SSD实现内存虚拟化——HBM负责处理当前活跃的“热数据”(如模型权重、即时注意力计算),而AI SSD则作为“冷数据层”,存储模型权重分片、嵌入向量表、历史KV缓存等,按需被GPU直接调用。这种架构不仅缓解了HBM容量压力,更显著降低了AI服务器的总拥有成本(TCO)。
三、2027年商用倒计时,NAND产业迎来十年一遇的AI拐点
铠侠将此项目视为NAND闪存产业自智能手机普及以来的最大转折点。过去十年,NAND市场主要受消费电子与数据中心驱动,增长平稳但竞争激烈,价格波动剧烈。而AI SSD的出现,首次将NAND纳入GPU内存层级体系,赋予其“准内存”属性,打开了全新的高端应用场景。
公司预计,到2029年,全球约34%的NAND需求将来自AI相关应用,市场规模增量高达290亿美元。更令人警惕的是,若AI服务器部署速度超预期,2026年底至2027年初可能出现新一轮NAND供应吃紧,推动价格结构性上涨。
AI SSD的商业化路径清晰:2026年下半年提供工程样品,2027年正式量产并导入美系四大云服务商(CSP)的数据中心,首批目标平台即为英伟达Rubin与MGX架构的AI服务器。这些服务器将采用模块化设计,支持GPU与AI SSD在主板或封装内紧密耦合,实现最优信号完整性与热效率。
四、主控芯片成胜负手,创意电子凭什么被外资押宝?
AI SSD的性能不仅依赖闪存介质,更取决于其控制器ASIC的设计水平。传统SSD控制器只需处理块设备读写与FTL映射,而AI SSD控制器则需同时集成PCIe 7.0、CXL 3.1、UCIe甚至NVLink等多协议接口,内置AI预取引擎、低延迟链路训练模块、多核调度架构,并支持与GPU缓存层次结构的深度协同。
全球具备此类设计能力的厂商屈指可数,包括Marvell(美满电子)、慧荣科技(Silicon Motion)、三星、西部数据(Western Digital)、博通(Broadcom)及世芯-KY(Alchip)等。然而,外资机构却一致将目光投向了“创意电子”(Global Unichip Corp, GUC)——这家台积电控股的ASIC设计服务龙头。
创意电子胜出的关键,在于其独一无二的“四维整合能力”:
其一,高速接口IP实力雄厚。创意已于2024年完成HBM3E控制器与PHY物理层IP开发,支持台积电CoWoS-S/R先进封装,实测速率达9.2Gbps/pin,满足HBM4过渡需求。其UCLink平台可无缝整合PCIe、UCIe、SerDes与HBM PHY,为多协议SoC提供统一设计框架。
其二,深度绑定英伟达生态。2025年10月,创意正式成为英伟达“NVLink Fusion”关键生态伙伴,可直接参与面向CSP与HPC客户的半定制ASIC开发。这意味着创意能提前获取NVLink、C2C等内部协议规范,并在GPU封装中实现peer-to-peer直连架构——这正是AI SSD实现GPU直连的核心技术前提。
其三,先进封装协同设计能力。作为台积电子公司,创意可直接调用CoWoS、InFO、LIPINCON等高频封装技术,在芯片设计阶段即与封装团队协同优化interposer布线、电源完整性及热分布。对于采用chiplet或CSP(芯片尺寸封装)的AI SSD而言,这种“控制器+封装共设计”模式可大幅缩短验证周期,降低信号衰减风险。
其四,云服务商项目实绩背书。创意已在多个美系CSP的AI加速器ASIC项目中成功流片(Tape out),熟悉OCP(开放计算项目)数据中心规格,能精准匹配Rubin与MGX平台的供电、散热与接口要求。相比之下,传统SSD控制器厂商虽有存储经验,却缺乏与GPU系统深度耦合的工程能力。
五、若拿下大单,创意将新增百亿营收,AI ASIC三足鼎立格局成型
市场推估,铠侠AI SSD主控芯片项目总合约价值约1.8亿美元,开发周期两年,量产后可持续贡献三至五年。以创意电子约12%的净利率计算,该项目在其生命周期内可贡献累计每股收益(EPS)2.5至3元新台币。
更重要的是,这将成为创意电子AI ASIC产品线的“第三增长支柱”——继GPU加速芯片(如与客户合作的AI训练芯片)和CSP定制AI芯片之后,AI存储控制器将成为其面向数据中心市场的又一核心引擎。
考虑到AI服务器对存储带宽需求正以每年50%以上速度增长,而HBM无法独自承担全部负载,AI SSD将成为未来五年数据中心基础设施的标配。创意若能借此卡位成功,不仅巩固其在高端ASIC设计领域的领导地位,更将深度绑定英伟达与铠侠两大产业巨头,形成难以复制的护城河。
六、技术之外:Goodhart定律警示——别让指标扭曲架构本质
值得注意的是,当前AI SSD的性能指标(如IOPS、带宽)虽令人振奋,但需警惕Goodhart定律的风险:当某一指标成为目标,它就不再是好指标。若厂商仅追求“亿级IOPS”而忽视实际工作负载中的访问模式(如稀疏性、局部性、预取命中率),可能导致架构过度优化于基准测试,却在真实RAG或长文本推理中表现平庸。
真正的高效AI存储,需在控制器中嵌入智能预取、KV缓存感知调度、低精度状态压缩等机制,并与上层AI框架(如vLLM、TensorRT-LLM)深度协同。这也正是创意等具备系统级设计能力厂商的优势所在——他们不仅设计芯片,更理解AI工作负载的本质。
七、结语:从“存储”到“内存延伸”,NAND的AI身份正在重定义
过去,NAND闪存被视为“慢速持久化设备”;未来,它将成为GPU内存体系的自然延伸。铠侠与英伟达的合作,标志着存储与计算的边界正在消融。而创意电子凭借其在高速接口、先进封装、生态协同与系统集成上的综合优势,极有可能成为这场变革的幕后推手。
对投资者而言,这不仅是单一订单的利好,更是NAND产业链价值重估的起点。当一块SSD能直接与GPU对话,当闪存开始承担内存职责,整个数据中心的性能瓶颈将被重新定义——而这,正是AI时代最激动人心的基础设施革命。