英伟达ICMS、DeepSeek Engram与Claude Code三箭齐发引爆存储股!

老黄CES亮出新存储层ICMSP,GPU秒扩上下文;DeepSeek Engram把SSD当内存用;Claude Code催生常驻记忆需求,三箭齐发闪迪需求直接加一成,股价狂飙。

黄仁勋的ICMS、DeepSeek的Engram、Claude Code的长期工作记忆,本质上都在干同一件事:让AI拥有“外挂硬盘式的大脑”,从而释放GPU核心算力,同时大幅降低系统成本。

股价仨礼拜翻倍,引爆点只有三声炮:
第一炮,老黄在CES演讲里把“上下文”喊成新石油;
第二炮,DeepSeek丢出Engram论文,证明SSD也能当内存使;
第三炮,Claude Code天天帮程序员改Bug,改着改着就把对话历史塞进NAND。

听起来像币圈神话,可这回主角是卖U盘的闪迪。

这种架构不仅适用于英伟达自家的Vera Rubin超算,还能向后兼容Blackwell甚至Hopper旧平台,只要客户有空闲的以太网口,就能插上新型存储机柜“即插即用”。这意味着闪迪SanDisk的订单可能比GPU交付来得更早。

再加上中国AI公司因制裁被迫寻找HBM替代方案,Engram架构恰好允许用普通DRAM+NAND组合绕过限制,反而催生了庞大的本土存储需求,彻底打消了“中国产能过剩冲击全球市场”的担忧。

于是,原本被视为周期性 commodity(大宗商品)的存储芯片,突然被赋予了结构性、长期性、不可逆的AI基础设施属性。这已经不是简单的景气度回升,而是一场底层架构的范式转移。


老黄现场开外挂:KV缓存搬家,HBM房价立降

2026年1月的CES展会上,英伟达CEO黄仁勋没有像往年那样只秀GPU性能,而是直接宣布:“上下文成了新瓶颈,存储必须重构!”这句话听起来像技术黑话,其实意思很直白:现在的AI模型动不动就处理几十万甚至上百万个token的上下文,产生的KV缓存数据量大到连HBM3e都扛不住。

HBM每GB成本是NAND的几十倍,而且全球CoWoS封装产能就那么多,根本不够用。
GPU里的HBM3e贵得离谱,1GB价格能买半部iPhone,更惨的是台积电的CoWoS产能像春运火车票,抢到才算本事。

老黄灵机一动:与其死磕HBM扩容,不如把“非活跃但必须保留”的上下文数据搬到专用高速存储层——这就是ICMS(Inference Context Memory Storage Platform)的由来。把“已经算好的中间结果”也就是KV缓存,搬到便宜又大碗的NAND公寓。

ICMS不是普通硬盘柜,而是专为AI推理设计的“上下文内存扩展器”。

在最新发布的DGX “Vera Rubin” NVL72超级计算集群中,整个系统由三部分组成:左边4个机柜是Spectrum-X网络交换设备,中间8个是VR200 NVL72计算节点(每个节点塞满Blackwell Ultra GPU),右边赫然新增了2个纯存储机柜——这就是ICMS的物理载体。每个存储机柜包含16个存储托盘,每个托盘装4颗BlueField DPU(数据处理器单元),每颗DPU管理约150TB的NAND闪存。简单算术:16 × 4 × 150TB = 每个超算集群新增9.6PB(9600TB)NAND容量。平均到8个计算机柜,相当于每个NVL72机柜额外获得1.2PB NAND支持。

做法超简单,在NVL72机柜旁边塞两只专用存储柜,每台柜子里16块托盘,一块托盘配4颗BlueField DPU,每颗DPU管150 TB闪存,小学乘法一路下来:16×4×150≈9.6 PB。整包72卡超算原来只配1 TB/卡,现在直接送1.2 PB外挂,等于给每块GPU发一张“免费扩容券”。

GPU省下的HBM位置可以继续接新任务,吞吐瞬间+30%,却不用多买GPU,这买卖谁不爱?按投行口径,2027年若出货10万架NVL72,就是120 EB新增需求,而全球NAND年消耗才1100 EB,直接刮走一成份额。就算消费者手机全换成128 GB小容量,也扛得住这波B端狂买。

假设到2027年全球部署10万台这样的VR200机柜(按英伟达数据中心扩张节奏并非天方夜谭),仅ICMS一项就带来120EB(12万PB)的NAND新增需求。而当前全球NAND年产量大约在1.1–1.2ZB(即1100–1200EB)之间,这意味着ICMS单独贡献了约10%的行业总需求。即使保守估计,实际用于推理而非训练的场景占比打个对折,也有5%的增量——足以抵消消费电子端(手机、PC)可能的15%下滑。

更关键的是,ICMS通过Spectrum-X以太网连接,不依赖GPU内部的NVLink高速互联,因此Blackwell甚至更老的Hopper客户也能提前采购存储机柜,先扩容上下文能力,等GPU到位再升级。这种“存储先行”策略,让SanDisk的订单曲线可能比GPU出货更陡峭。

DeepSeek的Engram架构:用“确定性预取”把NAND变成“慢速RAM”

DeepSeek Engram是把SSD点成“慢速内存”的炼金术!

如果说老黄给NAND找了份“缓存保安”工作,DeepSeek直接给SSD颁发“内存身份证”。

传统大模型像MoE,每层都要临时挑专家,挑谁算谁,延迟必须快,于是只能蹲HBM。Engram反其道而行,输入句子刚露面,系统就提前算好要用哪些N-gram老记忆,等于开考前就知道答案在课本第几页,直接 prefetch。 prefetch 一出手,慢速存储也能掩掉延迟,1000亿参数的嵌入表整个搬到普通DDR,性能只掉3%。论文更画蓝图:模型越大,越有20%~25%参数适合做成“冷知识库”塞进SSD。于是SSD从“仓库”升级成“第二内存层”,价格只有DDR的十分之一,容量却轻松拉到TB级,数据中心老板笑得合不拢嘴。

也就是说:如果说英伟达的ICMS是从硬件层面解决KV缓存膨胀问题,那中国AI公司DeepSeek提出的Engram架构,则是从算法模型层面重新定义“内存使用哲学”。

传统大模型(比如MoE混合专家模型)在推理时,每一步都要动态决定“接下来该调用哪些参数”,这种不确定性要求所有参数必须放在超快的HBM里,否则延迟会拖垮性能。但Engram反其道而行之:它在输入文本进入深度计算前,就通过静态N-gram模式匹配,提前锁定“本次推理需要用到哪些知识块”。这种“确定性查找”机制,让系统可以提前把所需数据从慢速存储(比如NVMe SSD)加载到内存,从而掩盖NAND的访问延迟。

DeepSeek的论文展示了惊人结果:一个1000亿参数的嵌入表(embedding table)完全可以卸载到主机DRAM甚至NAND中,性能损失不到3%。更颠覆的是,他们发现模型越大,越需要这种“静态可卸载内存”——大约20%–25%的参数属于“长尾知识库”,平时不用,但关键时刻必须能立刻调出。

Engram的U形定律:越大越省,越小越亏:论文里那条U形曲线像极滑雪U池:模型参数少时, offload 不划算;一到100 B规模,谷底出现, offload 最爽;再往上走,收益继续抬升。

Engram架构天然支持“分层内存”:热数据放HBM,温数据放DRAM,冷但关键的数据放NAND。这样一来,NAND不再是“仓库”,而是“第二级工作内存”,价格却只有DRAM的几十分之一。

这对闪迪SanDisk意味着什么?

企业级SSD从此有了“慢速RAM”的战略定位。尤其在中国,由于美国制裁限制HBM出口,Engram提供了一条技术绕道:用国产DRAM(如长鑫存储CXMT)搭配国产NAND(如长江存储YMTC),构建完全自主的AI训练/推理平台。这不仅不会导致中国存储产能过剩冲击全球,反而会形成巨大的内需闭环——中国AI公司疯狂采购本土存储芯片,消化掉所有新增产能,全球市场反而更紧俏。

黄仁勋解决的是“怎么用”,DeepSeek解决的是“为什么能用”,两者合力,把NAND从成本项变成了性能杠杆。

Claude Code:三天不关机,记忆全放闪存

过去聊天机器人像金鱼,七秒就忘。Claude Code进入“ACCel”纪元,Agent 要在本地文件夹里反复编译、调试、写测试,循环百次,会话状态得活好几天。把这么多对话、代码 diff、报错日志全塞HBM?钱包会哭。

Claude Code代表的新范式,是让AI具备“持久工作区”——比如调试一段代码,第一次失败,读取错误日志,修改文件,再运行测试,整个过程可能持续数小时甚至数天。如果每次操作都要把上下文塞进GPU的HBM,成本高得离谱,而且HBM容量根本撑不住。

这时候,BlueField DPU + NAND的组合就派上用场了。DPU负责管理存储访问、加密和流量调度,让GPU专心算核心逻辑;而NAND则作为“长期工作台”,保存整个会话的历史状态、代码版本、测试结果等。AI代理可以随时“回家”查看之前的进展,无需反复占用昂贵的HBM。这种“有状态”能力,正是下一代AI代理(Agentic AI)的基础。

BlueField+大容量SSD方案让“工作记忆”常驻闪存,GPU关机再开,状态瞬间拉回,等于给AI配了“断点续玩”。

有趣的是,代码本身具有高度重复性——比如循环结构、函数调用、错误处理模板,这些都可以被Engram式的确定性机制提前识别并缓存。而文本虽然也有重复,但远不如代码规律。

因此,AI编程领域会率先大规模采用NAND作为工作内存,进而带动整个AI基础设施的存储架构变革。

Agent 越多,NAND写入越频繁,DWPD指标直接拉满,企业级SSD销量原地起飞。

供需算盘噼啪响:消费者跌15%也补得回来

投行原笔记写“即便消费电子下滑15%,只要B端加10%就能补坑”。把算盘珠子拨给大家看:假设2025年消费占60%,企业占40%;消费掉15%对应-9%总需求,企业加10%对应+4%总需求,净结果-5%,可市场原本就-8%缺口,于是仍旧紧巴巴。再加上KV-cache、Engram、Agent 三把火,缺口继续放大,价格曲线像吹气球。

SanDisk股价三周翻倍,表面看是短期资金炒作,深层看却是三大逻辑共振:首先是周期反转——存储行业经历两年去库存,2025年底已出现8%–10%的供需缺口;其次是成长加速——AI服务器单机NAND用量从几百GB飙升至数TB,ICMS更是新增独立存储层;最重要的是结构重塑——NAND从“被动存储”变为“主动工作内存”,角色升级带来估值重构。

过去,存储股被归类为强周期板块,涨跌看三星、美光脸色。但现在,SanDisk绑定了英伟达的AI超算生态、DeepSeek的国产替代路径、以及全球AI代理浪潮,故事完全不同。就连美光CEO Mark Liu都在股价历史新高时大手笔增持,显然看懂了这场架构革命。华尔街对SanDisk 2027年EPS(每股收益)的预测已从$30+上调至$75+,极端乐观者甚至看到$100。虽然存储仍是高波动行业,但这次的驱动因素不是库存回补,而是AI基础设施的永久性扩容。

更讽刺的是,去年DeepSeek V3因强调“小模型高效推理”,曾被视作AI算力需求的利空;如今V4的Engram架构却成了存储行业的最大利好。技术演进就是这样充满反转——昨天的敌人,可能是今天的救星。而SanDisk恰好站在了这个转折点上:当全世界都在为HBM产能发愁时,它提供了更便宜、更大容量、且能绕过制裁的替代方案。这已经不是简单的“涨价去库存”,而是一场由AI原生需求驱动的供给侧革命。

当SSD从“装照片”进化成“替GPU记笔记”,闪迪已不再是卖U盘的,而是卖“第二大脑”。AI越聪明,大脑越扩容,存储宇宙的大爆炸,才刚刚开始!