围绕2026年AI走向,两派观点激烈对撞:一方认为持续学习不同于Transformer范式将降低算力需求引发英伟达崩盘,另一方从嵌套学习与杰文斯悖论出发,指出推理即训练只会吞噬更多算力与内存,芯片需求不降反升。
最近《The Information》放出一个爆炸性预测:2026年,如果“持续学习”(Continual Learning)取得重大突破,英伟达的股价将遭遇崩盘。
理由听上去很合理——现在的AI训练依赖海量数据和算力,而持续学习能让模型像人类一样边用边学,无需反复回炉重训,算力需求骤降,英伟达的GPU自然就没人买了。
但这个逻辑,其实站不住脚。尤其当我们将目光投向谷歌DeepMind最新提出的“嵌套学习”(Nested Learning)框架,就会发现:持续学习非但不会砍掉算力需求,反而可能让算力消耗呈指数级爆炸。英伟达不仅不会被砸盘,反而可能迎来新一轮超级周期。
持续学习被视为算力杀手的直觉来源
如果只看表面逻辑,为什么市场会反复传出“持续学习一旦突破,英伟达股价就要塌”的说法,其实并不难理解。
过去十多年,深度学习的核心增长引擎只有一个:离线大规模训练。数据越多,模型越大,训练轮次越长,对GPU的需求就越呈指数级膨胀。英伟达正是踩中了这个单一因果链:算法进步并没有降低算力需求,反而把算力需求集中、放大、商品化,最终变成财报里的护城河。
而持续学习在叙事层面,直接挑战的就是这一条因果链。
在很多研究者的公开表述中,持续学习被描绘成一种更接近人类学习方式的范式,模型不再依赖反复的大规模离线训练,而是像人一样在真实环境中边用边学。
如果这种范式成立,那么训练和推理的边界就会模糊甚至消失,模型不需要一次次从头预训练,不需要吞噬海量静态数据集,也就不再需要周期性堆叠成千上万张GPU跑数周甚至数月。
对资本市场来说,这听起来就是“训练算力需求结构性下降”,而英伟达的估值正是建立在训练算力长期爆炸增长之上的。
持续学习叙事如何直击英伟达的商业核心
英伟达的核心并不是“算力”这个抽象概念,而是高度集中化、可预测、可规模化的算力采购模式。
无论是GPT系列、Gemini、Claude还是国内的大模型,背后都有一个共同特征:训练是阶段性的、项目制的、预算明确的。企业愿意一次性砸下数亿甚至数十亿美元购买GPU集群,因为训练完成后模型就能进入相对稳定的推理阶段,产生持续收益。
持续学习的叙事如果成立,就意味着模型不再需要这种“集中爆发式训练”,而是转向低频、小批量、长期分散的在线更新。这种模式从金融视角看,对英伟达极不友好,因为它削弱了客户一次性大额采购的动机,也削弱了算力需求的可预测性。
更关键的是,资本市场对“算法替代算力”的恐惧并非第一次出现。历史上,每当算法效率出现显著提升,英伟达股价都会经历剧烈波动。如DeepSeek时刻等,无论是混合精度训练、稀疏化、蒸馏,还是更高效的注意力机制,每一次都会有人喊出“算力需求到头了”。
持续学习之所以被放大,是因为它不只是效率优化,而是范式层面的转向,直接否定了“先训练、后推理”这个过去十年最成功的工业化流程。
研究者批评当下大模型方法的真实含义
包括伊利亚·苏茨克维尔在内的一批顶级研究者,对当前主流大模型路径的批评,本质上并不是“算力太多”,而是“学习方式不对”。他们认为,靠静态数据集反复拟合,无法产生真正的通用智能,因为模型缺乏在真实世界中持续修正自身表征的能力。
但这类批评在被媒体和市场转述时,往往被简化成一句话:未来模型不需要这么多算力。这种简化极具杀伤力,因为它直接触碰了英伟达估值的心理底线。
在投资者眼中,如果未来的智能系统可以像人一样,在与环境交互中逐步学习,那么一次性预训练的重要性就会下降,模型规模可能不再无限膨胀,算力投入也可能从“堆规模”转向“堆算法”。这种想象空间一旦成立,就足以引发对英伟达长期增长逻辑的系统性怀疑,即便这种怀疑在技术上并不严谨。
为什么持续学习被误读为算力需求下降
持续学习在概念层面给人的第一印象是“更聪明、更省算力”。因为人类学习新知识并不需要把整个大脑重新训练一遍,这种类比非常直观,也非常容易被媒体放大。
但问题在于,当前所有可行的持续学习框架,都不是免费午餐。
以谷歌深度思维提出的嵌套学习范式为例,其嵌套学习范式与传统Transformer架构不同,而英伟达是在传统Transformer架构下算力王者,还能成为下一个算法王者的适配王者吗?这里存在很多不确定!
但是,谷歌嵌套学习中明确指出推理不再是一次简单的前向传播,而是伴随着内部权重更新、记忆检索、元学习循环。
换句话说,每一次用户交互,都是一次潜在的高强度计算事件。这又依赖于算力强烈支持!
从资本逻辑看,为什么股价仍可能先跌
即便从长期看,持续学习未必真的减少算力需求,但资本市场并不以长期技术真相为唯一决策依据。股价更多反映的是预期变化的斜率,而不是最终结果。一旦市场相信未来模型训练不再需要动辄十万卡规模的集群,那么哪怕这种判断只降低了十个百分点的预期增长率,对英伟达这种高估值公司来说,都是灾难性的。
此外,持续学习的叙事还会引发第二层担忧:算力需求结构的变化。如果算力从集中式训练,转向分布式、在线、贴近终端的计算,那么数据中心级GPU的边际价值是否会下降,是否会被更专用、更低功耗的芯片替代。这种担忧本身就足以压缩估值倍数,而不需要等到技术真正落地。
值得注意的是:我们不能将英伟达等同于算力,就像算法创新不断,前有Transformer后有嵌套学习,我们不能用旧瓶装新酒的思维来追求确定性,要对未知抱开放心态。
反方观点:持续学习不是“省电模式”,而是“永不停歇的训练引擎”
很多人误以为持续学习就是让AI变“聪明”了,不用再喂那么多数据、不再需要庞大的训练集群。
但这种理解太朴素了。以谷歌DeepMind提出的“嵌套学习”为例,它的核心思想彻底模糊了“训练”和“推理”的边界。
传统大模型在用户提问时只做一次前向传播(forward pass),得出答案就完事。
但在嵌套学习架构下,每次用户交互都不仅是输出答案,更是模型内部启动一轮微型训练循环的机会——它会根据当前输入动态调整权重,进行内部计算优化,甚至重构局部网络结构。
这意味着什么?
意味着每一次点击、每一次对话、每一次API调用,都不再是轻量级的“读取操作”,而是一次包含反向传播、梯度更新、记忆整合的重型计算事件。用户越多,交互越频繁,系统内部的计算负载就越高。这不是省算力,这是把算力需求从“集中式训练”分散并嵌入到“每时每刻的实时交互”中。
算力消耗不是减少了,而是被“民主化”了——全天候、全场景、全用户地持续燃烧。
杰文斯悖论重现:算力越便宜,用得越狠
这里其实重现了经济学中的经典现象——杰文斯悖论(Jevons Paradox):当某种资源的使用效率提高、成本下降时,人类反而会以更大的规模消耗它,最终总用量不降反升。19世纪蒸汽机效率提升后,煤炭消耗暴增;今天云计算成本下降,反而催生了百亿参数模型和全民AI应用。
同样,如果嵌套学习让“边用边学”成为可能,AI公司将疯狂扩大用户规模——因为每个用户都成了免费的“训练节点”。
用户量越大,模型进化越快,系统对实时计算的需求就越恐怖。
而支撑这种实时、高频、高并发内部训练的,正是英伟达的GPU。
更别说,DeepMind论文中明确指出,嵌套学习架构“需要更高的内存占用”(higher memory usage)。这意味着不仅算力需求暴涨,显存带宽和容量也面临极限挑战。
英伟达的H100、B100、以及下一代Blackwell Ultra,不仅不会被弃用,反而可能供不应求。
更别提配套的NVLink、Grace Hopper超级芯片、以及InfiniBand网络——整个AI基础设施栈都将因持续学习而升级换代。
有意思的是,DeepMind论文特意强调嵌套学习对内存的高要求。传统推理只需加载模型权重,但持续学习需要在推理过程中动态缓存梯度、激活值、中间状态,甚至维护多个版本的局部参数。这会极大推高显存和系统内存的消耗。这种大量内存可能以大量SRAM和少量HBM为主新模式。