IBM研究团队指出,当前AI高能耗、低效率的根源在于沿用60余年的冯·诺依曼架构,正推动类脑计算与存算一体芯片突破瓶颈。
为什么训练一个大模型动不动就要烧掉几百万度电?为什么你家显卡跑AI时风扇狂转、电费飙升,却感觉速度还是慢得像蜗牛?
芯片架构!没错,就是那个你可能在大学计算机课上听过、但一直没当回事的“冯·诺依曼架构”。
它,正在悄悄拖垮整个AI时代的算力效率!
这篇深度解析来自IBM研究院的重磅博客,由三位核心科学家——杰弗里·伯尔(Geoffrey Burr)、曼努埃尔·勒加洛-布尔多(Manuel Le Gallo-Bourdeau)和辛宇(Sidney)蔡(Hsinyu Tsai)联合撰写。他们是真正在实验室里造芯片、调模型、测能耗的一线攻坚者。
- 伯尔是IBM研究院资深科学家,长期研究新型存储与计算架构;
- 勒加洛-布尔多专注类脑计算与相变存储器(PCM);
- 而蔡博士则深耕AI硬件能效优化!
那么,问题来了:冯·诺依曼架构到底是什么?为什么它成了AI的“绊脚石”?
冯·诺依曼瓶颈以数学家和物理学家约翰·冯·诺依曼的名字命名,他于 1945 年首次发布了存储程序计算机构想的草案。在那篇论文中,他描述了一种计算机,它具有处理单元、控制单元、存储数据和指令的内存、外部存储器以及输入/输出机制。
他的描述并没有提到任何具体的硬件——可能是为了避免与他担任顾问的美国陆军发生安全审查问题。然而,几乎没有任何科学发现是由一个人完成的,冯·诺依曼架构也不例外。冯·诺依曼的工作基于 J. Presper Eckert 和 John Mauchly 的工作,他们发明了世界上第一台数字计算机电子数字积分计算机 (ENIAC)。自那篇论文发表以来,冯·诺依曼架构就成为了规范。
简单说,自1945年数学家约翰·冯·诺依曼提出“存储程序计算机”概念以来,几乎所有电脑、手机、服务器都遵循同一个设计逻辑:计算单元(CPU/GPU)和存储单元(内存/硬盘)是分开的,中间靠一条“数据总线”连接。
你想算个数?先把数据从内存搬进处理器,算完再搬回去。
听起来很合理,对吧?毕竟灵活、模块化、好升级——这也是它统治计算世界六十多年的原因。
但AI的玩法,完全不一样!
AI模型,尤其是大语言模型(LLM),动辄上百亿、上千亿参数。这些参数就是“模型权重”,相当于神经网络的“记忆”。训练或推理时,系统要反复读取这些权重,进行海量的矩阵乘法运算。
而这些运算本身其实很简单——加加乘乘而已。真正耗时耗电的,不是“算”,而是“搬”!数据在内存和处理器之间来回穿梭,就像快递员每天跑几十趟仓库和工厂,光在路上就累垮了。
这就是著名的“冯·诺依曼瓶颈”——计算速度飞快,但数据搬运太慢,导致处理器大部分时间在“干等”。
IBM科学家算过一笔账:在现代AI任务中,高达90%的能耗花在数据传输上,真正用于计算的不到10%!
十年前这还不算大问题,因为那时处理器和内存本身也不快。可如今,芯片制程进步神速,计算单元快如闪电,但数据搬运的物理极限却卡在那儿——电线越长,充放电越耗能,延迟越高。尤其当你用多块GPU训练大模型时,权重甚至要跨芯片、跨板卡传输,能耗直接爆炸。
更扎心的是:AI的计算模式高度重复、高度可预测。它不像你刷网页、打游戏那样任务杂乱,需要灵活切换。AI就是一遍又一遍地“用固定权重处理新数据”,本质上是个“内存密集型”任务,而非“计算密集型”。
冯·诺依曼架构的“灵活切换”优势,在这里反而成了累赘。
那怎么办?难道要推翻整个计算机体系?别急,IBM已经动手了!
他们的解决方案,叫“打破冯·诺依曼瓶颈”——核心思路就一个:别搬数据了,直接在内存里算!
这叫“存算一体”(In-Memory Computing)。想象一下,传统方式是你把食材从冰箱搬到厨房灶台做菜;而存算一体,就是灶台直接装在冰箱里,边存边炒,省时省力。IBM团队用两种技术路线实现它:
第一种是“模拟存算”,比如用“相变存储器”(PCM)。这种材料能通过电流改变玻璃态物质的电阻,直接把模型权重“写”进物理状态里。计算时,利用欧姆定律和基尔霍夫定律,让电流自然完成矩阵乘法——物理定律替你算,几乎不耗额外能量!勒加洛-布尔多说:“我们用物理本身来做计算,而不是靠逻辑门。”但缺点也很明显:PCM写入次数有限,不适合频繁训练,更适合部署已训练好的模型。
第二种是“数字近存计算”,代表作就是IBM最新发布的AIU芯片“北极星”(NorthPole)。它没用模拟技术,而是把大量SRAM(静态随机存储器)直接集成在每个计算核心旁边,形成“本地内存池”。数据不用跑远路,就近处理。实测结果震撼:在运行一个30亿参数的代码大模型(基于IBM Granite-8B)时,北极星比市面上最省电的GPU快47倍,能效高73倍!这意味着,原本要跑几个月的训练任务,现在可能几周搞定,电费省下一大笔。
当然,科学家们也清醒:冯·诺依曼架构不会消失。它在图形渲染、科学计算、通用软件等场景依然无敌。就像伯尔打的比方:“冯·诺依曼就像一家全能熟食店,今天做火腿三明治,明天做鸡肉卷,切换自如;而AI芯片就像专做5000份金枪鱼三明治的流水线——极致高效,但只干一件事。”
所以未来不是“取代”,而是“融合”。IBM的新AI芯片里,依然保留了一小块传统冯·诺依曼单元,专门处理高精度浮点运算(比如32位、64位),因为存算一体目前精度有限,干不了精细活。勒加洛-布尔多总结道:“合理的架构,是冯·诺依曼与非冯·诺依曼处理器的混合体,各司其职。”
更前沿的,IBM还在搞“聚合光学互连”——用聚合物光波导把光纤直接接到芯片边缘,用光代替电传输数据。光速快、带宽大、能耗低,能进一步缩短“内存到计算”的物理距离,堪称给AI芯片装上“光速高速公路”。
说到底,AI的能源危机,不只是算法问题,更是硬件底层的结构性矛盾。当我们疯狂堆参数、扩模型时,别忘了:芯片架构的天花板,可能比你想象中更低。而IBM这群科学家,正在从物理层面重构计算的未来——不是让AI跑得更快,而是让它跑得更聪明、更省力。