英伟达这次又让整个硅谷失眠了!就在昨天发布的Rubin CPX专用加速器,直接把AI推理芯片设计理念劈成两半——以前所有公司都在堆内存带宽,现在老黄告诉你预填充阶段真正需要的是计算力爆炸!
最新的Rubin CPX芯片,专门为AI推理中的“预填阶段”量身定做,半导体行业直接炸了锅。很多专家甚至认为,这一招可能会让AMD不得不推倒重来,重新回到设计桌前。
为什么英伟达要做Rubin CPX?
大家知道,大模型推理分成两个阶段:第一步叫“预填”,也就是从用户输入里生成第一个词;第二步叫“解码”,就是后面一个接一个的词全出来。问题是,这两个阶段的计算特点完全不一样。
预填阶段特别吃算力,但是对内存带宽要求不高;解码阶段反过来,对带宽要求极高,但是对算力压力不大。那现在的问题来了,大家过去都是把这两种任务丢到同一块超贵的GPU上跑,结果就是大量资源被浪费,性价比低得让人心疼。
半导体分析机构就指出,这种混着跑的方式简直太傻。高带宽显存HBM超级贵,可是预填阶段根本用不着。于是英伟达干脆玩了一招“拆解式服务”,把预填和解码分开,各自用最合适的硬件去跑。听起来是不是有点像餐厅点餐,一个灶专门炒辣的,一个灶只煲汤,效率立马翻倍。
Rubin CPX到底牛在哪?
Rubin CPX这块芯片的核心思路就是“少内存、多算力”。它配备的是128GB的GDDR7显存,带宽只有2TB/s,但算力直接拉满——20 PFLOPS的FP4计算能力!而对比一下标准的Rubin R200 GPU,那可是33.3 PFLOPS算力、20.5TB/s带宽、288GB HBM4显存。
关键点来了,Rubin CPX完全不玩那些昂贵的高级封装技术,也不要NVLink这种超级高速互连,而是用成本更低的PCIe Gen 6。结果是什么?据测算,它的制造成本可能只有R200的四分之一!你没听错,就是四分之一。
等于英伟达用更便宜的方案,搞出了一块正好对口需求的芯片,把钱花在刀刃上。
背景与动机
- 推理分两步:prefill(生成 KVCache,算力密集但内存带宽需求低)和 decode(生成新 token,带宽密集)。
- 现有 GPU(比如 R200)大量使用 HBM,prefill 阶段带宽严重浪费,成本过高。
- Rubin CPX 的推出就是为了解决这个“HBM 浪费”的痛点:prefill 用更便宜、带宽较低的 GDDR7,decode 继续用 HBM。
Rubin CPX 芯片本身
- 单芯片 20 PFLOPS dense FP4(30 PFLOPS sparse),128GB GDDR7,2TB/s 带宽。
- 对比 R200:33.3 PFLOPS dense,288GB HBM,20.5 TB/s 带宽。
- 成本极大降低:避免了 HBM,避免了复杂的 CoWoS 封装。整体架构更接近消费级 GPU(RTX 5090)。
- 功耗 ~800W,模块总功耗 ~880W,需要液冷。
Rack 架构扩展Rubin CPX 引入后,VR200 系列有三种机柜形态:
- VR200 NVL144:传统,72 个 R200。
- VR200 NVL144 CPX:72 R200 + 144 CPX 混合,每个 tray 上 4 R200 + 8 CPX。功耗 ~370kW。
- Vera Rubin CPX Dual Rack:一台 NVL144(R200)+ 一台全 CPX rack。适合灵活调整 prefill/decode 比例。
现在明白为什么说竞争对手要哭晕在厕所了吗?AMD和那些定制芯片公司好不容易才摸到72卡机架设计的门槛,英伟达反手就甩出三套机架方案:纯Rubin的VR200 NVL144、混合配置的VR200 NVL144 CPX、还有双机架联动的VR CPX双机架。最猛的混合机架能塞进396颗芯片,整机功耗直奔370千瓦,相当于同时点亮300台家用冰箱!
其实这个设计的精髓在于看透了AI推理的本质拆分。就像餐厅后厨要分洗菜区和炒菜区(类似“预制菜”“中央厨房” 当然你需要懂得两个词语上下文还是在中文里有微妙区别):预填充阶段好比洗菜备料,需要的是大水槽和案板(计算单元);解码阶段好比猛火快炒,需要的是大功率灶台(内存带宽)。以前所有芯片都是让米其林大灶台既洗菜又炒菜,现在英伟达直接给厨房配了专业洗菜工!
说到省钱效果更是吓人。用GDDR7代替HBM内存直接让每GB成本降了50%以上,再加上取消NVLink改用PCIe Gen6互联,又省掉10%的芯片成本。换算成实际成本,同样跑预填充任务,用R200芯片每小时要浪费0.9美元,用CPX芯片几乎零浪费——这放在动辄上万张卡的数据中心里,省出来的钱都够再建个新机房了!
不过这套方案也不是完美无缺。固定比例的预填充/解码芯片配置会限制灵活性,就像买了固定搭配的预制菜就不能挑挑拣拣,麻辣豆腐说不要麻辣,那么厨师只能帮你把预制菜里面的辣椒吃了。
而且PCIe Gen6的传输速度虽然够用,但对于需要专家并行计算的大模型还是会捉襟见肘,最新PCIe 8已经出来,这些都是甜蜜的烦恼了,毕竟现在除了英伟达,其他玩家连上牌桌的资格都没有!
技术实现细节
- 模块化、无缆设计,信号通过中背板 PCB + Amphenol Paladin B2B 连接器。
- VR NVL144 CPX 一个 tray 就塞进了 22 颗 Nvidia 芯片(其中 14 颗是 XPU)。
- 冷却设计采用类似 GTX295 的夹层液冷冷板,充分利用 1U 高度。
AMD压力山大
AMD原本寄希望于MI400系统,想要在机架级架构上和英伟达的Rubin体系一较高下。可现在问题来了,MI400并没有单独的预填芯片,意味着他们的方案在推理场景里的总拥有成本(TCO)会更高。再加上Rubin R200把带宽拉到了20.5 TB/s,AMD原本在带宽上的优势一下子没了。
更扎心的是,这种差距不是单纯拼算力能补的,而是架构层面的落后。就像英伟达在系统层面下了一盘大棋,直接改变了行业的玩法。AMD如果不跟进,不是慢半拍,而是可能永远落后。
其他大厂也不好过
谷歌、亚马逊云、Meta这些巨头,原本都有自研AI加速器的计划。但问题是,他们现在也得考虑重新搞一个“预填芯片”。这意味着什么?意味着时间又要被拖延。英伟达已经不仅仅是在做芯片,而是直接在系统层级定规则,逼得所有人都得跟着他的剧本走。
最后透露个行业内幕:为什么英伟达敢这么激进?因为他们的芯片团队早就摸透了摩尔定律的终点在哪!当制程工艺逼近物理极限,通过架构创新提升性价比就成了唯一出路。Rubin CPX这个设计至少领先行业三年,等到竞争对手终于反应过来时,英伟达的下一代解码专用芯片估计都要量产了——到时候又是一次降维打击!
英伟达现在不只是芯片的领先者,而是AI基础设施的规则制定者。其他人要么学英伟达的做法,要么就等着继续被甩开。
总结
Rubin CPX的意义不只是便宜和高效,而是重新定义了AI推理的硬件架构。预填和解码的分离,让计算资源利用率最大化,成本最小化。英伟达这一招几乎是卡位成功,把竞争对手逼进了死角。