新的 Nvidia Blackwell Ultra 平台是去年刚推出的 Blackwell 架构的升级版。它包括 Nvidia GB300 NVL72 机架级解决方案和 Nvidia HGX B300 NVL16 系统。
这次发布后,Nvidia 第一次开始按计划每年更新一次 AI 加速器。据公司说,GB300 NVL72 在 FP4 精度下的 AI 性能比 GB200 NVL72 高了 1.5 倍。
思科、戴尔科技、惠普企业、联想、超微这些合作伙伴会从 2025 年下半年开始卖新的 Blackwell Ultra 产品。像 AWS、谷歌云、微软 Azure、Oracle 云这些云服务商,还有 CoreWeave 这种 GPU 云提供商,会先推出基于 Blackwell Ultra 的服务。
Nvidia 还宣布了搭载 Blackwell Ultra GPU 的 DGX SuperPOD。DGX GB300 系统用的是 Nvidia Grace Blackwell Ultra 超级芯片(有 36 个 Nvidia Grace CPU 和 72 个 Nvidia Blackwell Ultra GPU),还用了液冷机架设计。每个 DGX GB300 系统还配了 72 个 Nvidia ConnectX-8 SuperNIC,网速能达到 800 Gb/s。
如果不想用液冷的,Nvidia 还提供了基于 Nvidia B300 NVL16 架构的风冷 DGX B300 系统,专门给还没用液冷的数据中心设计。
1、Nvidia Dynamo:专门为 AI 推理优化的推理软件
除了新硬件,Nvidia 还推出了 Dynamo,这是个新的开源推理软件,目的是加速和扩展 AI 推理模型。
Dynamo 是 Triton 推理服务器的接班人,专门为了让 AI 服务的令牌吞吐量最大化而开发的。简单说,就是能处理更多请求,还能降低每个请求的成本——这对 AI 服务赚钱很关键。
这个软件用了一种叫“分解服务”的方法,能协调和加速几千个 GPU 之间的推理通信。它把大型语言模型 (LLM) 的处理和生成阶段分开,交给不同的 GPU,这样每个阶段都能根据自己的需求单独优化。
Nvidia 说,Dynamo 让现在 Hopper 平台上用同样数量 GPU 跑 Llama 模型的“AI 工厂”性能(和可能的收入)翻倍。据说在 GB200 NVL72 机架的大集群上跑 DeepSeek-R1 模型时,这软件让每个 GPU 生成的令牌数增加了 30 多倍。
为了达到这些性能提升,Dynamo 加了很多提高吞吐量和降低成本的功能。比如,它能动态加减或重新分配 GPU,来应对不同的请求量和类型,还能认出大集群里特定的 GPU,尽量减少响应计算时间,然后按需分配请求。
像 Perplexity AI 这样的公司已经打算用 Dynamo 了。
2、Llama Nemotron:给推理和代理 AI 用的 AI 模型
Nvidia 还宣布推出全新 Llama Nemotron 模型系列,能推理,专门给开发者和企业做高级 AI 代理的基础。据说各种测试里准确率比基础 Llama 模型高 20%。这些模型以 Nvidia NIM 微服务的形式提供,有 Nano、Super、Ultra 三个尺寸。现在还没跟其他推理模型做过真正有意义的对比。不过,因为针对 Nvidia 芯片和 FP4 精度优化,这些模型跑起来据说比同类开放推理模型快五倍,成本也应该会低很多。
据新闻稿说,埃森哲、Amdocs、Atlassian、Box、Cadence、CrowdStrike、德勤、IQVIA、微软、SAP、ServiceNow 这些公司已经跟 Nvidia 合作开发新的推理模型和相关软件。Nvidia 还推出了 AI-Q,一个基于 LangGraph 的代理系统蓝图。
3、硅光子学助力革命性网络技术
Nvidia 还推出了 Nvidia Spectrum-X Photonics 和 Nvidia Quantum-X Photonics,这是把光通信直接加到交换机里的新网络技术。这些交换机打算大幅降低数据中心通信的能耗和运营成本。
跟传统方法比,新交换机每端口能提供 1.6 兆兆位每秒的传输速度,能源效率高 3.5 倍,信号完整性高 63 倍,网络弹性高 10 倍。Nvidia Quantum-X Photonics InfiniBand 交换机预计今年晚些时候上市,Nvidia Spectrum-X Photonics 以太网交换机计划 2026 年发布。
Nvidia 老板黄仁勋说,这打破了现在网络的一些限制,可能会给几百万个 GPU 集群打开大门。
4、配 DGX Spark 和 DGX Station 的个人 AI 超级计算机
给开发人员、研究人员和数据科学家用的,Nvidia 推出了个人 AI 计算机 DGX Spark和 DGX Station。
Nvidia 说 DGX Spark(以前叫 Digits)是全球最小的 AI 超级计算机,用的是 Nvidia GB10 Grace Blackwell 超级芯片。DGX Station 则是第一款用 Nvidia GB300 Grace Blackwell Ultra Desktop 超级芯片的桌面系统,有 784 GB 一致内存,能跑大型训练和推理任务。据黄仁勋说,这是专为 AI 原生开发者和跑 AI 原生应用设计的新型计算机。
对设计师、开发人员、数据科学家和创意人员,Nvidia 还推出了很受期待的 Nvidia RTX PRO Blackwell 系列。新 GPU 用 Nvidia Streaming Multiprocessor、第四代 RT Cores 和第五代 Tensor Cores,性能更高。它们还支持更大更快的 GDDR7 内存,给工作站和服务器提供高达 96 GB 内存,给笔记本提供高达 24 GB 内存。
机器人领域,Nvidia 展示了 Isaac GR00T N1,公司说这是第一个开放、完全可定制的通用人形推理和技能能力基础模型。这模型以前推出过,但据说现在正式上市了。在一次演示里,他们展示了机器人制造商怎么用这模型控制人形机器人。
Nvidia 还宣布跟 Google DeepMind 和迪士尼研究院合作开发 Newton,一个开源物理引擎,帮机器人更精确地完成复杂任务。Google DeepMind 打算把 Newton 的一个版本加到 MuJoCo 训练平台里。
5、Cosmos:物理人工智能的世界基础模型
关于 Nvidia Cosmos,公司推出了新的世界基础模型 (WFM):Cosmos Transfer 把分割地图和激光雷达扫描这些结构化数据变成逼真的视频——很适合机器人用的合成训练数据。Cosmos Predict 从多模态输入生成虚拟世界状态,还能用新模型预测中间动作或运动轨迹。据 Nvidia 说,在 Grace Blackwell 系统上,这能实时生成世界。
Cosmos Reason 是这组合的补充,是个有时空感知能力的开放式推理模型,能解释视频数据并预测交互结果。据 Nvidia 说,Agility Robotics、1X、Skild AI 这些公司已经在用这些技术改进自主系统。
6、Nvidia 的 Vera Rubin GPU 要达到 50 petaflops 计算能力
Nvidia 老板黄仁勋宣布,Vera Rubin GPU 会在 2026 年中期发布。这款 GPU 结合了两块芯片和 Nvidia 新款“Vera”CPU,预计能达到 50 petaflops 的 AI 计算速度,是现在 Blackwell 芯片性能的两倍。这 CPU 速度也是前代的两倍。黄仁勋还透露了多 GPU Vera Rubin Ultra 和四 GPU Rubin Next 的计划,打算 2027 年底推出。另外,同样用 Vera CPU 的 Feynman GPU 计划 2028 年推出,但没给更多细节。
Nvidia 还在波士顿设了个量子计算研究中心,把顶尖量子硬件跟 AI 超级计算机结合。这中心会跟 Quantinuum、Quantum Machines、QuEra Computing 合作,预计今年晚些时候开始运营。
靠 Nvidia AI 数据平台,公司推出了可定制的参考架构;在气候技术上,Nvidia 提出了用于地球-2 天气分析的 Nvidia Omniverse 蓝图,加速开发更准的天气预报方案。