Modular统一GPU:英伟达CUDA、AMD ROCm与苹果Metal


Modular 25.6实现跨英伟达、AMD与苹果GPU的统一AI计算,性能碾压主流框架,开源可验证,开发者即刻可用。

Modular公司正式发布了其平台25.6版本,这可不是一次普通的更新,而是一次真正意义上的“统一计算层”落地。简单说,就是不管你用的是英伟达最新的Blackwell B200、AMD刚推出的MI355X,还是你手里的MacBook搭载的苹果M系列芯片,现在统统都能用同一套软件跑AI模型,而且性能还特别猛!

先别急着划走,我知道很多人一听“统一GPU”就觉得又是营销话术。但这次不一样,Modular这次是实打实用数据说话,而且所有测试脚本全部开源,谁都能自己跑一遍验证。这背后到底发生了什么?为什么说这是AI开发者等了多年的一场“及时雨”?咱们一条条拆开来看。

为什么“统一计算”这么重要?

英伟达有CUDA,AMD有ROCm,苹果有Metal,每个平台都要单独写代码、调优、部署。结果就是,一个模型在英伟达上跑得飞快,在AMD上可能连启动都费劲,更别说苹果电脑了。这种割裂不仅浪费开发者时间,还让中小企业和独立开发者根本玩不起高端AI。

而Modular的野心,就是打破这个局面。他们打造了一个叫MAX的推理引擎,配合自家编程语言Mojo,构建出一个“写一次代码,跑遍所有GPU”的统一计算层。听起来是不是有点像当年Java喊的“一次编写,到处运行”?但这次,他们真的做到了,而且性能还碾压主流方案。

先看英伟达这边:

Modular在最新的Blackwell B200 GPU上跑MAX,结果直接刷新行业纪录。他们和AI语音公司Inworld合作的案例中,文本转语音模型的吞吐量提升了2.5倍,首字延迟更是缩短了3.3倍。要知道,Blackwell可是目前全球最强的数据中心GPU,能在这上面再榨出性能,说明Modular的底层优化已经深入到芯片架构级别。他们甚至专门写了四篇技术深挖文章,讲怎么把Blackwell的矩阵计算单元压榨到极限——这种透明度,在闭源当道的AI圈里简直清流。

更炸裂的是AMD这边:

AMD刚刚发布的MI355X本来就是冲着Blackwell来的,而Modular拿到硬件才两周半,就跑出了惊人数据:在某些工作负载下,MAX跑在MI355X上的性能,居然超过了vLLM跑在英伟达Blackwell上的表现!注意,vLLM可是目前最火的开源推理框架之一。这意味着什么?意味着AMD不仅硬件有性价比,配上Modular的软件,整体拥有成本(TCO)优势直接拉满。对于那些被英伟达价格压得喘不过气的公司来说,这简直是救命稻草。

而且Modular没藏着掖着,直接放出对比图:同样是MI355X,用MAX比用vLLM快出一大截。这说明性能提升不是靠硬件堆出来的,而是软件架构的胜利。更关键的是,他们才接触MI355X不到三周,未来还有巨大优化空间。可以预见,AMD生态的AI能力即将迎来爆发。

但Modular的格局不止于数据中心。他们这次还干了一件让无数Mac用户欢呼的事——正式支持苹果硅芯片GPU!没错,你现在就可以在MacBook上用Mojo语言直接调用M系列芯片的GPU算力,跑通前七个GPU编程谜题。虽然目前还不能跑完整的大模型,但官方已经明确表示,端到端生成式AI支持很快就会通过nightly版本上线。

这意味着什么?意味着学生、独立开发者、小团队,再也不用花几十万买服务器才能玩AI了。你的笔记本就是你的训练场。而且,你今天在Mac上写的代码,明天可以直接部署到英伟达B200或AMD MI355X上,几乎不用改——这才是真正的“民主化AI算力”。

除了硬件支持,Modular 25.6在开发体验上也下了狠功夫。现在你只需要一条命令:pip install mojo,就能装上完整的Mojo开发环境,包括编译器、调试器和语言服务器(LSP)。这意味着Python用户熟悉的开发流程,现在也能用在高性能AI编程上了。他们还彻底重写了VS Code插件,不仅更快更稳,还完全开源,支持稳定版和每日构建版自由切换。无论你用VS Code、Cursor还是其他IDE,都能获得丝滑体验。

Mojo语言本身也迎来大升级:崩溃时能显示堆栈追踪、trait支持默认方法、标准库大幅扩展……这些看似细节的改进,其实极大降低了高性能编程的门槛。要知道,Mojo的设计初衷就是融合Python的易用性和C++的性能,现在它正一步步兑现这个承诺。

说到Modular这家公司,可能很多人还不熟悉。它由前Google Brain和TensorFlow核心成员Chris Lattner创办——没错,就是那个开发了Swift语言和LLVM编译器的大神。他离开苹果后辗转Google、SiFive,最终创立Modular,目标就是解决AI基础设施的碎片化问题。团队里聚集了一大批编译器、系统和AI领域的顶尖工程师,技术底子非常硬。这次25.6版本的发布,可以说是他们多年积累的一次集中爆发。

为什么现在是“统一计算”的最佳时机?因为AI行业正站在爆发临界点。模型越来越大,推理需求爆炸式增长,各国都在疯狂建AI数据中心。但硬件厂商各自为战,软件生态割裂,导致大量算力被浪费在适配和调试上。Anthropic等头部公司已经公开吐槽:同时维护NVIDIA、TPU和Trainium的代码简直是噩梦。Modular的出现,正好填补了这个空白——用一套高性能、可移植的软件栈,打通所有硬件。

最后划重点:Modular 25.6不是概念,而是可立即上手的工具。你可以用他们的MAX容器在NVIDIA或AMD GPU上部署主流大模型,也可以pip安装Mojo开始GPU编程。如果你手头正好有B200或MI355X,官方还提供了benchmark脚本,让你亲自验证那些性能数据。所有代码和日志都开放在社区论坛,欢迎任何人参与共建。