Modular统一GPU：英伟达CUDA、AMD ROCm与苹果Metal

Modular 25.6实现跨英伟达、AMD与苹果GPU的统一AI计算，性能碾压主流框架，开源可验证，开发者即刻可用。

Modular公司正式发布了其平台25.6版本，这可不是一次普通的更新，而是一次真正意义上的“统一计算层”落地。简单说，就是不管你用的是英伟达最新的Blackwell B200、AMD刚推出的MI355X，还是你手里的MacBook搭载的苹果M系列芯片，现在统统都能用同一套软件跑AI模型，而且性能还特别猛！

先别急着划走，我知道很多人一听“统一GPU”就觉得又是营销话术。但这次不一样，Modular这次是实打实用数据说话，而且所有测试脚本全部开源，谁都能自己跑一遍验证。这背后到底发生了什么？为什么说这是AI开发者等了多年的一场“及时雨”？咱们一条条拆开来看。

为什么“统一计算”这么重要？

英伟达有CUDA，AMD有ROCm，苹果有Metal，每个平台都要单独写代码、调优、部署。结果就是，一个模型在英伟达上跑得飞快，在AMD上可能连启动都费劲，更别说苹果电脑了。这种割裂不仅浪费开发者时间，还让中小企业和独立开发者根本玩不起高端AI。

而Modular的野心，就是打破这个局面。他们打造了一个叫MAX的推理引擎，配合自家编程语言Mojo，构建出一个“写一次代码，跑遍所有GPU”的统一计算层。听起来是不是有点像当年Java喊的“一次编写，到处运行”？但这次，他们真的做到了，而且性能还碾压主流方案。

先看英伟达这边：

Modular在最新的Blackwell B200 GPU上跑MAX，结果直接刷新行业纪录。他们和AI语音公司Inworld合作的案例中，文本转语音模型的吞吐量提升了2.5倍，首字延迟更是缩短了3.3倍。要知道，Blackwell可是目前全球最强的数据中心GPU，能在这上面再榨出性能，说明Modular的底层优化已经深入到芯片架构级别。他们甚至专门写了四篇技术深挖文章，讲怎么把Blackwell的矩阵计算单元压榨到极限——这种透明度，在闭源当道的AI圈里简直清流。

更炸裂的是AMD这边：

AMD刚刚发布的MI355X本来就是冲着Blackwell来的，而Modular拿到硬件才两周半，就跑出了惊人数据：在某些工作负载下，MAX跑在MI355X上的性能，居然超过了vLLM跑在英伟达Blackwell上的表现！注意，vLLM可是目前最火的开源推理框架之一。这意味着什么？意味着AMD不仅硬件有性价比，配上Modular的软件，整体拥有成本（TCO）优势直接拉满。对于那些被英伟达价格压得喘不过气的公司来说，这简直是救命稻草。

而且Modular没藏着掖着，直接放出对比图：同样是MI355X，用MAX比用vLLM快出一大截。这说明性能提升不是靠硬件堆出来的，而是软件架构的胜利。更关键的是，他们才接触MI355X不到三周，未来还有巨大优化空间。可以预见，AMD生态的AI能力即将迎来爆发。

但Modular的格局不止于数据中心。他们这次还干了一件让无数Mac用户欢呼的事——正式支持苹果硅芯片GPU！没错，你现在就可以在MacBook上用Mojo语言直接调用M系列芯片的GPU算力，跑通前七个GPU编程谜题。虽然目前还不能跑完整的大模型，但官方已经明确表示，端到端生成式AI支持很快就会通过nightly版本上线。

这意味着什么？意味着学生、独立开发者、小团队，再也不用花几十万买服务器才能玩AI了。你的笔记本就是你的训练场。而且，你今天在Mac上写的代码，明天可以直接部署到英伟达B200或AMD MI355X上，几乎不用改——这才是真正的“民主化AI算力”。

除了硬件支持，Modular 25.6在开发体验上也下了狠功夫。现在你只需要一条命令：pip install mojo，就能装上完整的Mojo开发环境，包括编译器、调试器和语言服务器（LSP）。这意味着Python用户熟悉的开发流程，现在也能用在高性能AI编程上了。他们还彻底重写了VS Code插件，不仅更快更稳，还完全开源，支持稳定版和每日构建版自由切换。无论你用VS Code、Cursor还是其他IDE，都能获得丝滑体验。

Mojo语言本身也迎来大升级：崩溃时能显示堆栈追踪、trait支持默认方法、标准库大幅扩展……这些看似细节的改进，其实极大降低了高性能编程的门槛。要知道，Mojo的设计初衷就是融合Python的易用性和C++的性能，现在它正一步步兑现这个承诺。

说到Modular这家公司，可能很多人还不熟悉。它由前Google Brain和TensorFlow核心成员Chris Lattner创办——没错，就是那个开发了Swift语言和LLVM编译器的大神。他离开苹果后辗转Google、SiFive，最终创立Modular，目标就是解决AI基础设施的碎片化问题。团队里聚集了一大批编译器、系统和AI领域的顶尖工程师，技术底子非常硬。这次25.6版本的发布，可以说是他们多年积累的一次集中爆发。

为什么现在是“统一计算”的最佳时机？因为AI行业正站在爆发临界点。模型越来越大，推理需求爆炸式增长，各国都在疯狂建AI数据中心。但硬件厂商各自为战，软件生态割裂，导致大量算力被浪费在适配和调试上。Anthropic等头部公司已经公开吐槽：同时维护NVIDIA、TPU和Trainium的代码简直是噩梦。Modular的出现，正好填补了这个空白——用一套高性能、可移植的软件栈，打通所有硬件。

最后划重点：Modular 25.6不是概念，而是可立即上手的工具。你可以用他们的MAX容器在NVIDIA或AMD GPU上部署主流大模型，也可以pip安装Mojo开始GPU编程。如果你手头正好有B200或MI355X，官方还提供了benchmark脚本，让你亲自验证那些性能数据。所有代码和日志都开放在社区论坛，欢迎任何人参与共建。

Modular统一GPU：英伟达CUDA、AMD ROCm与苹果Metal

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道