AMD全新MI355新卡性能神话：两周竟然干翻行业标杆

Modular团队仅用14天、两位工程师正常工时，就在全新AMD MI355上实现超越行业标杆的AI推理性能，靠的是其架构无关、参数化、库驱动的软件栈设计。

14天血战AMD MI355：两个工程师、零通宵、性能反杀全场，这背后到底藏着什么妖术？
Modular用14天把MAX推理框架搬到AMD最新MI355，零通宵、2人小队、20次轻量提交，性能反杀AMD官方vLLM 2.2倍，故事比好莱坞还离谱。

2025年8月底，AMD联合一家叫TensorWave的公司突然找到Modular，问他们能不能在9月16日的AMD媒体技术日上，现场演示MAX框架在全新MI355加速卡上的表现。问题来了：当时Modular全公司没人见过MI355，更别说调试了。从拿到硬件到正式演示，满打满算只有14天。

换做别的团队，这几乎是不可能完成的任务。因为现在的AI软件生态太碎了——硬件厂商只管卖芯片，研究人员忙着发论文，应用开发者则像拼乐高一样把各种工具东拼西凑。结果就是，每换一块新GPU，都得重写一堆底层代码，调参调到头秃。但Modular不一样，他们从第一天起就坚持一个理念：软件架构必须为“快速适配新硬件”而生。

他们的秘密武器有三个：

第一，架构无关设计。Mojo语言和MAX框架根本不硬编码任何GPU细节，所有硬件特性都通过可插拔的库来实现；第二，库驱动执行。调度、指令选择这些关键路径，不是写死在编译器里，而是通过抽象接口动态决定；第三，参数化算子。比如矩阵乘法的分块大小、SIMD宽度这些“魔法数字”，统统变成可调参数，新硬件一来，只需微调，不用重写。

正因为这套设计，当MI355硬件9月1日终于到手时，Modular团队其实早就准备好了。早在没拿到真机前，他们就用Mojo的离线代码生成能力，模拟新指令的执行路径，提前验证汇编输出是否符合预期。这种“无硬件开发”能力，简直像开了天眼。

第一天登录MI355服务器，他们直接运行amd-smi，看到六块MI355X加速卡静静待命，每块拥有近300GB显存。接着，一行pip install modular，启动MAX服务端点——居然直接跑起来了！虽然还没用上MI355的新特性，但基础功能全通，这已经碾压99%的AI框架。

接下来的一周，他们开始找性能瓶颈。通过内部性能估算工具，对比B200等竞品卡跑Llama、Gemma、Mistral等模型的数据，很快锁定关键：矩阵乘法（matmul）是突破口。MI355的新特性——比如更大的张量核心分块、160KB共享内存、转置加载指令——全都是为加速matmul设计的。

于是，两位工程师（其中一位中途还休了假！）开始优化那个只有500行的matmul内核。第一天，Mojo的性能是120万GFlop/s，而AMD官方的hipBLASLt库是156万。但经过几小时参数调整，Mojo当天就飙到161万GFlop/s，反超3%！这意味着，他们不仅追上了SOTA（state-of-the-art，业内顶尖水平），还略微领先。

第一周剩下的时间，他们做了三件事：一是让优化后的matmul适配各种模型中的不同矩阵形状；二是完善自动选择最优分块参数的启发式策略；三是搭建自动化benchmark系统，方便远程调试。中间当然也踩了坑，比如K8s集群缺GPU驱动、硬件配置错误，但都没耽误进度。

第二周，冲刺正式开始。除了继续打磨matmul，他们还开始优化注意力机制（Attention）内核。到周三，性能数据已经足够惊艳，可以和AMD共享了。与此同时，公司内部全员联动：IT部门确保现场能实时跑benchmark，设计团队制作演示PPT，产品团队提炼核心信息。而工程师们则通过第一周搭好的自动化管道，源源不断地把最新性能数据喂给其他团队。

到了周五，MAX的每日构建版在MI355上稳定运行，性能全面碾压AMD自己魔改的vLLM版本。最终，在9月16日的AMD媒体技术日上，MAX成为唯一能在总拥有成本（TCO）上显著优于NVIDIA Blackwell架构的推理方案——注意，是“优于”，不是“接近”。

更惊人的是，整个项目只用了20个小PR（代码提交），两位工程师全程正常上下班，零加班、零熬夜。这哪是工程奇迹？这简直是软件工程教科书级别的“架构即生产力”案例。

而这一切，只是开始。自那场演示后，Modular不仅完善了MI355支持，还迅速扩展到苹果芯片，并在NVIDIA Blackwell和AMD MI355X上双双拿下SOTA成绩。他们的目标从未改变：让AI软件摆脱对特定硬件的依赖，无论你用的是AMD、NVIDIA、苹果还是未来任何新芯片，都能一键获得顶尖性能。

所以，别再以为AI竞赛只是硬件的比拼。真正的胜负手，藏在那些看不见的软件架构里。Modular用14天证明：好的设计，不仅能跑得快，还能让人睡得好。

AMD全新MI355新卡性能神话：两周竟然干翻行业标杆

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道