Modular团队仅用14天、两位工程师正常工时,就在全新AMD MI355上实现超越行业标杆的AI推理性能,靠的是其架构无关、参数化、库驱动的软件栈设计。
14天血战AMD MI355:两个工程师、零通宵、性能反杀全场,这背后到底藏着什么妖术?
Modular用14天把MAX推理框架搬到AMD最新MI355,零通宵、2人小队、20次轻量提交,性能反杀AMD官方vLLM 2.2倍,故事比好莱坞还离谱。
2025年8月底,AMD联合一家叫TensorWave的公司突然找到Modular,问他们能不能在9月16日的AMD媒体技术日上,现场演示MAX框架在全新MI355加速卡上的表现。问题来了:当时Modular全公司没人见过MI355,更别说调试了。从拿到硬件到正式演示,满打满算只有14天。
换做别的团队,这几乎是不可能完成的任务。因为现在的AI软件生态太碎了——硬件厂商只管卖芯片,研究人员忙着发论文,应用开发者则像拼乐高一样把各种工具东拼西凑。结果就是,每换一块新GPU,都得重写一堆底层代码,调参调到头秃。但Modular不一样,他们从第一天起就坚持一个理念:软件架构必须为“快速适配新硬件”而生。
他们的秘密武器有三个:
第一,架构无关设计。Mojo语言和MAX框架根本不硬编码任何GPU细节,所有硬件特性都通过可插拔的库来实现;第二,库驱动执行。调度、指令选择这些关键路径,不是写死在编译器里,而是通过抽象接口动态决定;第三,参数化算子。比如矩阵乘法的分块大小、SIMD宽度这些“魔法数字”,统统变成可调参数,新硬件一来,只需微调,不用重写。
正因为这套设计,当MI355硬件9月1日终于到手时,Modular团队其实早就准备好了。早在没拿到真机前,他们就用Mojo的离线代码生成能力,模拟新指令的执行路径,提前验证汇编输出是否符合预期。这种“无硬件开发”能力,简直像开了天眼。
第一天登录MI355服务器,他们直接运行amd-smi,看到六块MI355X加速卡静静待命,每块拥有近300GB显存。接着,一行pip install modular,启动MAX服务端点——居然直接跑起来了!虽然还没用上MI355的新特性,但基础功能全通,这已经碾压99%的AI框架。
接下来的一周,他们开始找性能瓶颈。通过内部性能估算工具,对比B200等竞品卡跑Llama、Gemma、Mistral等模型的数据,很快锁定关键:矩阵乘法(matmul)是突破口。MI355的新特性——比如更大的张量核心分块、160KB共享内存、转置加载指令——全都是为加速matmul设计的。
于是,两位工程师(其中一位中途还休了假!)开始优化那个只有500行的matmul内核。第一天,Mojo的性能是120万GFlop/s,而AMD官方的hipBLASLt库是156万。但经过几小时参数调整,Mojo当天就飙到161万GFlop/s,反超3%!这意味着,他们不仅追上了SOTA(state-of-the-art,业内顶尖水平),还略微领先。
第一周剩下的时间,他们做了三件事:一是让优化后的matmul适配各种模型中的不同矩阵形状;二是完善自动选择最优分块参数的启发式策略;三是搭建自动化benchmark系统,方便远程调试。中间当然也踩了坑,比如K8s集群缺GPU驱动、硬件配置错误,但都没耽误进度。
第二周,冲刺正式开始。除了继续打磨matmul,他们还开始优化注意力机制(Attention)内核。到周三,性能数据已经足够惊艳,可以和AMD共享了。与此同时,公司内部全员联动:IT部门确保现场能实时跑benchmark,设计团队制作演示PPT,产品团队提炼核心信息。而工程师们则通过第一周搭好的自动化管道,源源不断地把最新性能数据喂给其他团队。
到了周五,MAX的每日构建版在MI355上稳定运行,性能全面碾压AMD自己魔改的vLLM版本。最终,在9月16日的AMD媒体技术日上,MAX成为唯一能在总拥有成本(TCO)上显著优于NVIDIA Blackwell架构的推理方案——注意,是“优于”,不是“接近”。
更惊人的是,整个项目只用了20个小PR(代码提交),两位工程师全程正常上下班,零加班、零熬夜。这哪是工程奇迹?这简直是软件工程教科书级别的“架构即生产力”案例。
而这一切,只是开始。自那场演示后,Modular不仅完善了MI355支持,还迅速扩展到苹果芯片,并在NVIDIA Blackwell和AMD MI355X上双双拿下SOTA成绩。他们的目标从未改变:让AI软件摆脱对特定硬件的依赖,无论你用的是AMD、NVIDIA、苹果还是未来任何新芯片,都能一键获得顶尖性能。
所以,别再以为AI竞赛只是硬件的比拼。真正的胜负手,藏在那些看不见的软件架构里。Modular用14天证明:好的设计,不仅能跑得快,还能让人睡得好。