Llama 4 + Apple Silicon 简直是天生一对。
原因在这儿:就像 DeepSeek V3/R1 一样,新的 Llama 4 各种版本都是超大的稀疏 MoE 模型。它们有海量的参数,但每次生成一个token词的时候,只有很少一部分参数在工作。我们事先也不知道哪些参数会动起来,所以所有参数都得随时待命,存在高速 GPU 内存里。
GPU内存虽快但贵。而苹果芯片用统一内存和UltraFusion技术,能用更低成本提供大量中等速度内存。
1个月前发布的M3 Ultra Mac Studio甚至支持512GB统一内存。不过内存这么大,速度就跟不上了。512GB 那款的内存刷新率(也就是 GPU 每秒能把内存扫一遍的次数,简单说就是带宽除以内存容量)只有 1.56 次/秒。
对比其他硬件:
- NVIDIA H100:37.5次/秒
- AMD MI300X:27.6次/秒
- 苹果M2 Ultra:4.16次/秒(比H100慢9倍)
- 苹果M3 Ultra:1.56次/秒(比H100慢24倍)
最好是工作任务的特性和硬件特性能对得上。不然的话,要么硬件太强用不完(浪费),要么硬件太弱撑不住(卡瓶颈)。
也就是理想情况是硬件特性要匹配任务需求。
这里关键看模型的"稀疏度"(即1-活跃参数/总参数),完全稠密模型稀疏度为0%。
各模型稀疏度:
- Llama 3.3 405B:总共 4050 亿,活跃 4050 亿,稀疏度 0%
- DeepSeek V3/R1:总共 6710 亿,活跃 370 亿,稀疏度 94.4%
- Llama 4 Scout:总共 1090 亿,活跃 170 亿,稀疏度 84.4%
- Llama 4 Maverick:总共 4000 亿,活跃 170 亿,稀疏度 95.75%(牛啊!!)
- Llama 4 Behemoth:总共 2 万亿,活跃 2880 亿,稀疏度 85.6%
稀疏度越高越适合苹果芯片
- 稀疏度越高,越适合 Apple Silicon,因为它的内存刷新率低。
- Llama 4 Maverick 是最适合 Apple Silicon 的。
- Llama 4 Scout 和 Behemoth 的稀疏度低一点。Behemoth版太大(2万亿参数),需要8台以上512GB的Mac Studio才能运行,但常规方法下速度会慢到1.39字/秒(根本没法用!)
不过,这不代表 Apple 没戏。
别忘了,Apple Silicon 跑这种模型是最省钱的,因为统一内存每 GB 的成本比 GPU 内存低多了:
- NVIDIA H100:80GB,3TB/秒,2.5 万美元,1GB 要 312.5 美元
- AMD MI300X:192GB,5.3TB/秒,2 万美元,1GB 要 104.17 美元
- Apple M3 Ultra:512GB,800GB/秒,9500 美元,1GB 只要 18.55 美元
想想看,要装下整个 Behemoth 模型(fp16):
- 用 50 个 H100:成本 125 万美元。
- 用 MI300X : 42 万美元。
- 而使用用 M3 Ultra 呢?只要 7.6 万美元。
如何用 M3 Ultra跑Llama4 Maverick呢?
用雷电Thunderbolt 5连接多台Mac,开发更好的分布式计算方法。
为了更好的分布式并行策略,让 MoE 模型在 batch_size=1 的情况下,用 Thunderbolt 5 连起来的 Mac 跑出高速度。
目前Apple Silicon 上唯一可行的分布式并行策略是"流水线并行"(每台Mac只需一次网络通信),而其他方法需要多次通信,比如专家并行或张量并行,每层模型得跳好多次网络:
- 比如Maverick有48层结构,生成每个token字需要48次通信,Thunderbolt 5每次延迟0.5毫秒,光通信就要24毫秒/字。
- Behemoth可能有100多层,延迟超50毫秒/字。
但是瓶颈还是在延迟上
exolabs 一直在试着解决这个问题(细节很快会公布)。用 10 台 M3 Ultra 512GB Mac Studio,理论上能让 Llama 4 Behemoth(fp16)跑到最高 27 个词/秒。实际能达到的估计在 10 到 20 之间,取决于 Mac 之间的延迟限制。
理论性能完整 breakdown 在这儿:
- Llama 4 Scout:1 台 M3 Ultra 512GB Mac Studio,9500 美元,23 个词/秒(流水线并行)
- Llama 4 Maverick:2 台 M3 Ultra 512GB Mac Studio,1.9 万美元,23 个词/秒(流水线并行),46 个词/秒(exolabs的实验性高级并行——理论最高值)
- Llama 4 Behemoth:10 台 M3 Ultra 512GB Mac Studio,9.5 万美元,1.39 个词/秒(流水线并行),27 个词/秒(exolabs的实验性高级并行——理论最高值)
点击标题有具体表格对比