苹果M3+Llama 4=本地AI天作之合!


Llama 4 + Apple Silicon 简直是天生一对。

原因在这儿:就像 DeepSeek V3/R1 一样,新的 Llama 4 各种版本都是超大的稀疏 MoE 模型。它们有海量的参数,但每次生成一个token词的时候,只有很少一部分参数在工作。我们事先也不知道哪些参数会动起来,所以所有参数都得随时待命,存在高速 GPU 内存里。

GPU内存虽快但贵。而苹果芯片用统一内存和UltraFusion技术,能用更低成本提供大量中等速度内存。

1个月前发布的M3 Ultra Mac Studio甚至支持512GB统一内存。不过内存这么大,速度就跟不上了。512GB 那款的内存刷新率(也就是 GPU 每秒能把内存扫一遍的次数,简单说就是带宽除以内存容量)只有 1.56 次/秒。

对比其他硬件:

  • NVIDIA H100:37.5次/秒
  • AMD MI300X:27.6次/秒
  • 苹果M2 Ultra:4.16次/秒(比H100慢9倍)
  • 苹果M3 Ultra:1.56次/秒(比H100慢24倍)

最好是工作任务的特性和硬件特性能对得上。不然的话,要么硬件太强用不完(浪费),要么硬件太弱撑不住(卡瓶颈)。
也就是理想情况是硬件特性要匹配任务需求。

这里关键看模型的"稀疏度"(即1-活跃参数/总参数),完全稠密模型稀疏度为0%。

各模型稀疏度:

  • Llama 3.3 405B:总共 4050 亿,活跃 4050 亿,稀疏度 0%
  • DeepSeek V3/R1:总共 6710 亿,活跃 370 亿,稀疏度 94.4%
  • Llama 4 Scout:总共 1090 亿,活跃 170 亿,稀疏度 84.4%
  • Llama 4 Maverick:总共 4000 亿,活跃 170 亿,稀疏度 95.75%(牛啊!!)
  • Llama 4 Behemoth:总共 2 万亿,活跃 2880 亿,稀疏度 85.6%  

稀疏度越高越适合苹果芯片

  1. 稀疏度越高,越适合 Apple Silicon,因为它的内存刷新率低。
  2. Llama 4 Maverick 是最适合 Apple Silicon 的
  3. Llama 4 Scout 和 Behemoth 的稀疏度低一点。Behemoth版太大(2万亿参数),需要8台以上512GB的Mac Studio才能运行,但常规方法下速度会慢到1.39字/秒(根本没法用!)

不过,这不代表 Apple 没戏。

别忘了,Apple Silicon 跑这种模型是最省钱的,因为统一内存每 GB 的成本比 GPU 内存低多了:

  • NVIDIA H100:80GB,3TB/秒,2.5 万美元,1GB 要 312.5 美元
  • AMD MI300X:192GB,5.3TB/秒,2 万美元,1GB 要 104.17 美元
  • Apple M3 Ultra:512GB,800GB/秒,9500 美元,1GB 只要 18.55 美元  

想想看,要装下整个 Behemoth 模型(fp16):

  • 用 50 个 H100:成本 125 万美元。
  • 用 MI300X : 42 万美元。
  • 而使用用 M3 Ultra 呢?只要 7.6 万美元

如何用 M3 Ultra跑Llama4 Maverick呢?
用雷电Thunderbolt  5连接多台Mac,开发更好的分布式计算方法。

为了更好的分布式并行策略,让 MoE 模型在 batch_size=1 的情况下,用 Thunderbolt 5 连起来的 Mac 跑出高速度

目前Apple Silicon 上唯一可行的分布式并行策略是"流水线并行"(每台Mac只需一次网络通信),而其他方法需要多次通信,比如专家并行或张量并行,每层模型得跳好多次网络:

  • 比如Maverick有48层结构,生成每个token字需要48次通信,Thunderbolt  5每次延迟0.5毫秒,光通信就要24毫秒/字。
  • Behemoth可能有100多层,延迟超50毫秒/字。

但是瓶颈还是在延迟上
exolabs 一直在试着解决这个问题(细节很快会公布)。用 10 台 M3 Ultra 512GB Mac Studio,理论上能让 Llama 4 Behemoth(fp16)跑到最高 27 个词/秒。实际能达到的估计在 10 到 20 之间,取决于 Mac 之间的延迟限制。

理论性能完整 breakdown 在这儿:

  • Llama 4 Scout:1 台 M3 Ultra 512GB Mac Studio,9500 美元,23 个词/秒(流水线并行)
  • Llama 4 Maverick:2 台 M3 Ultra 512GB Mac Studio,1.9 万美元,23 个词/秒(流水线并行),46 个词/秒(exolabs的实验性高级并行——理论最高值)
  • Llama 4 Behemoth:10 台 M3 Ultra 512GB Mac Studio,9.5 万美元,1.39 个词/秒(流水线并行),27 个词/秒(exolabs的实验性高级并行——理论最高值)

点击标题有具体表格对比