苹果M3+Llama 4=本地AI天作之合！

#apple苹果科技 #芯片半导体 #大语言模型LLM #DeepSeek时刻

2025-04-07 2K banq

Llama 4 + Apple Silicon 简直是天生一对。

原因在这儿：就像 DeepSeek V3/R1 一样，新的 Llama 4 各种版本都是超大的稀疏 MoE 模型。它们有海量的参数，但每次生成一个token词的时候，只有很少一部分参数在工作。我们事先也不知道哪些参数会动起来，所以所有参数都得随时待命，存在高速 GPU 内存里。

GPU内存虽快但贵。而苹果芯片用统一内存和UltraFusion技术，能用更低成本提供大量中等速度内存。

1个月前发布的M3 Ultra Mac Studio甚至支持512GB统一内存。不过内存这么大，速度就跟不上了。512GB 那款的内存刷新率（也就是 GPU 每秒能把内存扫一遍的次数，简单说就是带宽除以内存容量）只有 1.56 次/秒。

对比其他硬件：

NVIDIA H100：37.5次/秒
AMD MI300X：27.6次/秒
苹果M2 Ultra：4.16次/秒（比H100慢9倍）
苹果M3 Ultra：1.56次/秒（比H100慢24倍）

最好是工作任务的特性和硬件特性能对得上。不然的话，要么硬件太强用不完（浪费），要么硬件太弱撑不住（卡瓶颈）。
也就是理想情况是硬件特性要匹配任务需求。

这里关键看模型的"稀疏度"（即1-活跃参数/总参数），完全稠密模型稀疏度为0%。

各模型稀疏度：

Llama 3.3 405B：总共 4050 亿，活跃 4050 亿，稀疏度 0%
DeepSeek V3/R1：总共 6710 亿，活跃 370 亿，稀疏度 94.4%
Llama 4 Scout：总共 1090 亿，活跃 170 亿，稀疏度 84.4%
Llama 4 Maverick：总共 4000 亿，活跃 170 亿，稀疏度 95.75%（牛啊！！）
Llama 4 Behemoth：总共 2 万亿，活跃 2880 亿，稀疏度 85.6%

稀疏度越高越适合苹果芯片

稀疏度越高，越适合 Apple Silicon，因为它的内存刷新率低。
Llama 4 Maverick 是最适合 Apple Silicon 的。
Llama 4 Scout 和 Behemoth 的稀疏度低一点。Behemoth版太大（2万亿参数），需要8台以上512GB的Mac Studio才能运行，但常规方法下速度会慢到1.39字/秒（根本没法用！）

不过，这不代表 Apple 没戏。

别忘了，Apple Silicon 跑这种模型是最省钱的，因为统一内存每 GB 的成本比 GPU 内存低多了：

NVIDIA H100：80GB，3TB/秒，2.5 万美元，1GB 要 312.5 美元
AMD MI300X：192GB，5.3TB/秒，2 万美元，1GB 要 104.17 美元
Apple M3 Ultra：512GB，800GB/秒，9500 美元，1GB 只要 18.55 美元

想想看，要装下整个 Behemoth 模型（fp16）：

用 50 个 H100：成本 125 万美元。
用 MI300X ： 42 万美元。
而使用用 M3 Ultra 呢？只要 7.6 万美元。

如何用 M3 Ultra跑Llama4 Maverick呢？
用雷电Thunderbolt 5连接多台Mac，开发更好的分布式计算方法。

为了更好的分布式并行策略，让 MoE 模型在 batch_size=1 的情况下，用 Thunderbolt 5 连起来的 Mac 跑出高速度。

目前Apple Silicon 上唯一可行的分布式并行策略是"流水线并行"（每台Mac只需一次网络通信），而其他方法需要多次通信，比如专家并行或张量并行，每层模型得跳好多次网络：

比如Maverick有48层结构，生成每个token字需要48次通信，Thunderbolt 5每次延迟0.5毫秒，光通信就要24毫秒/字。
Behemoth可能有100多层，延迟超50毫秒/字。

但是瓶颈还是在延迟上
exolabs 一直在试着解决这个问题（细节很快会公布）。用 10 台 M3 Ultra 512GB Mac Studio，理论上能让 Llama 4 Behemoth（fp16）跑到最高 27 个词/秒。实际能达到的估计在 10 到 20 之间，取决于 Mac 之间的延迟限制。

理论性能完整 breakdown 在这儿：

Llama 4 Scout：1 台 M3 Ultra 512GB Mac Studio，9500 美元，23 个词/秒（流水线并行）
Llama 4 Maverick：2 台 M3 Ultra 512GB Mac Studio，1.9 万美元，23 个词/秒（流水线并行），46 个词/秒（exolabs的实验性高级并行——理论最高值）
Llama 4 Behemoth：10 台 M3 Ultra 512GB Mac Studio，9.5 万美元，1.39 个词/秒（流水线并行），27 个词/秒（exolabs的实验性高级并行——理论最高值）

点击标题有具体表格对比