本地部署大模型新王者:苹果M3 Ultra

部署本地大模型的新机型王者?苹果M3 Ultra,80 核 GPU,512GB 内存出世!有了 512GB 内存,一切皆有可能。

这是苹果公司(Apple)网站上关于Mac Studio的定制:
产品名称:Mac Studio
处理器:

  • 选项1:Apple M3 Ultra芯片,32核CPU,80核GPU,32核神经引擎
  • 选项2:Apple M3 Ultra芯片,28核CPU,60核GPU,32核神经引擎(价格减少$1,500.00)
内存:
  • 选项1:96GB统一内存(价格减少$4,000.00)
  • 选项2:256GB统一内存(价格减少$2,400.00)
  • 选项3:512GB统一内存(默认选项)
存储:1TB SSD存储
端口:
  • 前置:两个Thunderbolt 5端口,SDXC卡槽
  • 后置:四个Thunderbolt 5端口,两个USB-A端口,HDMI端口,10Gb以太网端口,耳机插孔
价格:$9,499.00或每月$791.58(12个月分期付款)
预购信息:现在可以预购,从3月12日开始提供。

网友:
1、只有单个 80GB H100 价格的一半

2、VRAM 带宽略小于一半。有了 6 倍的内存容量,它看起来确实物有所值。

3、可能比 96GB 的 BlackwellQuadro 稍微贵一点。

4、如此紧凑的设备,规格如此之高,价格也如此之高:它的晶体管数量与 B200 几乎相同,远多于 H200。该芯片的尺寸非常大,非数据中心市场上的任何其他芯片都无法与之相比。

5、你可以以这个价格买到三块 5090 OC(32x3gb vRAM)。我不确定 metal/MLX 与 CUDA 相比在推理方面有多高效
等真正的基准测试出来后我们才能知道。只有到那时我们才能确认 512GB 统一内存在实践中是否值得

6、无论如何,Mac Studio 和基于专用 GPU 的工作站在实践中是无法比较的。影响推理质量的不仅仅是 VRAM/内存。是的,你确实需要足够的 VRAM 来加载模型,但推理受到张量核心的加速、时钟速度 (FLOP)、内存带宽、平台优化等的影响。作为参考,m3 ultra 的内存带宽为 800gb/s,而 5090 的内存带宽为 1792 gb/s

7、在这种情况下,Mi60 支持也在升温,但如果我们想以合适的上下文大小运行 70B,1 万美元仍然是入门价。如果我完全诚实的话,我认为运行具有较小上下文窗口的任何模型都没有任何用处,但这只是我的看法。