苹果M3 Ultra对决:Qwen3完胜4大模型

[基准测试] 在 Mac Studio M3 Ultra 512 GB (LM Studio) 上对 5 种型号进行快速测试 – Qwen3 表现优异。

我曾是一名大学物理讲师(教了五年书),在购买 Mac Studio(M3 Ultra、128 CPU/80 GPU 核心、512 GB 统一 RAM)一个月后,我在 LM Studio中对几个 LLM 进行了非常简单的基准测试。

模型    数量/RAM占用空间    速度(吨/秒)    代币输出    第一个令牌延迟
MLX deepseek‑V3‑0324‑4位    355.95 GB    19.34     755    17.29秒
MLX Gemma-3-27b-it-bf16     52.57 GB    11.19     1 317     1.72秒
MLX Deepseek‑R1‑4位    402.17 GB    16.55     2062     15.01秒
MLX Qwen3‑235‑A22B‑8位    233.79 GB    18.86     3096     9.02秒
GGFU Qwen3‑235‑A22B‑8位     233.72 GB    14.35     2,883     4.47秒

1.推理速度
R1 > Qwen3 > Gemma3

“思考时间”(生成前)大约占总生成时间的一半。如果我不得不重复两次才能得到一个好的答案,我会直接选择一个推理能力更强的模型,而不是争分夺秒。

2. 生成速度
V3 ≈ MLX‑Qwen3 > R1 > GGFU‑Qwen3 > Gemma3。

不出所料:这里是令牌宽度 + 统一内存带宽的规则。Mac 的 890 GB/s 对于紧凑型工作站来说非常出色,但它远不及你们已经知道的怪兽级独立 GPU——因此,一旦模型开始大量消耗令牌,吞吐量就会下降。

3. 输出质量(评分时就像我的学生一样)
Qwen3 >>> R1 > Gemma3 > V3

  • deepseek‑V3  – 答案很简单,会导致课程失败。
  • Deepseek‑R1  – 扎实的本科水平。
  • Gemma‑3  – 尺寸虽小,但冲击力十足,值得尊敬。
  • Qwen3—— 独树一帜:清晰、创意、简洁、深度十足。如果说其他人是本科水平,那么Qwen3就是正在为求职演讲答辩的博士生。
底线:对于平衡质量和速度的文本到文本任务,  Qwen3-8bit(MLX) 是我的日常驱动程序。

使用 Mac Studio 一个月——值得吗?
我为什么不后悔

  1. 一流的建造和设计。
  2. 如果对于你来说,电脑比汽车更重要(我从事生物信息学),你住在公寓里(空间很奢侈,没有地方放置嘈杂的服务器),噪音会摧毁你(我是神经多样性者;Mac 即使在 100% 的状态下也很安静),那么这是有道理的。
  3. 功耗峰值 < 250 W。
  4. 占地面积极小,轻到可以放入背包中。

为什么你需要再等等

  • 您主要在 PC 上玩游戏。
  • 你讨厌 macOS 的学习曲线。
  • 您希望不断升级硬件。
  • 您可以等待 2-3 年,直到 LLM 专用硬件变得便宜为止。

省钱小贴士

  • 坚持使用 1 TB SSD—Thunderbolt + 快速 NVMe 外壳覆盖其余部分。
  • 跳过苹果的显示器和外围设备;第三方的更便宜。
  • 在特朗普时代的进口关税再次抬高苹果价格之前,赶紧买一个吧。
  • 我不会选择 256 GB 而不是 512 GB,当然价格要高出一倍,但至少对我来说,它能带来更多机会。有了它,我可以一边使用 Qwen3,一边进行生物信息学分析。即使 Qwen3 能(紧凑地)装进 256 GB 的内存,也无法让你在其他任务上拥有很大的操作空间。最后,谁知道下一代机型会是什么,会配备多大的内存呢?

TL;DR

  • Qwen3‑8bit 占主导地位——博士级别的答案,速度足够快,推理迅速。
  • 思考时间不是瓶颈;量化+内存带宽才是(如果有任何专家想要纠正或改进这一点,请这样做)。
  • Mac Studio M3 Ultra 是一款安静、省电、小巧的机器——但并不适合 GPU 狂热者或升级狂热者。
如果您想要了解更多详细信息,请随时询问!