这可能是在消费硬件上运行 DeepSeek-V3 的最佳和最用户友好的方式,也可能是最实惠的方式。
听起来你终于可以在家里本地运行 GPT-4o 级别的模型了,而且可能质量更好。
DeepSeek-V3 现在在 Mac Studio 上以每秒 20 个 token 的速度运行,这对 OpenAI 来说是一场噩梦
不确定 v3 和 r1 之间是否存在差异,但这是来自u/ifioravanti使用 MLX 的 DeepSeek R1 671B 4bit 的 13k 上下文的结果。
- 提示:13140 个令牌,每秒 59.562 个令牌 |
查看:1.78bit DeepSeek-V3-0324 - 230GB Unsloth 动态 GGUF
也就是说,快速处理 13k 个 token 需要 3.5 分钟。使用快速缓存后,您的后续聊天速度会更快。显然,这取决于您的使用情况和速度容忍度,但在我看来,6.385tk/s 还不错。
你可以按月购买,预付 1,531.10 美元,试用 14 天,如果不满意,可以退款。哈哈
2020 年,如果有人说在五年内,一台价值 10,000 美元的计算机可以查看一条简单的文本指令,并在家中仅用几分钟为基本的街机游戏生成完全可运行的代码,没有人会相信。
网友:
1、如果你愿意花10万块钱就为了问AI"草莓的英文单词里有几个R",那苹果电脑还能凑合用。但如果你想用它来写文章交流,或者让它分析你给的资料——那你就会发现它慢得像乌龟(速度只有正常水平的几分之一),而且等你泡完咖啡回来它可能还没开始回答你呢。
要想发挥作用,您需要具有 32k 上下文长度(最低限度)和合理的快速处理速度的东西。如果您必须等待很长时间才能弹出第一个标记,那么模型 + 硬件组合就毫无价值——或者——一旦您开始填充任何可观的上下文量,一切都会变得一团糟。这些都是当今基于苹果硅片的解决方案的局限性。
2、我认为 32k 上下文并不合理;大多数模型在那个窗口开始遭受巨大损失。
我认为目前 16k 是本地模型的最佳选择。但每个人的看法可能有所不同。
3、我完全不信。LocalLlama 和那些 Reddit 论坛只是极少数人在玩的小众 AI 圈子。
我们这些人要么是程序员,要么是搞 AI 的,要么就是 AI 发烧友。
但微软正在偷偷让剩下 90% 的普通上班族(甚至全世界)都用上 Sharepoint 和 Copilot 这套组合拳。
就在我打字的这会儿,整个公司都在往这个方向跑。
所以苹果压根没把这设备宣传成“本地 AI”神器——拍电影剪视频?没问题。但在我看来,真正适合普通消费者的“本地 AI”电脑,现在根本还没造出来呢。
4、对于任何实际项目(如代码库),您至少需要 32k 上下文窗口。在这些情况下,M3 Ultra 的性能会显著下降。
5、我期望在 32k 上下文中快速处理速度约为 45 t/s,生成速度可能为 5 t/s,也可能更低。对于常规模型来说,这仍然可用,但推理模型也会花费大量时间思考。以这种速度?预计需要几分钟的思考时间,对于更复杂的任务,可能需要几十分钟。
我见过基准测试允许在需要复杂任务时使用 32k 个思考令牌。那么对于 32k 上下文,这意味着 9 分钟的快速处理时间,然后是一个半小时的思考时间?绝对值得花 10k
6、从实际角度来说,我们确实需要将计算和内存增加 10 倍,才能让这种硬件像云服务一样运行?OpenAI 和其他人使用了什么魔法来实现 100k 上下文和高速度?
OpenAI 他们是在特殊的 ai gpu 上运行它的,它们的性能比在 CPU 和统一内存上运行它要好得多。
7、我实际上更喜欢在 m3 max 128gb 上使用 q8_0 gemma 3 和 128k 上下文。它绝对是 4o 级别!尝试 q4 时看到 qwq 32 明显下降,所以我认为你无法为这个思维模型运行足够高的量化。
8、在现实世界中更像是 5 tok/s。
我正在使用 QwQ 以 300 tok/s 的速度处理代码,我想我需要 1000 tok/s。
sglang,数据并行两个方式做到 300 tok/s,SGlang 仅为每个请求分配所需的上下文。
9、我认为这其实非常可行。我猜有些人只是太注重自己对什么是有用的意见了。
当然,有些人和某些用例需要速度和数百名用户,并且数据敏感度较低。在这种情况下,mac studio 可能不是一个好选择。
但假设有负责任的公司、机构和机构处理绝对敏感的数据,而这些数据在任何情况下都不能发送给任何云服务或任何第三方。这些公司、机构和机构也可能会遇到问题和任务需要解决,而像 DeepSeek 这样的大型 LLM 可以帮到他们。
我非常有信心,对于许多人来说,如果输出质量有益,那么在后台运行复杂任务是完全没问题的。并非每个人都需要进行“实时聊天”。人们会同时做很多事情,并且不依赖于观察人工智能处理提示。
在这种情况下,12-15k 的 Mac Studio 是一个更实惠的选择,可以“有机会”运行如此大的模型。它的价格大致相当于一台配备单个 GPU 的高端 AI 桌面工作站
另一种方法是设置一台 300GB+ VRAM GPU 服务器,仅服务器本身就可能达到 120-160k。如果您没有基础设施,请在其上添加机架服务器和气候控制。是的,服务器将“服务”更多的用户,但这并不是每个人在这方面的目标。