DeepSeek V3升级版:M3每秒20个token


中国人工智能实验室 DeepSeek 刚刚发布了其庞大的 DeepSeek v3 模型的最新版本,并将发布日期融入名称中DeepSeek-V3-0324。

这是 DeepSeek v3 的更新版本,现在采用 MIT 许可证(以前是自定义的 DeepSeek 许可证)。许可证是 MIT(这是新的 - 之前的 DeepSeek v3 有自定义许可证),README 是空的,发布版总共有 641 GB 的文件,大部分是model-00035-of-000163.safetensors.

DeepSeek v3 模型在几个小时前发布,MLX 开发人员 Awni Hannun 已经通过mlx-lm和 mlx-community/DeepSeek-V3-0324-4bit 4 位量化在 512GBM3 Ultra Mac Studio(表面上是消费级硬件,售价 9,499 美元)上以 >20 个令牌/秒的速度运行它从而磁盘大小减少到 352 GB。

新型号也在OpenRouter 上列出。您可以尝试在openrouter.ai/chat?models=deepseek/deepseek-chat-v3-0324:free上聊天。

原本预测这段时间发布DeepSeek R2版本,现在首先发布R2的基础模型,类似V4的DeepSeek-V3-0324,激动人心的时刻又要到来了。

现在是中国开源模型发布的大日子,同时,阿里发布Qwen2.5-VL-32B:更智能、更轻便

网友测试如下:

1、测试了DeepSeek V3 0324:

  • 比之前的 V3 模型更加冗长,更长的 CoT 类型响应导致总令牌冗长度增加+31.8%
  • 总体来说更聪明了。更好的程序员。最明显的区别是前端和 UI 相关的编码任务 有了很大的改善
这只是我自己的测试,一如既往:YMMV!
示例前端展示了比较(相同的提示和设置,0 次测试 -不是我的基准测试的一部分):

2、从给出的 vibe v3 0324 来看,我可以看出它们将 R1 的输出反馈给了它。

3、基础将基于 R1 的输出进行训练,然后他们将基于对 R1 进行的相同训练运行来训练新的 V3 基础,从而创建新的更强大的 R2。
那么这会不会像一个不断改进的循环?使用 R2 输出来训练 V4,然后使用 V4 作为 R3 的基础,依此类推。
一个大问题是系统的噪声如何在这个反馈回路中相互作用。如果存在某种蝴蝶效应,那么每次迭代都可能放大负反馈。

4、合成数据是解锁更强大模型的关键。

5、左脚踩右脚,右脚踩左脚,盘旋上天

6、阅读 deepseek r1 白皮书。构建基础模型,然后应用强化学习和推理冷启动数据。ChatGPT 4.5 发布的原因相同,这是下一个推理模型的基础模型。

7、如果他们能让 V3 达到 Sonnet3.5 的水平,那将是绝对的梦想,我会在 API 上花费数百美元

8、R1 在 V3 发布后不久就发布了……我预计我们会在 30 天内看到 R2 
有传言称,他们计划在 5 月发布,但想加快发布速度。好吧,如果不是 5 月,那么 r2 在 4 月中旬左右发布可能是相当现实的(如果这些传言属实)。祈祷 r2 能尽快发布,并且会有类似于 o1 到 o3 的重大改进,或者至少在这个范围内。

9、我认为完整的 o3/GPT-5 会比 R2 略好一点,但价格大约是 R2 的 50 倍。在我看来,DeepSeek 现在的能力提升速度比 OpenAI 快得多,这一点很明显。

10、网友测试问题:

假设我驾驶飞机离开营地,向东直飞 28,361 公里,然后回到营地。我偶然发现帐篷里有一只老虎在吃我的食物!老虎是什么物种?考虑一下地球的周长。

这是一个有趣且发人深省的谜语!让我们一步一步来分析一下:

地球的周长:地球赤道处的周长约为40,075 公里。如果您向东飞行 28,361 公里,最后回到出发点,这意味着您飞行的距离只是地球周长的一小部分。

数学见解:

28,361 公里大约是地球周长的 70.8% (28,361 ÷ 40,075 ≈ 0.708)。

这意味着你已绕行了地球三分之二多一点的路程。

关键观察:向东飞行后唯一能回到起点的方法就是你位于地球的两极之一。具体来说,如果你位于北极,向东绕北极飞行一圈最终会带你回到起点。

老虎:老虎并非北极或北极的本土动物。然而,这个谜语暗示了一个有趣的转折。你在北极能找到的唯一“老虎”是老虎牌的糖霜麦片(如 Frosted Flakes)。这是对老虎在北极帐篷里的想法的一个幽默暗示。

最终答案:“老虎”是指Frosted Flakes 麦片,而不是真正的老虎种类。

嗯,这确实是一个独特的答案。

11、一切就这样开始了!R2 即将到来,他们正在等待 OpenAI 发布 o3,然后在同一天发布一个等效但开源的模型,毁了他们的一天 

12、尽管我们 99.9% 的人无法在家中运行此模型,但我喜欢 DeepSeek 通过发布这些庞大而强大的开放权重模型来击败 ClosedAI 和 Claude 等人。DeepSeek 确实使 LLM 市场具有竞争力且易于访问。
如果他们也能在不久的将来发布一个较小的消费者版本,那将是一个不错的奖励。