DeepSeek V3升级版：M3每秒20个token

#DeepSeek时刻 #大语言模型LLM

2025-03-25 1 4K banq

中国人工智能实验室 DeepSeek 刚刚发布了其庞大的 DeepSeek v3 模型的最新版本，并将发布日期融入名称中DeepSeek-V3-0324。

这是 DeepSeek v3 的更新版本，现在采用 MIT 许可证（以前是自定义的 DeepSeek 许可证）。许可证是 MIT（这是新的 - 之前的 DeepSeek v3 有自定义许可证），README 是空的，发布版总共有 641 GB 的文件，大部分是model-00035-of-000163.safetensors.

DeepSeek v3 模型在几个小时前发布，MLX 开发人员 Awni Hannun 已经通过mlx-lm和 mlx-community/DeepSeek-V3-0324-4bit 4 位量化在 512GBM3 Ultra Mac Studio（表面上是消费级硬件，售价 9,499 美元）上以 >20 个令牌/秒的速度运行它，从而将磁盘大小减少到 352 GB。

新型号也在OpenRouter 上列出。您可以尝试在openrouter.ai/chat?models=deepseek/deepseek-chat-v3-0324:free上聊天。

原本预测这段时间发布DeepSeek R2版本，现在首先发布R2的基础模型，类似V4的DeepSeek-V3-0324，激动人心的时刻又要到来了。

现在是中国开源模型发布的大日子，同时，阿里发布Qwen2.5-VL-32B：更智能、更轻便。

网友测试如下：

1、测试了DeepSeek V3 0324：

比之前的 V3 模型更加冗长，更长的 CoT 类型响应导致总令牌冗长度增加+31.8%
总体来说更聪明了。更好的程序员。最明显的区别是前端和 UI 相关的编码任务有了很大的改善

这只是我自己的测试，一如既往：YMMV！
示例前端展示了比较（相同的提示和设置，0 次测试 -不是我的基准测试的一部分）：

2、从给出的 vibe v3 0324 来看，我可以看出它们将 R1 的输出反馈给了它。

3、基础将基于 R1 的输出进行训练，然后他们将基于对 R1 进行的相同训练运行来训练新的 V3 基础，从而创建新的更强大的 R2。
那么这会不会像一个不断改进的循环？使用 R2 输出来训练 V4，然后使用 V4 作为 R3 的基础，依此类推。
一个大问题是系统的噪声如何在这个反馈回路中相互作用。如果存在某种蝴蝶效应，那么每次迭代都可能放大负反馈。

4、合成数据是解锁更强大模型的关键。

5、左脚踩右脚，右脚踩左脚，盘旋上天

6、阅读 deepseek r1 白皮书。构建基础模型，然后应用强化学习和推理冷启动数据。ChatGPT 4.5 发布的原因相同，这是下一个推理模型的基础模型。

7、如果他们能让 V3 达到 Sonnet3.5 的水平，那将是绝对的梦想，我会在 API 上花费数百美元

8、R1 在 V3 发布后不久就发布了……我预计我们会在 30 天内看到 R2
有传言称，他们计划在 5 月发布，但想加快发布速度。好吧，如果不是 5 月，那么 r2 在 4 月中旬左右发布可能是相当现实的（如果这些传言属实）。祈祷 r2 能尽快发布，并且会有类似于 o1 到 o3 的重大改进，或者至少在这个范围内。

9、我认为完整的 o3/GPT-5 会比 R2 略好一点，但价格大约是 R2 的 50 倍。在我看来，DeepSeek 现在的能力提升速度比 OpenAI 快得多，这一点很明显。

10、网友测试问题：

假设我驾驶飞机离开营地，向东直飞 28,361 公里，然后回到营地。我偶然发现帐篷里有一只老虎在吃我的食物！老虎是什么物种？考虑一下地球的周长。

这是一个有趣且发人深省的谜语！让我们一步一步来分析一下：

地球的周长：地球赤道处的周长约为40,075 公里。如果您向东飞行 28,361 公里，最后回到出发点，这意味着您飞行的距离只是地球周长的一小部分。

数学见解：

28,361 公里大约是地球周长的 70.8% （28,361 ÷ 40,075 ≈ 0.708）。

这意味着你已绕行了地球三分之二多一点的路程。

关键观察：向东飞行后唯一能回到起点的方法就是你位于地球的两极之一。具体来说，如果你位于北极，向东绕北极飞行一圈最终会带你回到起点。

老虎：老虎并非北极或北极的本土动物。然而，这个谜语暗示了一个有趣的转折。你在北极能找到的唯一“老虎”是老虎牌的糖霜麦片（如 Frosted Flakes）。这是对老虎在北极帐篷里的想法的一个幽默暗示。

最终答案：“老虎”是指Frosted Flakes 麦片，而不是真正的老虎种类。

嗯，这确实是一个独特的答案。

11、一切就这样开始了！R2 即将到来，他们正在等待 OpenAI 发布 o3，然后在同一天发布一个等效但开源的模型，毁了他们的一天

12、尽管我们 99.9% 的人无法在家中运行此模型，但我喜欢 DeepSeek 通过发布这些庞大而强大的开放权重模型来击败 ClosedAI 和 Claude 等人。DeepSeek 确实使 LLM 市场具有竞争力且易于访问。
如果他们也能在不久的将来发布一个较小的消费者版本，那将是一个不错的奖励。

DeepSeek V3升级版：M3每秒20个token

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道