中国人工智能实验室 DeepSeek 刚刚发布了其庞大的 DeepSeek v3 模型的最新版本,并将发布日期融入名称中DeepSeek-V3-0324。
这是 DeepSeek v3 的更新版本,现在采用 MIT 许可证(以前是自定义的 DeepSeek 许可证)。许可证是 MIT(这是新的 - 之前的 DeepSeek v3 有自定义许可证),README 是空的,发布版总共有 641 GB 的文件,大部分是model-00035-of-000163.safetensors.
DeepSeek v3 模型在几个小时前发布,MLX 开发人员 Awni Hannun 已经通过mlx-lm和 mlx-community/DeepSeek-V3-0324-4bit 4 位量化在 512GBM3 Ultra Mac Studio(表面上是消费级硬件,售价 9,499 美元)上以 >20 个令牌/秒的速度运行它,从而将磁盘大小减少到 352 GB。
新型号也在OpenRouter 上列出。您可以尝试在openrouter.ai/chat?models=deepseek/deepseek-chat-v3-0324:free上聊天。
原本预测这段时间发布DeepSeek R2版本,现在首先发布R2的基础模型,类似V4的DeepSeek-V3-0324,激动人心的时刻又要到来了。
现在是中国开源模型发布的大日子,同时,阿里发布Qwen2.5-VL-32B:更智能、更轻便。
网友测试如下:
1、测试了DeepSeek V3 0324:
- 比之前的 V3 模型更加冗长,更长的 CoT 类型响应导致总令牌冗长度增加+31.8%
- 总体来说更聪明了。更好的程序员。最明显的区别是前端和 UI 相关的编码任务 有了很大的改善
示例前端展示了比较(相同的提示和设置,0 次测试 -不是我的基准测试的一部分):
- CSS 演示页面 DeepSeek V3
- CSS 演示页面 DeepSeek V3 0324
- 命运石之门终端 DeepSeek V3
- 命运石之门终端 DeepSeek V3 0324
- 台式 DeepSeek V3
- 台式 DeepSeek V3 0324
- 蘑菇平台游戏 DeepSeek V3
- 蘑菇平台游戏 DeepSeek V3 0324
2、从给出的 vibe v3 0324 来看,我可以看出它们将 R1 的输出反馈给了它。
3、基础将基于 R1 的输出进行训练,然后他们将基于对 R1 进行的相同训练运行来训练新的 V3 基础,从而创建新的更强大的 R2。
那么这会不会像一个不断改进的循环?使用 R2 输出来训练 V4,然后使用 V4 作为 R3 的基础,依此类推。
一个大问题是系统的噪声如何在这个反馈回路中相互作用。如果存在某种蝴蝶效应,那么每次迭代都可能放大负反馈。
4、合成数据是解锁更强大模型的关键。
5、左脚踩右脚,右脚踩左脚,盘旋上天
6、阅读 deepseek r1 白皮书。构建基础模型,然后应用强化学习和推理冷启动数据。ChatGPT 4.5 发布的原因相同,这是下一个推理模型的基础模型。
7、如果他们能让 V3 达到 Sonnet3.5 的水平,那将是绝对的梦想,我会在 API 上花费数百美元
8、R1 在 V3 发布后不久就发布了……我预计我们会在 30 天内看到 R2
有传言称,他们计划在 5 月发布,但想加快发布速度。好吧,如果不是 5 月,那么 r2 在 4 月中旬左右发布可能是相当现实的(如果这些传言属实)。祈祷 r2 能尽快发布,并且会有类似于 o1 到 o3 的重大改进,或者至少在这个范围内。
9、我认为完整的 o3/GPT-5 会比 R2 略好一点,但价格大约是 R2 的 50 倍。在我看来,DeepSeek 现在的能力提升速度比 OpenAI 快得多,这一点很明显。
10、网友测试问题:
假设我驾驶飞机离开营地,向东直飞 28,361 公里,然后回到营地。我偶然发现帐篷里有一只老虎在吃我的食物!老虎是什么物种?考虑一下地球的周长。 |
嗯,这确实是一个独特的答案。
11、一切就这样开始了!R2 即将到来,他们正在等待 OpenAI 发布 o3,然后在同一天发布一个等效但开源的模型,毁了他们的一天
12、尽管我们 99.9% 的人无法在家中运行此模型,但我喜欢 DeepSeek 通过发布这些庞大而强大的开放权重模型来击败 ClosedAI 和 Claude 等人。DeepSeek 确实使 LLM 市场具有竞争力且易于访问。
如果他们也能在不久的将来发布一个较小的消费者版本,那将是一个不错的奖励。