Deepseek V3 成为迄今为止中国最强大的开源语言模型
中国人工智能公司 Deepseek 刚刚发布了迄今为止最强大的语言模型。早期测试表明,新的 V3 模型可以与一些业内领先的专有模型相媲美,并且在逻辑推理任务中表现出特别的改进。
该模型现已在 Github 上发布,采用混合专家 (MoE) 架构,共有 6710 亿个参数,其中每个 token 激活 370 亿个参数。这比 V2 有了显著增加,V2 共有 2360 亿个参数,其中 210 亿个参数在推理过程中处于活动状态。
训练也更加广泛,处理了 14.8 万亿个 token,几乎是 V2 训练数据的两倍。据 Deepseek 称,整个训练耗时 278.8 万个 H800 GPU 小时,成本约为 557.6 万美元。
尤其令人印象深刻的是,他们仅使用 2,000 个 GPU 集群就实现了这一目标,而 Meta、xAI 和 OpenAI 等公司通常用于 AI 训练的 100,000 个显卡的数量仅为其中的一小部分。Deepseek 将这种效率归功于他们对算法、框架和硬件的优化协同设计。
Deepseek v3 更快、更智能
V3 最大的改进之一是速度——它每秒可以处理 60 个 token,比前代快三倍。该团队重点关注改进推理能力,使用一种特殊的后训练过程,该过程使用来自他们的“Deepseek-R1”模型的数据,该模型专为复杂的推理任务而设计。
在针对开源和专有模型进行基准测试时,它在六个主要 LLM 基准中的三个中取得了最高分,在 MATH 500 基准(90.2%)和 Codeforces 与 SWE 等编程测试中的表现尤为出色。
据 Deepseek 称,V3 在许多基准测试中实现了与 GPT-4o 和Claude-3.5-Sonnet等领先专有模型相当的性能,同时提供市场上最佳的性价比。API 定价将保持 V2 价格不变,直到 2 月 8 日。此后,用户将为输入支付每百万代币 0.27 美元(缓存命中支付 0.07 美元),为输出支付每百万代币 1.10 美元。
该模型根据Deepseek 许可协议(版本 1.0)发布,该协议授予用户免费、全球、非独占和不可撤销的版权和专利许可。用户可以复制、修改和分发该模型,包括用于商业目的,但禁止用于军事应用和全自动法律服务。
Deepseek 成立于去年,计划改进其模型架构。该公司希望“突破 Transformer 的架构限制,从而突破其建模能力的界限”,并支持无限的上下文长度。与 OpenAI 一样,它表示正在采取渐进式方法实现通用人工智能 (AGI)。其当前产品线包括数学和编码专用模型,可通过 API 获得,也可在本地免费使用。
概括
- 中国人工智能公司DeepSeek推出了迄今为止最强大的语言模型DeepSeek-V3,该模型在混合专家架构中具有 6710 亿个参数。
- DeepSeek-V3 在 14.8 万亿个 token 的庞大数据集上进行了训练,实现了每秒 60 个 token 的惊人处理速度。基准评估表明,它目前的表现优于其他开源模型,并且与领先的专有模型具有竞争力。
- DeepSeek 的计划包括进一步增强模型架构、引入无限上下文长度支持,以及长期逐步实现通用人工智能(AGI)。