Deepseek V3 成为迄今为止中国最强大的开源语言模型

banq

中国人工智能公司 Deepseek 刚刚发布了迄今为止最强大的语言模型。早期测试表明,新的 V3 模型可以与一些业内领先的专有模型相媲美,并且在逻辑推理任务中表现出特别的改进。

该模型现已在 Github 上发布,采用混合专家 (MoE) 架构,共有 6710 亿个参数,其中每个 token 激活 370 亿个参数。这比 V2 有了显著增加,V2 共有 2360 亿个参数,其中 210 亿个参数在推理过程中处于活动状态。

训练也更加广泛​​,处理了 14.8 万亿个 token,几乎是 V2 训练数据的两倍。据 Deepseek 称,整个训练耗时 278.8 万个 H800 GPU 小时,成本约为 557.6 万美元。

尤其令人印象深刻的是,他们仅使用 2,000 个 GPU 集群就实现了这一目标,而 Meta、xAI 和 OpenAI 等公司通常用于 AI 训练的 100,000 个显卡的数量仅为其中的一小部分。Deepseek 将这种效率归功于他们对算法、框架和硬件的优化协同设计。

Deepseek v3 更快、更智能
V3 最大的改进之一是速度——它每秒可以处理 60 个 token,比前代快三倍。该团队重点关注改进推理能力,使用一种特殊的后训练过程,该过程使用来自他们的“Deepseek-R1”模型的数据,该模型专为复杂的推理任务而设计。

在针对开源和专有模型进行基准测试时,它在六个主要 LLM 基准中的三个中取得了最高分,在 MATH 500 基准(90.2%)和 Codeforces 与 SWE 等编程测试中的表现尤为出色。

据 Deepseek 称,V3 在许多基准测试中实现了与 GPT-4o 和Claude-3.5-Sonnet等领先专有模型相当的性能,同时提供市场上最佳的性价比。API 定价将保持 V2 价格不变,直到 2 月 8 日。此后,用户将为输入支付每百万代币 0.27 美元(缓存命中支付 0.07 美元),为输出支付每百万代币 1.10 美元。

该模型根据Deepseek 许可协议(版本 1.0)发布,该协议授予用户免费、全球、非独占和不可撤销的版权和专利许可。用户可以复制、修改和分发该模型,包括用于商业目的,但禁止用于军事应用和全自动法律服务。

Deepseek 成立于去年,计划改进其模型架构。该公司希望“突破 Transformer 的架构限制,从而突破其建模能力的界限”,并支持无限的上下文长度。与 OpenAI 一样,它表示正在采取渐进式方法实现通用人工智能 (AGI)。其当前产品线包括数学和编码专用模型,可通过 API 获得,也可在本地免费使用。

概括

  • 中国人工智能公司DeepSeek推出了迄今为止最强大的语言模型DeepSeek-V3,该模型在混合专家架构中具有 6710 亿个参数。
  • DeepSeek-V3 在 14.8 万亿个 token 的庞大数据集上进行了训练,实现了每秒 60 个 token 的惊人处理速度。基准评估表明,它目前的表现优于其他开源模型,并且与领先的专有模型具有竞争力。
  • DeepSeek 的计划包括进一步增强模型架构、引入无限上下文长度支持,以及长期逐步实现通用人工智能(AGI)。