中国560万美元Deepseek震惊AI大佬
一家中国初创公司正在证明,打造世界级人工智能并不需要巨额资金。Deepseek 的最新语言模型与谷歌和 OpenAI 等科技巨头展开了激烈竞争,而且他们的成本仅为通常成本的一小部分。
据独立测试公司 Artificial Analysis 称,Deepseek 的新 V3 模型可以与世界上最先进的人工智能系统相媲美,总训练成本仅为 560 万美元。对于这种水平的模型来说,这个成本非常低。
在综合了各种基准测试结果的人工智能分析综合质量指数中,Deepseek-V3 得分为 80 分。这使它与 Gemini 1.5 Pro 和 Claude Sonnet 3.5 等行业重量级模型并驾齐驱。虽然谷歌的 Gemini 和 OpenAI 的最新模型仍然处于领先地位,但 Deepseek-V3 已经超越了当今所有其他开源模型。
该模型在技术任务方面确实表现出色。它在 HumanEval 编程测试中获得了令人印象深刻的 92% 的分数,并在 MATH 500 挑战赛中获得了 85% 的分数,展现了强大的数学能力。这些能力建立在 Deepseek 去年 11 月下旬对其R1 推理模型的早期研究基础上,这有助于提高 V3 的解决问题能力。
Meta 的首席人工智能研究员Yann LeCun(杨丽春) 也注意到了这一点,称该模型“非常出色”。
据人工智能专家Andrej Karpathy 称,训练如此复杂的模型通常需要巨大的计算能力——大约需要 16,000 到 100,000 个 GPU。
- Deepseek 仅用 2,048 个 GPU 运行了 57 天,在 Nvidia H800 芯片上使用了 278 万个 GPU 小时来训练其 6710 亿个参数的模型。
- 相比之下,Meta 需要 11 倍的计算能力(约 3080 万个 GPU 小时)来训练其 Llama 3 模型,该模型的参数较少,为 4050 亿个。
Karpathy 称 Deepseek 的预算对于这种规模的模型来说“简直是个笑话”,强调了资源效率的重要性。
“你必须确保不浪费你所拥有的资源,这似乎很好地证明了在数据和算法方面仍有许多工作要做,”Karpathy 写道。尽管效率有所提高,但他表示,大型 GPU 集群对于开发前沿语言模型仍然是必要的。
Deepseek 的成功部分源于其必要性。作为一家面临美国出口限制的中国公司,他们无法获得最新的 Nvidia 芯片。
该公司必须使用H800 GPU - Nvidia 专为中国市场设计的 AI 芯片,但功能有所降低。与西方实验室使用的 H100 相比,这些芯片的 GPU 连接速度要慢得多。
Deepseek 通过开发自己的处理器通信定制解决方案(而不是使用现成的选项)将这一限制转化为机遇。这似乎是限制推动创造性解决问题的经典案例。
Deepseek 的精益运营和激进的定价策略正在迫使老牌企业注意。在 OpenAI 继续亏损数十亿美元的同时,Deepseek 采取了一种截然不同的方法 - 他们不仅以经济实惠的价格提供最佳模型,而且还使其完全开源,甚至共享模型权重。
据 Artificial Analysis 称,虽然 Deepseek V3 的价格比 OpenAI 的 GPT-4o-mini 或谷歌的 Gemini 1.5 Flash 略高,但它仍然比具有类似功能的其他型号便宜。它们为缓存请求提供 90% 的折扣,使其成为同类产品中最具成本效益的选择。
任何人都可以在 Deepseek 的聊天平台上免费试用
限制打压反而推动进步
Deepseek 的 V3 显示了美国出口限制的一个有趣后果:有限的硬件访问迫使他们在软件方面进行创新。
这可能对欧洲人工智能发展尤其重要。Deepseek 表明,构建尖端人工智能并不总是需要大规模 GPU 集群——更重要的是有效利用可用资源。这很重要,因为许多先进模型无法进入欧盟,因为 Meta 和 OpenAI 等公司无法或不会适应欧盟人工智能法案。
但不要指望数据中心会很快消失。
业界正将重点转向扩展推理时间:即模型即时生成答案所需的时间。如果这种方法奏效,业界仍将需要大量计算,而且随着时间的推移,计算量可能会越来越大。
网友: