DeepSeek用三百万人民币训练出顶级推理模型!


DeepSeek公布其R1模型训练成本仅29.4万美元,使用512颗H800芯片训练80小时。相比美国AI巨头动辄上亿美元的开销,这一结果震动全球,突显中国AI在低成本高效率上的突破,同时引发中美AI竞争新焦点。

中国DeepSeek再爆猛料!他们最新公布的AI训练成本,居然只要29.4万美元!这个数字一出来,直接把美国AI圈的下巴都惊掉了。

要知道,美国OpenAI的老板山姆·奥特曼,早在2023年就公开说过,大模型训练的成本“远远超过一亿美元”,可DeepSeek居然用不到三百万人民币就搞出了一个能跟世界巨头叫板的推理型R1模型,这差距,是不是有点离谱?

先来交代一下背景:DeepSeek是一家来自中国杭州的AI公司,创始人叫梁文峰。去年一月份的时候,他们突然发布了一个所谓“更低成本”的AI系统,一下子就把全球资本市场吓坏了,科技股直接被砸盘。因为投资者都担心,如果中国人真能低成本训练出顶级AI模型,那美国这些动辄烧上百亿美元的巨头们,还怎么维持市场霸权?

结果在那之后,DeepSeek和梁文峰就像是“神隐”了一样,几乎不再对外高调发声,只是偶尔推出一些产品更新。直到这一次,他们在国际顶刊《自然》上发了一篇论文,才第一次公开R1模型的训练成本——29.4万美元!

重点来了,DeepSeek的R1模型到底怎么训练的?根据论文披露的数据,他们用了512颗英伟达的H800芯片,训练了80个小时。兄弟们,80个小时,这时间比起动辄几个月的训练,简直就像是“速成班”。而且H800芯片是什么?那是美国在2022年对中国出口管制之后,英伟达专门给中国市场定制的低配版GPU,性能比不上被禁的H100和A100。

但是,美国人可不这么相信。因为早在今年六月,路透社就爆料,说DeepSeek其实拿到了“大量”的H100芯片,怀疑他们绕过了出口管制。英伟达当时急忙澄清,说DeepSeek确实在用H800,不是H100。但有趣的是,这次论文的补充材料里,DeepSeek自己承认,他们的确拥有A100芯片,而且在早期准备阶段,确实用过A100来做小模型的预实验。然后才切换到H800集群,跑完R1的正式训练。

所以你看,这里面的戏就有点多。美国官方担心中国在芯片封锁下依然能突破,DeepSeek又通过公开论文释放一个“低成本高效率”的信号。这个信号背后,既是技术实力的展示,也是对外的战略博弈。

更有意思的是,DeepSeek的R1不是普通的对话模型,而是一个专注推理能力的模型。换句话说,他们更强调逻辑、演绎、分析,而不是单纯的文本生成。为什么这点重要?因为未来AI能不能真正走向通用智能,推理能力才是最核心的门槛。如果中国人用几十万美元就能把推理模型训练出来,那对整个全球AI格局影响太大了。

回头再说梁文峰这个人。作为DeepSeek的创始人,他一度是中国AI圈的明星创业者。DeepSeek能吸引到中国最顶尖的人才,很大程度上就是因为他们当时是国内少数能运营A100超算集群的公司。别忘了,英伟达A100可是全球最顶尖的AI训练芯片之一,美国现在还严控出口。这种硬件基础,直接决定了你能不能在大模型时代站在第一梯队。

而现在DeepSeek的做法,就是在资源被掐脖子的情况下,硬生生靠着工程优化和算法创新,把成本压缩到了前所未有的水平。你想想,美国公司烧上亿美元,结果中国公司用30万美元就能达到接近的效果,这种性价比,完全颠覆了行业逻辑。

当然,美国方面肯定会继续质疑。比如他们可能会说,你的模型规模到底多大?你公布的成本是不是只是“核心训练”,没有算上前期准备?再比如,你的H800集群是不是某种特殊优化?这些疑问现在都没有答案。但有一点可以肯定:DeepSeek这波操作,已经彻底把全球AI竞争的焦点又拉回到了中美对抗上。

总结一下:DeepSeek用29.4万美元训练出R1推理模型,打破了外界对AI研发“烧钱无底洞”的认知,也打乱了美国巨头的市场节奏。无论外界怎么怀疑,这一招已经足够让全世界重新审视中国在AI赛道上的实力与潜力。