Deepseek:引领中国人工智能竞赛的静默巨人

Deepseek 是一家中国 AI 初创公司,其最新 R1 模型在多个推理基准测试中击败了 OpenAI 的 o1。尽管 Deepseek 低调,但它是值得关注的中国 AI 实验室。

在 Deepseek 成立之前,首席执行官梁文峰的主要投资是幻方,这是一家排名前四的中国量化对冲基金,最新估值为 80 亿美元。

Deepseek 完全由幻方资助,目前没有融资计划。该公司专注于构建基础技术而非商业应用,并致力于开源其所有模型。它还通过收取非常实惠的 API 费率,独自在中国掀起了价格战。

尽管如此,Deepseek 仍有能力继续参与扩展游戏:借助 High-Flyer 的计算集群,梁文峰认为他们拥有“50k Hopper GPU”以上,比他们公开承认的 10k A100 的计算能力高出几个数量级。

Deepseek 的战略以打造 AGI 的雄心为基础。与之前的主题不同,Deepseek 的使命宣言没有提到安全、竞争或人类的利害关系,而只是“用好奇心揭开 AGI 的奥秘”。因此,该实验室一直专注于研究可能改变游戏规则的架构和算法创新。

Deepseek 取得了一系列令人印象深刻的技术突破。在 R1-Lite-Preview 之前,Deepseek 已经有了更长时间的成功记录:多头潜在注意力 (MLA) 和稀疏混合专家 (DeepseekMoE) 等架构改进大大降低了推理成本,从而引发了中国开发者之间的价格战。与此同时,Deepseek 在这些架构上训练的编码模型的表现优于 7 月份的 GPT4-Turbo 等开放权重竞争对手。

为了了解 Deepseek 的现状,我们翻译了一篇罕见的深度采访,采访对象是首席执行官梁文峰。该采访最初于今年 7 月发表在 36Kr 子品牌上。采访内容包括以下深刻见解:

  • DeepSeek 对 AGI 的雄心壮志如何体现在其研究战略中
  • 为什么它将开源视为主导战略,以及它为何引发价格战
  • 他如何聘用和组织研究人员,以比其他花重金引进海归的实验室更好地利用国内年轻人才
  • 为什么中国企业满足于抄袭和商业化,而不是“硬核创新”,梁小平如何希望Deepseek能激发中国经济更多的“硬核创新”。

DeepSeek 一时间被冠以“AI 版拼多多”的称号,而字节跳动、腾讯、百度、阿里等巨头也按耐不住,纷纷降价,国内大屏价格战一触即发。

这场弥漫的战争硝烟其实掩盖了一个事实:与很多烧钱补贴的大公司不同,DeepSeek 是盈利的。

这一成功源于 DeepSeek 在模型架构上的全面创新。他们提出了一种新颖的 MLA(多头潜在注意力)架构,将内存使用量降低到常用 MHA 架构的 5-13%。此外,他们独创的 DeepSeekMoESparse 结构最大限度地降低了计算成本,最终降低了总体成本。

在硅谷,DeepSeek被称为“来自东方的神秘力量”,来自东方的神秘力量。

  • SemiAnalysis 的首席分析师认为 DeepSeek V2 论文“可能是今年最好的一篇”。
  • OpenAI 前员工 Andrew Carr 发现这篇论文“充满了惊人的智慧”,并将其训练设置应用到了自己的模型中。
  • OpenAI 前政策负责人、Anthropic联合创始人 Jack Clark 认为 DeepSeek“雇佣了一批高深莫测的奇才”,并补充说,中国制造的大型模型“将与像无人机和电动汽车一样不可忽视的力量”将和无人机、电动汽车一样,成为不容忽视的力量。

在硅谷故事主要推动的 AI 浪潮中,这种情况实属罕见。多位业内人士告诉我们,这种强烈反响源自架构层面的创新,是国内大型模型公司乃至全球开源大型模型公司都罕见的尝试。

一位 AI 研究者表示,Attention 架构自提出以来的这些年里,几乎没有被成功修改过,更不用说大规模验证了。

另一方面,此前国内大模型型很少涉足架构层面的创新,部分原因是人们普遍认为美国人擅长从0到1的技术创新,而中国人擅长从1到10的应用创新。

DeepSeek显然是逆潮流而行,在大模型技术必然趋同、追随才是捷径的呼声中,DeepSeek看重“弯路”的积累,相信中国大模型创业者可以不仅仅局限于应用创新,而是加入到全球技术创新的洪流中。

DeepSeek 的很多选择都与众不同,到目前为止,在中国七大大模型创业公司中,它是唯一一家放弃“既要又要”的创业方式,只专注于研究和技术,没有 toC 应用。它也是唯一一家没有充分考虑商业化的创业公司,坚定地选择开源路线,甚至没有融资。虽然这些选择往往让它默默无闻,但 DeepSeek 经常在社区中获得用户的有机推广。

第一部分:价格战第一枪是如何打响的?
DeepSeek V2发布后,迅速引发了大模型市场的激烈价格战,成为了业界的“鲶鱼”。浪潮智谱AI五天后紧随其后,随后是字节跳动、阿里巴巴、百度、腾讯等巨头。

从外表看,降价很像对用户的竞价,这是互联网时代价格战的常见情况。

在此之前,大部分中国公司都会直接照搬当前这一代的Llama架构做应用,DeepSeek 从模型架构入手:

  • DeepSeek 目标是AGI,需要研究新的模型架构,用有限的资源实现更强的模型能力。
  • Llama的架构在训练效率和推理成本方面,估计与国际前沿水平有两代差距。

两代差距:

  • 首先是训练效率的差距。与国际顶尖水平相比,中国顶尖水平在模型结构和训练动态上可能存在两倍的差距,也就是说,要达到同样的结果,我们需要消耗两倍的算力。
  • 另外,在数据效率上也可能存在两倍的差距,也就是说,要达到同样的结果,我们需要消耗两倍的训练数据和算力。

随着经济的发展,中国应该逐渐成为贡献者,而不是搭便车者。过去三十多年的IT浪潮,我们基本没有参与真正的技术创新。我们习惯了摩尔定律从天上掉下来,在家里躺18个月等更好的硬件和软件出现。这就是缩放定律被对待的方式。

但其实,这是西方主导的科技界一代又一代人不懈努力创造出来的,只是因为我们以前没有参与这个过程,才忽视了它的存在。

第二部分:真正的差距不是一两年,而是原创创新与模仿之间的差距。
在美国每天都在发生的无数创新中,这很正常。他们之所以对DeepSeek V2 感到惊讶,是因为有一家中国公司以创新贡献者的身份加入他们的游戏。毕竟,大多数中国公司习惯于跟随,而不是创新。

中国人工智能不可能永远处于跟随者的位置。我们常说中国人工智能和美国有一两年的差距,但真正的差距是原创和模仿的差距。如果这一点不改变,中国永远只能是一个跟随者——所以一些探索是不可避免的。

第三部分:更多投资并不等于更多创新
钱从来都不是问题,先进芯片的禁运才是问题。

发展 AGI 和量化金融是完全不同的事业。量化金融可以悄无声息地进行,但 AGI 可能需要高调而大胆的做法,建立联盟来扩大你的投资。

第四部分:一群年轻人做着“不可思议”的工作
OpenAI 前政策主管、Anthropic 联合创始人杰克·克拉克 (Jack Clark) 表示,DeepSeek 聘请了“神秘莫测的巫师”。DeepSeek V2 背后是什么样的人?其实,没有奇才,DeepSeek 大多是刚从名校毕业的,读博士四五年的,还有一些刚毕业几年的年轻人。

很多LLM公司热衷于从海外招募人才,人们常说这个领域的前50名人才甚至可能不在中国公司就职。

想法源自一位年轻研究人员的个人兴趣:他在总结了注意力机制一些主流的进化趋势之后,就想到要设计一个替代方案。但是把想法变成现实是一个漫长的过程。我们为此专门组建了一个团队,花了几个月的时间才把它弄好。

这种发散思维的涌现来自DeepSeek 自下而上的管理。

Transformers 诞生于谷歌的 AI 实验室,ChatGPT 诞生于 OpenAI。硅谷为什么创新这么厉害?因为他们敢做
ChatGPT出来的时候,国内的科技界对前沿创新缺乏信心,从投资人到大科技,都觉得差距太大,都把重点放在应用上。但创新始于信心,这种信心在年轻人身上体现得更多。

OpenAI不是神,他们不一定一直走在前列。数学和代码是 AGI 的天然试验场,有点像围棋。它们是封闭的、可验证的系统,高水平的智能可以自学。另一方面,多模态性和与真实人类世界的互动也可能是 AGI 的必要条件。我们对不同的可能性持开放态度。

第 5 部分:所有方法都是上一代产品
过去一年,中国大型创业公司模式变化较多,比如去年年初活跃的王慧文中途退出,他做出了对自己最坏、对别人最好的选择。

未来,硬核创新会越来越普遍。现在还不容易理解,因为整个社会都需要接受教育。一旦社会允许致力于硬核创新的人获得名利,我们的集体思维就会适应。我们只需要一些例子和一个过程

梁文峰:我八十年代在广东五线城市长大,父亲是小学老师。九十年代在广东挣钱的机会很多,那时候很多家长来我家,基本都觉得读书没用。现在回头看,他们都改观了。因为挣钱不容易了,开出租车的机会可能很快就没了,只用了一代人的时间。

附录:
阿里云宣布本年度第三轮大模型降价,通义千问视觉理解模型全线降价超80%。其中Qwen-VL-Plus直降81%,输入价格仅为0.0015元/千tokens,创下全网最低价格。更高性能的Qwen-VL-Max降至0.003元/千tokens,降幅高达85%。按照最新价格,1块钱可最多处理约600张720P图片,或1700张480P图片。