中国的人工智能公司DeepSeek最近发布了一些数据,告诉我们人工智能语言模型其实可以赚很多钱,就算价格比OpenAI低很多也没问题。
DeepSeek很少公开自己的AI服务成本和能赚多少钱,但这次他们透露了一些信息。数据显示,如果他们把服务完全商业化,理论上的利润率可以达到545%,而且他们还能保持开源策略,收费也比OpenAI这样的竞争对手低。
智能资源管理降低成本
在24小时的测试中,DeepSeek的模型处理了6080亿个输入令牌和1680亿个输出令牌。他们通过缓存技术,让超过一半的输入(56.3%)不需要重新计算,这样就大大降低了成本。
为了更高效地利用资源,DeepSeek用了一个动态资源分配系统。白天很多人用的时候,所有服务器节点都用来处理用户请求;晚上用的人少了,他们就把这些资源用来做研究和训练任务。这样一天下来,硬件成本是87,072美元,平均用了226.75个服务器节点。每个节点有8个Nvidia H800 GPU,每个GPU每小时大概租用成本是2美元。
每个H800节点在预填充时每秒能处理约73700个输入令牌,或者在解码时每秒处理14800个输出令牌。平均输出速度是每秒20到22个令牌。如果DeepSeek按最高价格收费(缓存命中每百万输入令牌0.14美元、缓存未命中每百万输出令牌0.55美元、每百万输出令牌2.19美元),他们一天的收入可以达到562,027美元。
不过,DeepSeek说实际收入比这个理论数字低很多。他们的标准V3型号价格不到1兰特(南非货币),大部分服务都是免费的,而且晚上还有折扣。目前,只有API访问能带来一些收入。
人工智能服务的商品化
DeepSeek这次公开数据的做法很不寻常,但也反映了行业的一个现实:虽然人工智能语言模型理论上能赚很多钱,但实际赚到这些钱却很难。因为市场竞争激烈,定价结构复杂,还要提供免费服务,所以实际利润往往会比理论值低很多。
网友
1、我保证这个 545% 的利润率数字没算上那些长期的成本,比如买设备的钱或者做研究的费用。
这就像你在路边卖柠檬水,只算了杯子里柠檬水的成本,但没算桌子、罐子、做柠檬水的材料、做招牌的时间,还有你坐在路边卖 50 美分一杯柠檬水的时间值多少钱。
DeepSeek 就像是那个卖柠檬水赚了很多钱的小孩,但其实背后是父母花钱买了桌子、罐子这些工具,才让小孩能赚到钱。小孩赚的钱看起来很多,但父母花的钱还没算进去呢!
2、成本基于每小时 2 美元的 H800 租赁成本
每台 H800 每小时可获得 600 多万个输出代币
它们以每百万约 2 美元的价格出售输出代币
出售 12 美元的代币,支付 2 美元的租金,每花费 1 美元可赚取 5 美元。
这看起来非常合理。
3、这就是为什么从长远来看,美国可能会遇到麻烦,因为特朗普和共和党会让美国在可再生能源和储能技术上倒退。而中国呢,他们会把电力的成本降到几乎为零。除了 DeepSeek 的高效率之外,电力是这个问题的第二个关键部分。
4、价格超级便宜,但利润却高得吓人。
说实话,DeepSeek 现在还缺一些重要的东西,比如视觉功能,也没有像 Deep Research 那样做到独立但很棒的代理功能。
它确实还有点落后,但天哪,它真的太便宜了,而且它的基础推理能力非常强。
如果他们再努力一年,很可能会超过美国的实验室,就像中国人在无人机、电池、电动汽车和人形机器人这些领域已经做到的那样。虽然不能百分之百保证,但我觉得这很有可能!
5、Sonnet for coding 和 Deep Research 是目前我最喜欢的两款产品。
其他的都可以替代。
6、Grok 思维、o3-mini、Sonnet 思维、Deepseek、Gemini。它们感觉都很接近,您可以根据任务/品味选择所需的任何一种。
7、这款和 Gemini 都太便宜了。我很惊讶他们居然还能赚钱!
8、推特上的人们似乎更喜欢 GPT-4o,而不是 GPT-4.5,因为它被吹捧为擅长某件事(https://x.com/karpathy/status/1895213020982472863)。所以也许你也认为 GPT4.5 比 GPT-4o 更差。
9、我发现 GPT-4o 不擅长逻辑和上下文理解,但 DeepSeek-V3 似乎可以理解,不仅仅是在某些方面,而是总体上。当然它也有盲点,
10、我们现在有 4 种扩展方式,即预训练、后训练、RL/推理和推理时间计算。我们应该专注于适当地扩展其中的每一种方式。
如果你用Chinchilla 缩放定律来搞强化学习/推理,它会更倾向于更小、更快的模型,原因有三个:
- 大多数优化不需要特别复杂的表示,而是更压缩的,因为它不需要验证太多知识,而是更注重推理和直觉。
- 完成强化学习目标通常需要很多计算,所以能更快完成的模型更受欢迎。
- 对于不太常见的任务,需要更多计算,这也意味着反向传播更少,
还有推理时间计算,除非你有无限的计算资源,否则它更适合那些经过更严格训练的模型。把每种方式都做到位,然后再提炼成小模型,可能会得到最好的结果。
完成前面三点取决于奖励如何设置:
在 DeepSeek-R1 的论文里,他们详细解释了为什么他们觉得最好的方法是直接用结果奖励,而不是用 PRM(过程奖励模型)。因为 PRM 容易被“奖励黑客”攻击,尤其是当模型变得更聪明的时候,这种问题会更严重。
DeepSeek-R1-Zero 用的是稀疏规则奖励,简单来说就是结果只有对(1)或错(0)。他们用 GRPO方法,每一步生成多个输出,然后把这些奖励打包处理,这样可以让学习过程更稳定。不然的话,一些特别差的输出可能会把整个学习过程搞乱。不过,这种方法特别费计算资源。
他们还用了一个密集奖励模型来确保语言的一致性,具体方法是用 fx.fasttext 检查 token 的比例。这个做法其实会稍微降低模型的表现,但能让输出的可读性更好。这也是大语言模型(LLM)密集奖励模型的一个例子。
11、 OpenAI 需要人工智能进行密集计算,因为这是他们垄断人工智能的唯一途径,这就是为什么他们的训练方法大多是“建立更多的数据中心”。
OpenAI 不可能获得投资回报,除非他们成为人工智能垄断企业,而且他们正在做到这一点,但在效率研究方面缺乏漏洞,每个人都在迎头赶上。