DeepSeek API利润率高达545%

#DeepSeek时刻 #大语言模型LLM

2025-03-02 1 3K banq

Deepseek 的语言模型即使定价远低于 OpenAI 也能带来巨额利润

中国的人工智能公司DeepSeek最近发布了一些数据，告诉我们人工智能语言模型其实可以赚很多钱，就算价格比OpenAI低很多也没问题。

DeepSeek很少公开自己的AI服务成本和能赚多少钱，但这次他们透露了一些信息。数据显示，如果他们把服务完全商业化，理论上的利润率可以达到545%，而且他们还能保持开源策略，收费也比OpenAI这样的竞争对手低。

智能资源管理降低成本
在24小时的测试中，DeepSeek的模型处理了6080亿个输入令牌和1680亿个输出令牌。他们通过缓存技术，让超过一半的输入（56.3%）不需要重新计算，这样就大大降低了成本。

为了更高效地利用资源，DeepSeek用了一个动态资源分配系统。白天很多人用的时候，所有服务器节点都用来处理用户请求；晚上用的人少了，他们就把这些资源用来做研究和训练任务。这样一天下来，硬件成本是87,072美元，平均用了226.75个服务器节点。每个节点有8个Nvidia H800 GPU，每个GPU每小时大概租用成本是2美元。

每个H800节点在预填充时每秒能处理约73700个输入令牌，或者在解码时每秒处理14800个输出令牌。平均输出速度是每秒20到22个令牌。如果DeepSeek按最高价格收费（缓存命中每百万输入令牌0.14美元、缓存未命中每百万输出令牌0.55美元、每百万输出令牌2.19美元），他们一天的收入可以达到562,027美元。

不过，DeepSeek说实际收入比这个理论数字低很多。他们的标准V3型号价格不到1兰特（南非货币），大部分服务都是免费的，而且晚上还有折扣。目前，只有API访问能带来一些收入。

人工智能服务的商品化
DeepSeek这次公开数据的做法很不寻常，但也反映了行业的一个现实：虽然人工智能语言模型理论上能赚很多钱，但实际赚到这些钱却很难。因为市场竞争激烈，定价结构复杂，还要提供免费服务，所以实际利润往往会比理论值低很多。

网友
1、我保证这个 545% 的利润率数字没算上那些长期的成本，比如买设备的钱或者做研究的费用。
这就像你在路边卖柠檬水，只算了杯子里柠檬水的成本，但没算桌子、罐子、做柠檬水的材料、做招牌的时间，还有你坐在路边卖 50 美分一杯柠檬水的时间值多少钱。
DeepSeek 就像是那个卖柠檬水赚了很多钱的小孩，但其实背后是父母花钱买了桌子、罐子这些工具，才让小孩能赚到钱。小孩赚的钱看起来很多，但父母花的钱还没算进去呢！

2、成本基于每小时 2 美元的 H800 租赁成本
每台 H800 每小时可获得 600 多万个输出代币
它们以每百万约 2 美元的价格出售输出代币

出售 12 美元的代币，支付 2 美元的租金，每花费 1 美元可赚取 5 美元。

这看起来非常合理。

3、这就是为什么从长远来看，美国可能会遇到麻烦，因为特朗普和共和党会让美国在可再生能源和储能技术上倒退。而中国呢，他们会把电力的成本降到几乎为零。除了 DeepSeek 的高效率之外，电力是这个问题的第二个关键部分。

4、价格超级便宜，但利润却高得吓人。
说实话，DeepSeek 现在还缺一些重要的东西，比如视觉功能，也没有像 Deep Research 那样做到独立但很棒的代理功能。
它确实还有点落后，但天哪，它真的太便宜了，而且它的基础推理能力非常强。
如果他们再努力一年，很可能会超过美国的实验室，就像中国人在无人机、电池、电动汽车和人形机器人这些领域已经做到的那样。虽然不能百分之百保证，但我觉得这很有可能！

5、Sonnet for coding 和 Deep Research 是目前我最喜欢的两款产品。
其他的都可以替代。

6、Grok 思维、o3-mini、Sonnet 思维、Deepseek、Gemini。它们感觉都很接近，您可以根据任务/品味选择所需的任何一种。

7、这款和 Gemini 都太便宜了。我很惊讶他们居然还能赚钱！

8、推特上的人们似乎更喜欢 GPT-4o，而不是 GPT-4.5，因为它被吹捧为擅长某件事（https://x.com/karpathy/status/1895213020982472863）。所以也许你也认为 GPT4.5 比 GPT-4o 更差。

9、我发现 GPT-4o 不擅长逻辑和上下文理解，但 DeepSeek-V3 似乎可以理解，不仅仅是在某些方面，而是总体上。当然它也有盲点，

10、我们现在有 4 种扩展方式，即预训练、后训练、RL/推理和推理时间计算。我们应该专注于适当地扩展其中的每一种方式。

如果你用Chinchilla 缩放定律来搞强化学习/推理，它会更倾向于更小、更快的模型，原因有三个：

大多数优化不需要特别复杂的表示，而是更压缩的，因为它不需要验证太多知识，而是更注重推理和直觉。
完成强化学习目标通常需要很多计算，所以能更快完成的模型更受欢迎。
对于不太常见的任务，需要更多计算，这也意味着反向传播更少，

所以更快、更小的模型更吃香。

还有推理时间计算，除非你有无限的计算资源，否则它更适合那些经过更严格训练的模型。把每种方式都做到位，然后再提炼成小模型，可能会得到最好的结果。

完成前面三点取决于奖励如何设置：
在 DeepSeek-R1 的论文里，他们详细解释了为什么他们觉得最好的方法是直接用结果奖励，而不是用 PRM（过程奖励模型）。因为 PRM 容易被“奖励黑客”攻击，尤其是当模型变得更聪明的时候，这种问题会更严重。

DeepSeek-R1-Zero 用的是稀疏规则奖励，简单来说就是结果只有对（1）或错（0）。他们用 GRPO方法，每一步生成多个输出，然后把这些奖励打包处理，这样可以让学习过程更稳定。不然的话，一些特别差的输出可能会把整个学习过程搞乱。不过，这种方法特别费计算资源。

他们还用了一个密集奖励模型来确保语言的一致性，具体方法是用 fx.fasttext 检查 token 的比例。这个做法其实会稍微降低模型的表现，但能让输出的可读性更好。这也是大语言模型（LLM）密集奖励模型的一个例子。

11、 OpenAI 需要人工智能进行密集计算，因为这是他们垄断人工智能的唯一途径，这就是为什么他们的训练方法大多是“建立更多的数据中心”。

OpenAI 不可能获得投资回报，除非他们成为人工智能垄断企业，而且他们正在做到这一点，但在效率研究方面缺乏漏洞，每个人都在迎头赶上。

DeepSeek API利润率高达545%

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道