开源AI性价比之王DeepSeek v4发布：1.6T参数仅售3.48美元！

#DeepSeek时刻 #大语言模型LLM #GitHub工具库推荐 #AI基础设施

2026-04-24 1 3K banq

DeepSeek v4 重新定义开源AI性价比，用白菜价捅破AI天花板，硅谷坐不住了！DeepSeek v4 推出 Pro 和 Flash 两个版本，Pro 版 1.6T 参数、49B 激活，API 价格低至输入1.74美元/百万、输出3.48美元/百万，Flash 版更便宜到0.14/0.28美元。性能接近甚至超过 Claude Opus 4.6，开源权重已上传 Hugging Face，推理成本仅为西方竞品的几分之一。**

模型发布两个版本各有杀招

DeepSeek v4 这次一口气甩出两个版本，Pro 和 Flash，简直就像快餐店推出的豪华套餐和经济套餐。Pro 版本总参数达到惊人的1.6T，每次推理激活49B参数，价格定在输入每百万 token 收1.74美元，输出每百万 token 收3.48美元。Flash 版本总参数284B，激活13B参数，价格便宜到让人怀疑是不是标错了数字：输入0.14美元，输出0.28美元。

这两个版本的分工非常清晰。Pro 版本瞄准那些需要最强性能的场景，比如复杂的代码生成、深度的逻辑推理、长篇内容创作。Flash 版本则主打低成本高吞吐，适合日常对话、简单问答、大规模批处理任务。一个负责秀肌肉，一个负责跑量，配合得天衣无缝。

价格低到离谱引发行业震动

看到这个价格，整个 AI 圈都炸锅了。要知道，OpenAI 的 GPT-5.5 输出价格高达每百万 token 几十美元，Anthropic 的 Claude Opus 4.6 更是贵得离谱。DeepSeek v4 Pro 直接把价格打到3.48美元，Flash 版本更是杀到了0.28美元，这已经不是价格战，这是降维打击。

有人可能会说，这么便宜肯定是在亏本烧钱抢市场。但仔细算一笔账就会发现，事情没那么简单。以 Flash 版本0.28美元每百万输出的价格，如果跑满一张 H100 显卡的理论吞吐量，每天产生的收入完全可以覆盖硬件和电费成本。Pro 版本虽然贵一些，但考虑到它1.6T参数的庞大体量，这个定价依然相当克制。

硬件限制导致当前价格偏高

DeepSeek 在官方声明里非常诚实地交代了一件事：现在的价格其实是被逼出来的。因为推理卡严重短缺，尤其是能跑大模型的华为 Ascend 910 系列显卡供不应求，导致运营成本居高不下。他们明确表示，等到今年下半年华为 Ascend 950 计算卡大规模上市后，Pro 版本的价格会大幅下降。

这个消息对于等着用便宜算力的开发者来说简直是个天大的好消息。

华为Ascend 950 据传在算力和能效比上都有巨大提升，一旦铺开，DeepSeek 的推理成本会进一步降低。到时候别说盈利，恐怕连西方那些靠高价维持利润的闭源模型都要被卷哭。

开源程度碾压西方所谓开放模型

DeepSeek 这次不仅仅是放了两个模型文件到 Hugging Face 上就完事了。翻翻他们的 GitHub 组织页面，33个公开仓库整整齐齐地摆在那里，从训练框架到推理优化库，从模型权重到技术论文，该给的全给了。DeepGEMM、TileKernels、Engram 这些底层计算库都是开源的，别的实验室想抄作业直接拿去用。

对比一下某些西方公司所谓的开源，那真是高下立判。有些公司嘴上喊着开源，实际上只给权重不给训练代码，更别提训练数据了。DeepSeek 虽然也不给训练数据，但人家把整个技术栈都开源了，包括那些让模型跑得飞快的底层优化库。这种开放程度，连一些非营利性大学实验室都做不到。

性能实测接近顶级闭源模型

光便宜没用，关键还得看实力。根据 DeepSeek 发布的论文数据，V4 Pro 在 MMLU-Pro 上拿到87.5分，和 GPT-5.4、Kimi 2.6 打平，只比 Claude Opus 4.6 的89.1分低一点点。在多轮对话理解测试 MRCR 上，V4 Pro 甚至超过了 Opus 4.7。这个成绩说明什么？说明一个开源模型已经摸到了闭源顶级模型的屁股。

DeepSeek 自己在微信公众号的公告里说得很实在：根据内部员工测试，V4 Pro 的用户体验比 Claude Sonnet 4.5 好，输出质量接近 Opus 4.6 的非思考模式，但和 Opus 4.6 的思考模式相比还有一定差距。这种实事求是的态度反而让人更信任他们，不像某些公司只会吹牛说自己全面超越。

推理架构创新让大模型跑得更快

V4 之所以能用这么低的成本跑起来，靠的是架构上的真功夫。论文里提到一个叫流形约束超连接的技术，这玩意听起来很拗口，实际上就是在神经网络层之间加了一个聪明的连接方式，让信息流动得更高效。配合混合注意力机制和专家混合架构，模型只需要激活一小部分参数就能干活。

Pro 版本1.6T总参数但只激活49B，Flash 版本284B总参数只激活13B。这意味着每处理一个 token，实际参与计算的参数数量只有总参数的3%左右。其他那些不用的专家权重被存在硬盘上，用到的时候再加载进来。这种设计让推理成本直线下降，因为计算量小了，电费自然就省了。

本地部署门槛比想象中低很多

很多人看到1.6T参数就直接劝退了，觉得这东西根本不是普通人能玩的。但实际上因为 MoE 架构的特性，Pro 版本只需要把激活的49B参数常驻内存就行。以 FP8 精度计算，49B参数大约占用50GB显存，两张 RTX 4090 或者一张 H100 就能轻松装下。

Flash 版本就更亲民了，13B激活参数只需要十几GB显存，一张消费级显卡再加点内存就能跑。有网友用 Mac Studio M3 Ultra 512GB 内存测试，跑 Flash 版本毫无压力。虽然生成速度比不上云端服务，但对于个人开发者来说已经完全够用了。

开源生态系统迅速响应支持

模型发布才几个小时，Unsloth 团队就已经把量化版本传到了 Hugging Face 上。那些想在自己电脑上跑这个模型的人，可以直接下载 4-bit 或 8-bit 量化版，显存占用能再砍掉一半以上。这种响应速度说明整个开源社区对 DeepSeek 的重视程度非常高。

OpenRouter 也第一时间上架了这两个模型，通过 Anthropic 兼容的 API 接口，可以直接用 Claude Code 调用 DeepSeek v4。只需要改几行环境变量，设置一下 API 地址和密钥，就能用上这个便宜到令人发指的超强模型。这种无缝对接让开发者迁移成本几乎为零。

中文模型首次站在全球舞台中央

以前提起开源大模型，大家第一反应是 Meta 的 Llama，第二反应是阿里的 Qwen，第三可能是谷歌的 Gemma。但这次 DeepSeek v4 的发布，让一个纯粹的中国团队产品成为了全球开发者讨论的焦点。从 Hugging Face 的下载量到 Hacker News 的点赞数，热度完全碾压同期发布的 GPT-5.5。

中国 AI 公司能在这个时间点拿出这样的产品，靠的不是什么神秘力量，而是实打实的技术积累和对开源的真诚态度。

开源AI性价比之王DeepSeek v4发布：1.6T参数仅售3.48美元！

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道