模型发布两个版本各有杀招
DeepSeek v4 这次一口气甩出两个版本,Pro 和 Flash,简直就像快餐店推出的豪华套餐和经济套餐。Pro 版本总参数达到惊人的1.6T,每次推理激活49B参数,价格定在输入每百万 token 收1.74美元,输出每百万 token 收3.48美元。Flash 版本总参数284B,激活13B参数,价格便宜到让人怀疑是不是标错了数字:输入0.14美元,输出0.28美元。
这两个版本的分工非常清晰。Pro 版本瞄准那些需要最强性能的场景,比如复杂的代码生成、深度的逻辑推理、长篇内容创作。Flash 版本则主打低成本高吞吐,适合日常对话、简单问答、大规模批处理任务。一个负责秀肌肉,一个负责跑量,配合得天衣无缝。
价格低到离谱引发行业震动
看到这个价格,整个 AI 圈都炸锅了。要知道,OpenAI 的 GPT-5.5 输出价格高达每百万 token 几十美元,Anthropic 的 Claude Opus 4.6 更是贵得离谱。DeepSeek v4 Pro 直接把价格打到3.48美元,Flash 版本更是杀到了0.28美元,这已经不是价格战,这是降维打击。
有人可能会说,这么便宜肯定是在亏本烧钱抢市场。但仔细算一笔账就会发现,事情没那么简单。以 Flash 版本0.28美元每百万输出的价格,如果跑满一张 H100 显卡的理论吞吐量,每天产生的收入完全可以覆盖硬件和电费成本。Pro 版本虽然贵一些,但考虑到它1.6T参数的庞大体量,这个定价依然相当克制。
硬件限制导致当前价格偏高
DeepSeek 在官方声明里非常诚实地交代了一件事:现在的价格其实是被逼出来的。因为推理卡严重短缺,尤其是能跑大模型的华为 Ascend 910 系列显卡供不应求,导致运营成本居高不下。他们明确表示,等到今年下半年华为 Ascend 950 计算卡大规模上市后,Pro 版本的价格会大幅下降。
这个消息对于等着用便宜算力的开发者来说简直是个天大的好消息。
华为Ascend 950 据传在算力和能效比上都有巨大提升,一旦铺开,DeepSeek 的推理成本会进一步降低。到时候别说盈利,恐怕连西方那些靠高价维持利润的闭源模型都要被卷哭。
开源程度碾压西方所谓开放模型
DeepSeek 这次不仅仅是放了两个模型文件到 Hugging Face 上就完事了。翻翻他们的 GitHub 组织页面,33个公开仓库整整齐齐地摆在那里,从训练框架到推理优化库,从模型权重到技术论文,该给的全给了。DeepGEMM、TileKernels、Engram 这些底层计算库都是开源的,别的实验室想抄作业直接拿去用。
对比一下某些西方公司所谓的开源,那真是高下立判。有些公司嘴上喊着开源,实际上只给权重不给训练代码,更别提训练数据了。DeepSeek 虽然也不给训练数据,但人家把整个技术栈都开源了,包括那些让模型跑得飞快的底层优化库。这种开放程度,连一些非营利性大学实验室都做不到。
性能实测接近顶级闭源模型
光便宜没用,关键还得看实力。根据 DeepSeek 发布的论文数据,V4 Pro 在 MMLU-Pro 上拿到87.5分,和 GPT-5.4、Kimi 2.6 打平,只比 Claude Opus 4.6 的89.1分低一点点。在多轮对话理解测试 MRCR 上,V4 Pro 甚至超过了 Opus 4.7。这个成绩说明什么?说明一个开源模型已经摸到了闭源顶级模型的屁股。
DeepSeek 自己在微信公众号的公告里说得很实在:根据内部员工测试,V4 Pro 的用户体验比 Claude Sonnet 4.5 好,输出质量接近 Opus 4.6 的非思考模式,但和 Opus 4.6 的思考模式相比还有一定差距。这种实事求是的态度反而让人更信任他们,不像某些公司只会吹牛说自己全面超越。
推理架构创新让大模型跑得更快
V4 之所以能用这么低的成本跑起来,靠的是架构上的真功夫。论文里提到一个叫流形约束超连接的技术,这玩意听起来很拗口,实际上就是在神经网络层之间加了一个聪明的连接方式,让信息流动得更高效。配合混合注意力机制和专家混合架构,模型只需要激活一小部分参数就能干活。
Pro 版本1.6T总参数但只激活49B,Flash 版本284B总参数只激活13B。这意味着每处理一个 token,实际参与计算的参数数量只有总参数的3%左右。其他那些不用的专家权重被存在硬盘上,用到的时候再加载进来。这种设计让推理成本直线下降,因为计算量小了,电费自然就省了。
本地部署门槛比想象中低很多
很多人看到1.6T参数就直接劝退了,觉得这东西根本不是普通人能玩的。但实际上因为 MoE 架构的特性,Pro 版本只需要把激活的49B参数常驻内存就行。以 FP8 精度计算,49B参数大约占用50GB显存,两张 RTX 4090 或者一张 H100 就能轻松装下。
Flash 版本就更亲民了,13B激活参数只需要十几GB显存,一张消费级显卡再加点内存就能跑。有网友用 Mac Studio M3 Ultra 512GB 内存测试,跑 Flash 版本毫无压力。虽然生成速度比不上云端服务,但对于个人开发者来说已经完全够用了。
开源生态系统迅速响应支持
模型发布才几个小时,Unsloth 团队就已经把量化版本传到了 Hugging Face 上。那些想在自己电脑上跑这个模型的人,可以直接下载 4-bit 或 8-bit 量化版,显存占用能再砍掉一半以上。这种响应速度说明整个开源社区对 DeepSeek 的重视程度非常高。
OpenRouter 也第一时间上架了这两个模型,通过 Anthropic 兼容的 API 接口,可以直接用 Claude Code 调用 DeepSeek v4。只需要改几行环境变量,设置一下 API 地址和密钥,就能用上这个便宜到令人发指的超强模型。这种无缝对接让开发者迁移成本几乎为零。
中文模型首次站在全球舞台中央
以前提起开源大模型,大家第一反应是 Meta 的 Llama,第二反应是阿里的 Qwen,第三可能是谷歌的 Gemma。但这次 DeepSeek v4 的发布,让一个纯粹的中国团队产品成为了全球开发者讨论的焦点。从 Hugging Face 的下载量到 Hacker News 的点赞数,热度完全碾压同期发布的 GPT-5.5。
中国 AI 公司能在这个时间点拿出这样的产品,靠的不是什么神秘力量,而是实打实的技术积累和对开源的真诚态度。