DeepSeek首款混合模型V3.1超越自家R1推理模型

DeepSeek推出首款混合模型V3.1，在基准测试中超越自家R1推理模型

近日，DeepSeek公司正式发布了其首款混合人工智能模型DeepSeek-V3.1，该模型创新性地采用双模式运行机制，被官方称为"迈向智能体时代的第一步"。这一突破意味着DeepSeek正在将研发重点转向提升模型的智能体能力，为未来人工智能的应用场景开辟新的可能性。

作为DeepSeek-V3的升级版本，V3.1在训练数据方面进行了大幅扩充，额外增加了8400亿个训练token。这些新增的训练数据主要用于增强模型对长文本上下文的理解能力，以及在处理复杂任务时的表现。同时，DeepSeek还对模型的标记化器和对话模板进行了全面升级。

DeepSeek此次采用的混合架构与Anthropic公司的技术路线颇为相似。V3.1允许用户在两种模式之间自由切换：思考模式（deepseek-reasoner）专门针对多步推理和工具使用场景进行优化，而非思考模式（deepseek-chat）则更适合处理简单的对话任务。

两种模式都支持长达12.8万个token的上下文窗口，模型会根据提示词中特殊的标记自动切换运行模式。

用户可以直接在DeepSeek的聊天界面中体验这一功能，只需点击左下角的"DeepThink"按钮即可。这种操作方式与Anthropic的Opus和Sonnet等混合模型的使用体验非常接近。

根据DeepSeek官方公布的测试结果，V3.1在代码和逻辑基准测试中的表现明显优于之前的R1推理模型。
特别是在SWE（软件工程）和Terminal-Bench等专业测试中，新模型展现了"思考效率的大幅提升"。
公司还特别强调，"思考模式"的运行速度比之前的R1推理模型更快，而模型架构保持不变，总参数量为6710亿，其中活跃参数为370亿。

独立分析机构Artificial Intelligence指出，V3.1在推理模式下的智能指数得分为60，较R1的59分略有提升。

不过，该模型仍然略微落后于阿里巴巴的最新模型千问，未能重新夺回行业领先地位。同时，在与OpenAI最新开源推理模型GPT-OSS的对比中也稍逊一筹。

分析报告还指出了一个重要限制：V3.1在推理模式下不支持函数调用功能，这"可能会严重限制其支持智能体工作流的能力"。相比之下，GPT-5 Thinking等竞争模型可以在思维链中使用图像分析或代码生成等工具，从而获得更多的性能提升手段。

在资源消耗方面，Artificial Intelligence注意到V3.1在推理模式下使用的token数量略少于R1，在非推理模式下则比V3 0324略多，但非推理模式的整体效率仍然要高得多。

令人惊喜的是，DeepSeek同时宣布了全新的价格体系，该体系将于2025年9月5日正式生效。输入API调用的费用为每百万token0.07美元（缓存命中）和0.56美元（缓存未命中），输出token的价格为每百万1.68美元。

这样的定价远低于竞争对手：Gemini 2.5 Pro每百万输出token收费10美元（超过20万个token的提示词为15美元），OpenAI GPT-5即使在降价后仍然维持每百万10美元的定价，而Anthropic Claude Opus 4.1的最高价格甚至达到每百万75美元。

DeepSeek-V3.1通过两个专用API端点提供服务。对Anthropic API格式的支持和测试版的严格函数调用功能应该能够大大简化开发流程。开源权重已在Hugging Face平台发布，源代码和权重均采用MIT许可证。

与其他中国AI模型一样，DeepSeek-V3.1也遵循内容限制规定，会根据政府指导方针调整某些答案。类似的限制可能很快也会出现在美国，特朗普政府正在推动新的法规，规范美国AI模型处理所谓"觉醒"话题的方式。

总体而言，DeepSeek V3.1的发布标志着混合模型技术正在成为行业新趋势，其在性价比方面的突出表现可能会对市场竞争格局产生重要影响。然而，在功能完备性方面仍然需要继续完善，特别是在智能体工作流支持方面还需要迎头赶上。随着9月新价格体系的实施，这场AI模型的价格战可能会进入新的阶段。

DeepSeek首款混合模型V3.1超越自家R1推理模型

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道