中国AI春节档七连发:开源低价智能体成行业新标配

2026年开年三周,七大中国AI实验室密集发布前沿模型,MoE架构、开源权重、Agent能力成为共同标签,定价仅为西方竞品十分之一,国产芯片与自主可控战略取得突破性进展。

中国AI春节档七连发:DeepSeek去年炸场引发万亿市值蒸发,今年全行业集体复制成功学剧本

2026年开年这场AI模型发布潮堪称科技圈的春节联欢晚会:从1月27日到2月17日这短短三周里,中国七大AI实验室像约好了似的集体放大招,一口气甩出七款重量级模型。

这时间点选得极其讲究,去年DeepSeek就是踩着春节前夜发布R1模型,直接冲上美国App Store榜首,当天就让NVIDIA市值蒸发掉差不多6000亿美元,相当于把整个茅台集团的市值给跌没了。

今年所有大厂都学乖了,纷纷把压箱底的宝贝留到这个黄金窗口期发布,结果就是一场持续三周的模型军备竞赛,每家都喊着自家产品能对标GPT-5.2和Claude Opus,价格却只要洋品牌的十分之一。

这波发布潮呈现出三个明显套路。

第一是MoE架构成为标配,这种稀疏激活技术让每个模型只动用3%到10%的总参数就能干活,既省电又高效。

第二是开源协议成为主流,MIT或者Apache 2.0许可证让开发者可以随意折腾这些模型。

第三也是最关键的一点,所有模型都在为AI Agent时代做准备,不再是简单的问答机器人,而是能自主执行复杂任务的多步骤工作流引擎。

整个行业都在朝同一个方向狂奔:做出便宜、开源、具备自主行动能力的模型,让企业能在自家服务器上私有化部署。

Kimi K2.5登场:Moonshot AI甩出万亿参数怪兽,100个AI小弟同时在线干活

Moonshot AI在1月27日打响了第一枪,发布的Kimi K2.5是个拥有约1万亿总参数的Mixture-of-Experts模型。这个MoE架构听起来高大上,其实原理特别接地气。普通的大语言模型就像那种老式的筒子楼,不管你要查什么资料都得把整栋楼的灯全打开,耗电量惊人。MoE模型则像现代化的智能写字楼,把知识分散在上百个专门的专家房间里,每次只需要点亮相关的那几间就能解决问题。Kimi K2.5拥有384个专家模块,但每次推理只激活其中8个,实际动用的参数只有320亿,却能达到万亿参数模型的知识储备水平。

这种架构带来的最大卖点是Agent Swarm功能,K2.5可以同时协调多达100个子代理并行工作,最多能串联1500个步骤完成复杂任务。在需要广泛搜索的场景下,这种多代理协作模式能把执行时间压缩到单代理运行的四分之一,效率提升4.5倍。在BrowseComp基准测试中,启用Agent Swarm后得分从60.6%飙升到78.4%,而在AIME 2025数学竞赛测试里拿到了96.1%的成绩,已经逼近GPT-5.2的水平,还超过了Claude Opus 4.5。这个模型支持25.6万token的上下文窗口,采用修改版MIT许可证开源,API定价是每百万输入token收费0.6美元,输出token收费3美元,性价比直接拉满。

Kling 3.0来袭:快手搞出原生4K视频生成,60帧流畅度让好莱坞编剧喊失业

快手的Kling 3.0在2月5日发布,虽然是个视频生成模型而非文本大模型,但绝对值得在这波浪潮里占据C位。这个模型的核心卖点是原生4K分辨率配合每秒60帧的流畅度,而且是在扩散生成过程中直接输出4K像素,而不是先生成低分辨率再放大。快手宣称这是全球首个能原生生成4K视频的AI模型,单次生成最长可达15秒,支持多镜头故事板系统,一次生成过程里能塞进6个不同的镜头切换。

更夸张的是音视频一体化生成能力,Kling 3.0能在单次前向传播中同时生成画面和声音,支持中文普通话、粤语、四川话,还有美式英语、英式英语、印度口音英语,以及日语、韩语和西班牙语。同一个场景里不同角色可以说不同语言,口型还能完美对上。Elements系统允许创作者上传参考图片锁定角色形象,确保在不同镜头和光线变化下人物外貌保持一致。根据快手官方数据,Kling AI已经服务超过6000万创作者,自2024年6月上线以来累计生成超过6亿条视频。定价采用积分制,API调用成本估算在每秒0.07到0.14美元之间,比请个摄像师便宜太多。

GLM-5亮相:智谱AI打出国产芯片牌,幻觉率全行业最低但爱说不知道

智谱AI在2月11日发布的GLM-5是个7440亿总参数、400亿激活参数的MoE模型,直接采用MIT许可证完全开源。截至2026年2月,这个模型在Artificial Analysis的AA-Omniscience幻觉率排行榜上位列第一,幻觉率全行业最低。这种低幻觉特性带来一个副作用,GLM-5遇到不确定的问题时会比较保守,宁可回答不知道也不愿意瞎编,所以总体回答数量会比其他模型少一些,但准确率更有保障。API定价是每百万输入token 1美元,输出token 3.2美元。

GLM-5最值得关注的故事在硬件层面,这个模型的推理环节完全跑在国产芯片上,主要是华为昇腾系列。智谱AI还声称训练过程也使用了华为昇腾芯片,完全没有用到NVIDIA的硬件。不过GitHub仓库目前只确认了昇腾芯片支持推理部署,训练环节是否纯国产芯片尚未得到独立验证。发布后市场需求远超预期,智谱多次扩容国产芯片集群,还邀请外部公司协助在更多国产硬件上部署GLM-5。美国出口管制原本想卡住中国AI实验室的脖子,让他们离不开NVIDIA,但华为计划把昇腾芯片产能翻倍到160万片,政府官员也开始统筹分配高端芯片资源,优先支持国产替代方案。如果前沿规模的训练真能在纯国产硬件上常态化运行,美国的出口管制战略就彻底失效了。

MiniMax M2.5发布:号称每小时1美元的性价比之王,代码能力直追Claude Opus

MiniMax在2月12日推出的M2.5拥有2300亿总参数,但每次前向传播只激活100亿参数,采用256个专家模块每次调用8个。这个模型提供两个版本,标准版定价每百万输入token 0.3美元、输出token 1.2美元,闪电版输出token价格涨到2.4美元,但生成速度达到每秒100个token,吞吐量是其他前沿模型的两倍。MiniMax给这个模型打的广告语是每小时1美元的前沿模型,意思是按闪电版的持续输出能力计算,一小时的连续生成成本大概就1美元。

在SWE-bench Verified代码能力基准测试中,MiniMax M2.5拿到了80.2%的成绩,与Claude Opus 4.6持平。MiniMax宣称完成单个SWE-bench任务的总成本大概是Claude Opus 4.6的十分之一。这个模型使用了MiniMax自研的Forge框架进行训练,这是一个专门为Agent场景设计的强化学习框架,在20多万个真实世界环境中进行训练。他们的算法创新叫CISPO,也就是截断重要性采样策略优化,这个技术通过截断重要性采样权重而不是token更新来确保所有token都能参与梯度计算。许可证是修改版MIT,但有个特殊要求,商业用户必须在产品界面上显著标注MiniMax M2.5的字样。

Seedance 2.0与Seed 2.0双响炮:字节跳动视频生成让《死侍》编剧喊完犊子,豆包升级进入Agent时代

字节跳动在2月12日发布了Seedance 2.0视频生成模型,能生成最长20秒的2K分辨率视频,具备原生音视频同步能力和多语言多镜头叙事功能。物理感知训练让重力、布料褶皱、流体动力学看起来更真实,手部解剖结构这个AI视频的老大难问题也基本解决。《死侍》编剧Rhett Reese看完直接说编剧这行 likely over,意思大概是凉凉了。美国电影协会同一周就正式投诉,主席Charles Rivkin指控Seedance 2.0大规模未经授权使用美国版权作品,且缺乏有效的侵权防护措施。字节跳动随后禁用了生成可识别公众人物形象的功能。

就在两天前的2月10日,字节还发布了Seedream 5.0图像生成模型,支持2K到4K输出,具备基于推理的编辑能力,已经集成进CapCut剪映。2月14日字节继续放大招,发布Seed 2.0模型家族,包含Pro、Lite、Mini、Code四个版本,全面 powering 豆包这个拥有1.55亿周活用户的国民级AI应用。字节宣称这是正式进入Agent时代,模型设计目标就是执行多步骤任务而不仅是回答问题。Pro版本专注深度推理,AIME 2025得分98.3,GPQA Diamond得分88.9,还在ICPC、IMO、CMO等国际编程和数学竞赛中拿下金牌,BrowseComp自主Agent工作流测试得分77.3。Lite版本是生产环境默认选择,AIME 2025得分93,Codeforces评分2233。Mini版本处理高吞吐批量任务,Code版本专门优化软件开发。Seed 2.0 Pro定价每百万输入token 0.47美元,输出token 2.37美元,大概是Claude Opus输入价格的十分之一,输出价格的十分之一。

Qwen 3.5压轴:阿里巴巴赶在大年三十发布,3970亿参数支持百万token长文本

阿里巴巴在2月16日,也就是大年三十前一天,压哨发布了Qwen 3.5。旗舰版本Qwen3.5-397B-A17B拥有3970亿总参数,每token只激活170亿参数,在512个专家模块中每次调用11个。这个模型原生支持文本、图像、视频三种模态,覆盖201种语言和方言,原生上下文窗口26.2万token,可扩展到100万token。阿里宣称Qwen 3.5在80%的评测类别中超过GPT-5.2、Claude Opus 4.5和Gemini 3 Pro,在OmniDocBench文档识别测试中得分90.8,超过GPT-5.2的85.7,但在LiveCodeBench v6编程测试中得分83.6,落后于GPT-5.2的87.7,在AIME 2026数学测试中得分91.3,也低于GPT-5.2的96.7。

Qwen 3.5的Agent能力最为具体,它能通过解读屏幕截图识别UI元素,控制手机和桌面应用执行多步骤工作流,在OSWorld-Verified测试中得分62.2,在AndroidWorld测试中得分66.8。模型采用Apache 2.0许可证完全开源。阿里云平台上的Qwen 3.5-Plus托管服务定价每百万输入token 0.4美元,输出token 2.4美元;开源的397B模型API定价是输入0.6美元,输出3.6美元。Qwen系列在Hugging Face上累计下载超过7亿次,衍生模型超过18万个,超过9万家企业通过阿里云的Model Studio使用Qwen,AI相关收入连续九个季度保持三位数增长,推动云业务营收同比增长34%。Airbnb CEO Brian Chesky公开表示公司大量依赖Qwen,选择它而不是ChatGPT的原因是又快又便宜。

DeepSeek V4蓄势待发:上下文窗口悄然扩容到百万token,全行业都在防着它突然炸场

截至发稿时,DeepSeek官方尚未正式发布V4版本。但2月11日有用户发现DeepSeek聊天机器人的上下文窗口从12.8万token悄然扩展到100万token。行业消息称V4原计划在2月中旬发布,预计拥有约1万亿参数,采用Engram条件记忆架构,这个架构把静态知识检索和动态推理分开,把事实性知识卸载到可扩展的查找层,专注优化代码能力。路透社报道多家中国实验室加速发布节奏,专门为了避免在春节期间被可能的DeepSeek V4发布抢了风头。

去年R1的突袭让所有人记忆犹新,今年大家都学聪明了,宁可提前发布也不愿被DeepSeek的阴影笼罩。

开源权重的阳谋:免费模型背后的生态战争

这波发布的七个模型中,四个文本模型采用开源权重:Kimi K2.5修改版MIT许可证、GLM-5标准MIT许可证、MiniMax M2.5修改版MIT许可证、Qwen 3.5 Apache 2.0许可证。只有Seed 2.0是闭源的。

这种开源策略不是慈善,而是精心计算的生态布局。开源权重让开发者可以自由微调、自主部署、无缝集成,没有供应商锁定的担忧,这种采用速度会指数级增长。

斯坦福HAI和DigiChina的研究称中国开源模型家族在全球开发者生态中已变得不可避免。逻辑很简单:免费发放模型权重,围绕它们销售平台服务。

对Alibaba来说是云服务,对Zhipu和MiniMax(两家都在上个月完成香港IPO)来说是API采用量支撑估值。Qwen超过7亿次Hugging Face下载、18万衍生模型、9万企业用户,证明了这个策略的有效性。

开源发布还相当于免费的研发外包,社区会主动发现失败模式、开发工具链、发布评测报告。当模型成为其他国家的默认选择时,标准制定权就握在了发布方手中。开源权重推进是中国AI自主战略的关键组成部分,既规避了芯片管制风险,又建立了不依赖西方平台的独立生态。

智能体时代的集体转向:从聊天机器人到工作流执行者

这波发布的所有实验室都在推销智能体而非聊天机器人。Kimi K2.5的Agent Swarm支持100个并行子智能体,ByteDance明确将Doubao 2.0定位为智能体时代产品,Qwen 3.5能控制桌面和移动应用,MiniMax在20多万真实环境中训练,Alibaba砸下30亿人民币推广智能体电商。

西方实验室也在朝这个方向狂奔,Anthropic在Opus 4.6中交付了智能体团队功能,OpenAI hired了OpenClaw创始人Peter Steinberger领导智能体推进。

行业的共同赌注是:AI的变现模式将从回答问题转向执行工作流。聊天机器人的商业模式是按token计费,用户问一个问题付一次钱,天花板明显。

智能体的商业模式是按任务计费或订阅制,AI主动完成一系列操作,价值创造空间大了几个数量级。当AI能直接帮用户订机票、写代码、管库存、做客服时,付费意愿和付费能力都会质变。这波中国模型的集体转向,意味着全球AI产业正在同步进入智能体商业化的新阶段,竞争焦点从模型参数转向任务完成率,从技术评测转向实际工作流整合。

定价屠夫的狂欢:白菜价模型倒逼西方厂商降价

这波中国文本模型的定价全部低于每百万输入token 1美元:MiniMax M2.5 0.3美元,Qwen 3.5-Plus 0.4美元,Seed 2.0 Pro 0.47美元,Kimi K2.5 0.6美元,GLM-5 1美元。

对比之下,GPT-5.2定价1.75美元,Claude Opus 4.6定价5美元。MiniMax声称M2.5在SWE-bench上与Opus 4.6打成平手,但每个任务的总成本只有后者的十分之一。

当价格差距达到5到25倍,而性能差距只有几个百分点时,继续支付溢价变得越来越难解释。这种定价策略不是简单的价格战,而是MoE架构带来的成本结构优势的自然结果。稀疏激活让推理成本大幅降低,开源策略让获客成本趋近于零,国产芯片让硬件成本不受NVIDIA定价权控制。三重因素叠加,造就了中国模型独特的成本优势。

西方实验室面临的困境是:要么跟进降价压缩利润,要么坚持溢价失去市场份额。无论哪种选择,中国模型的存在都在重塑全球AI定价体系,让高性能AI从奢侈品变成日用品。

国产芯片的逆袭:Ascend集群撑起GLM-5的自主叙事

GLM-5的硬件故事值得单独展开。这款模型不仅在推理阶段运行在华为Ascend国产芯片上,z.ai还声称训练阶段也使用了Ascend芯片,完全没有依赖NVIDIA硬件。发布后需求远超产能,z.ai多次扩展国产芯片集群,并邀请外部公司协助部署。华为计划2026年将Ascend芯片产量翻倍到160万片,中国政府官员开始统筹分配剩余的高端芯片,优先支持国产替代。

这个进展的战略意义重大:美国出口管制的核心假设是中国实验室离不开NVIDIA芯片,如果华为Ascend能够支撑前沿模型的训练和推理,这个假设就被打破了。国产芯片的性能可能仍落后于NVIDIA最新一代,但通过MoE架构的稀疏激活,实际推理需求大幅降低,让国产芯片足以胜任。

这种软硬协同的自主路线,正在构建不受制裁影响的AI能力闭环。当更多中国实验室能够完全基于国产硬件训练和部署顶级模型时,全球AI供应链的权力结构将发生根本性转移。

评测数字背后的真相:厂商自夸与独立验证的博弈

需要清醒看待这波发布中的各种评测数字。

Kimi K2.5的AIME 96.1%、BrowseComp分数、Agent Swarm加速效果、100智能体协调能力,都来自Moonshot AI官方博客和Artificial Analysis listing,尚未被独立复现。

GLM-5的低幻觉率排名来自Artificial Analysis,其他分数为厂商自报。


MiniMax M2.5的SWE-bench分数和成本对比为厂商自报,OpenHands Index排名(整体第四)为独立评估。

Seed 2.0 Pro的所有评测和竞赛奖牌为ByteDance自报,架构和参数数量未披露。

Kling 3.0的分辨率、帧率、用户数据来自Kuaishou新闻稿,尚无独立视频质量评测。

Qwen 3.5的80%类别超越GPT-5.2为Alibaba声称,架构和评测分数来自官方HuggingFace模型卡和博客,定价来自阿里云官方文档,模型开源所以独立测试可行但尚未发布。

DeepSeek V4的上下文窗口扩展为用户确认,其他细节来自分析师报告和泄露,非官方来源。

这些数字的可靠性参差不齐,但共同点是都在快速逼近西方闭源模型的水平。更关键的是,评测分数不等于生产环境表现,长会话稳定性、边缘情况处理、内容合规性等因素无法被标准评测捕捉。中国模型的真正考验在于能否在真实业务场景中持续可靠地运行,而不仅是在排行榜上刷分。

西方实验室的5到25倍溢价能否维持,取决于它们能否证明闭源模型在实际部署中的可靠性优势。中国模型能否真正崛起,取决于它们能否在开放生态中建立可持续的质量口碑。