DeepSeek V3.2正式发布:注意力稀疏大到无极!刷榜世界顶尖考试


DeepSeek V3.2开源大模型以稀疏注意力压缩算力成本50%,强化学习预算拉爆10倍预训练开销,未微调即横扫国际奥赛金牌,工具调用与长上下文推理全面碾压Gemini-3.0-Pro,国产之光正式照亮全球AI竞技场。

DeepSeek-V3.2的关键技术突破如下:
(1)DeepSeek稀疏注意力(DSA):引入了DSA,这是一种有效的注意力机制,在长上下文场景中大幅降低了计算复杂度,同时保留了模型性能。

(2)可扩展的强化学习框架:通过实现强大的强化学习协议和扩展后训练计算,DeepSeek-V3.2执行GPT-5的扩展。值得注意的是,我们的高计算变体DeepSeek-V3.2-Speciale超越了GPT-5,推理能力与Gemini-3.0-Pro相当,在2025年国际数学奥林匹克(IMO)和国际奥林匹克竞赛中均获得金牌表现信息学(IOI)。

(3)大规模任务合成管道:为了将推理集成到工具使用场景中,我们开发了一种新的合成管道,可以系统地生成大规模的训练数据。这种方法有利于可扩展的代理后训练,在复杂的交互式环境中的泛化和预防跟踪鲁棒性方面有了实质性的改进。


稀疏注意力DSA黑科技:128K上下文算力砍半,长文本推理不再肉疼!

别再被O(L²)的平方复杂度吓哭了!DeepSeek V3.2祭出的稀疏注意力(DSA, Dynamic Sparse Attention)简直是算力优化的“外挂级”黑科技。

简单说,传统注意力机制要对每个token和所有其他token计算相关性,复杂度是序列长度L的平方;而DSA只在每128K上下文里挑出最关键的2048个token“谈恋爱”,剩下的统统发好人卡——不计算、不存储、不浪费电。

更狠的是,它配合闪电索引器(Lightning Indexer)用FP8精度在显存里高速穿梭,KV缓存全层共享,MLA(Multi-Head Latent Attention)多查询注意力一路火花带闪电,硬生生把计算量从脚踝处一刀斩断。

官方实测,V3.2的prefill阶段成本比V3.1便宜整整50%,decode阶段也省下40%。租一张卡每小时才2美元,省下的钱够整个团队喝三年奶茶!

更夸张的是,性能不降反升——AA-LCR基准悄悄涨了4分,Fiction.liveBench全线碾压竞品,人类偏好Elo分数和上一代持平。这哪是“降价促销”?这分明是“我变便宜了,但我还更强了”!据说GPT-5团队看完数据后,连夜写了份内参:“建议重新评估中国AI威胁等级。”

强化学习预算拉爆10倍!万卡集群暴力炼丹,数学代码搜索全科封神

当别的开源团队还在为几千张GPU卡精打细算时,DeepSeek直接甩出万卡级集群,把强化学习(RL)预算拉到预训练总成本的10%——这在业内堪称“豪无人性”。

他们用的GRPO算法(Group Relative Policy Optimization)可不是普通PPO的缝合怪,而是专门为多任务混合训练设计的终极武器。数学、代码、搜索、工具调用四大领域数据混在一起训,坚决拒绝“灾难性遗忘”。

奖励函数里塞满了规则结果、长度惩罚、语言一致性三大支柱,KL散度用重要性采样做无偏估计,负样本一旦divergence过大直接mask掉。
MoE路由路径在训练阶段采样完就立刻锁死,确保训练和推理完全一致;
top-p采样戴上“面具”防止策略漂移,动作空间对齐精确到牙齿级别。

结果?暴力出奇迹!AIME 2025数学竞赛得分93.1,Codeforces Rating冲到2386,HMMT二月赛拿下92.5分——每一项都碾压GPT-5 High。

更离谱的是,Gemini-3.0-Pro团队据说在内部邮件里紧急标注:“需高度重视DeepSeek V3.2的通用强化学习范式。”这哪是模型?这简直是AI界的全能高考刷题状元复制器!

未微调狂揽IMO/IOI/ICPC三金!国家队级推理能力震惊学术圈

最炸裂的部分来了:DeepSeek V3.2根本没有针对任何竞赛做专项微调,纯靠通用强化学习硬刚国际顶级赛事,结果直接封神!
IMO 2025六道大题狂砍35分(满分42),稳居金牌线;
IOI 2025信息学奥赛总分492分,全球排名第10;
ICPC世界总决赛12题AC 10题,强势摘金;
就连中国数学奥林匹克(CMO)都拿下102分(满分126)封王。

LiveCodeBench代码评测90.7分,GPQA Diamond知识问答85.7分,HLE数学证明30.6分——每一项都达到国家队水平。

评委们看完结果直接懵了:“这模型是不是偷偷练过十年奥赛?”研究团队只是笑而不语,丢下一句哲学级回答:“我们只是把算力堆到极限,剩下的交给数学自己说话。”这句话一出,无数AI研究者膝盖粉碎。

要知道,过去闭源模型靠海量标注数据和定向微调才能勉强参赛,而DeepSeek V3.2用通用能力正面硬刚,彻底打破了“开源=弱鸡”的偏见。网友怒刷弹幕:“原来不靠偷题靠刷题也能赢?”

工具调用科幻级落地:1.8万个合成环境打造AI版“头号玩家”

DeepSeek V3.2的工具调用能力,已经不是“智能助手”级别,而是直接上演《头号玩家》现实版!

团队构建了1.8万个高度仿真的合成任务环境,覆盖旅行规划、代码修复、搜索问答、数据分析等全场景,每个任务都难到让人秃头,却又能自动验证结果正确性。
模型在Jupyter里跑Python代码如同开挂,从GitHub百万级PR中精准筛出可复现的issue环境;搜索Agent采用多智能体流水线——先采样冷门实体,再层层交叉验证,最后只保留那些“人类全对但模型全错”的魔鬼样本用于强化学习。

效果有多猛?

Terminal Bench 2.0冲到46.4分,SWE Verified(软件工程验证)73.1分,SWE多语言版70.2分,BrowseComp中英文任务分别拿下67.6和65.0分,τ²-bench在航空、零售、电信三大行业平均80.3分,MCP宇宙级复杂任务45.9分。

这意味着,开源模型首次在工具调用能力上与闭源巨头站在同一起跑线。弹幕瞬间爆炸:“原来开源也能这么不讲武德!”

上下文管理黑科技:128K像512K一样用,AI也会“断舍离”

面对超长上下文,传统模型要么卡爆显存,要么疯狂掉点。而DeepSeek V3.2祭出了“上下文续命术”——当token使用率达到80%容量时,自动触发三选一策略:生成摘要(Summary)、丢弃75%历史(Discard-75%)、或一键清空工具记录(Discard-all)。

最暴力的Discard-all看似粗暴,实则暗藏玄机:模型依靠推理缓存机制,即便清空历史,依然能保持任务连贯性狂飙输出。在BrowseComp评测中,平均交互步数从140飙升至364,准确率从53.4%拉升到67.6%,效果堪比并行采样N条轨迹,但算力只花三分之一!

团队笑称:“这就是AI界的断舍离哲学。”未来直播写代码时,你会看到模型一边跑程序一边“扔垃圾”,屏幕左侧token计数器像血条回春,爽感直冲天灵盖。
网友已经开始幻想:“以后写万行代码,模型自动清理不用重启,这谁不想要?”

成本腰斩性能翻倍!打工人狂喜,老板连夜砍掉A100订单

最让打工人泪流满面的,是DeepSeek V3.2把高性能AI的门槛直接打穿地板!

官方精算:同样处理128K长文本,V3.1在H800上prefill成本为0.7美元/百万token,V3.2直接砍到0.35美元;decode阶段从2.4美元干到1.2美元——等于全场五折!更离谱的是,性能不降反升。

某互联网公司老板看完数据,默默取消了刚下的A100集群订单;
运维小哥连夜把生产环境镜像全换成V3.2;
开源社区一片欢呼:“终于可以把省下的预算拿去三亚团建了!(首要之责:中年分房睡的夫妻多搞几次团建)”
更有网友扎心吐槽:“GPT-5 High租不起,DeepSeek V3.2免费白嫖,性能差不多,钱包直接回血。”

隔壁组Leader看到模型链接,秒回:“下周全部迁移,Q4 KPI就靠它了!”这不仅是技术胜利,更是打工人对资本算力垄断的一次漂亮反击。

智商密度提升,赶超Gemini-3.0-Pro!

DeepSeek团队在文末直接摊牌:预训练FLOPs还要再翻几倍,世界知识短板马上补齐,token效率继续死磕,目标是让每1K token的“智商密度”再提升30%。复杂多步推理能力将全面向Gemini-3.0-Pro看齐。

下一步,多模态版本即将放出——图片、视频、音频全打通;Agent支持实时联网,插件市场将像App Store一样爆发式增长。



极客辣评:

闭源的人工智能,从一开始就被搞成了一个高门槛的重工业——就像造火箭一样,需要天量资金、顶级人才和庞大的基础设施。普通开发者、小团队、甚至很多创业公司,根本玩不起、跟不上。推动这件事的巨头公司(比如谷歌、OpenAI、Anthropic)正在悄悄建起一座“AI高墙”,把核心技术牢牢锁在自己手里,只让自己人玩。他们在技术核心圈周围竖起了一道又高又陡的铁栅栏,外人连看都看不清,更别说进去了。

真心希望,每一家搞闭源AI的公司,都能同时放出一个能力相当的开源版本。甚至更进一步:所有投给闭源AI的钱,一分都别花——全部转向开源。因为只有开源,技术才能真正被大众参与、共享、改进,而不是被少数公司垄断。(站在道德高地上形象很光辉!)

但现实很残酷。最可能的结果是:谷歌、OpenAI、Anthropic这“AI三巨头”通吃市场,其他那些靠融资烧钱、自称“AI实验室”的公司,最终都会在烧光几亿甚至几十亿美元后,悄无声息地倒闭。比如RunwayML,曾经风光无限,烧了几亿美元,如今在AI大模型的战场上几乎没人提了。

而讽刺的是,恰恰是现在这些强大又免费的开源模型(比如Llama、DeepSeek等),加速了这些二流AI公司的死亡——因为客户发现:既然有便宜、透明、还能自己调的开源模型,干嘛还要为闭源黑盒付天价账单?  

虽然我也希望三巨头发点善心,真正推动技术进步,但说实话,我对他们真能“为人类福祉”做点什么,是持高度怀疑态度的。(有些人做大众看得见的善事,有些人做系统级别善事,社会进步发展了才能不断防止内卷!)



DeepSeek-V3.2-Speciale的令牌效率仍然明显低于Gemini-3.0-Pro。
但价格也低得多


Multiverse Computing是一家专门研究量子AI技术的西班牙公司,该公司的科学家们创建了DeepSeek R1 Slim,该模型体积小55%,但性能几乎与原始模型一样好。
为了精简模型,Multiverse转向了一种从量子物理学中借用的数学复杂方法,该方法使用高维网格网络来表示和操作大型数据集。使用这些所谓的张量网络可以显着缩小模型的大小,并允许更有效地表达复杂的AI系统。

该方法为研究人员提供了模型中所有相关性的“地图”,使他们能够精确地识别和删除特定的信息。在压缩和编辑模型后,Multiverse的研究人员对其进行微调,使其输出尽可能接近原始模型。

这项工作是Multiverse开发压缩和操纵现有AI模型技术的更广泛努力的一部分。如今,大多数大型语言模型都需要高端GPU和强大的计算能力来训练和运行。然而,他们效率低下,Multiverse的联合创始人兼首席科学官Roman Orús说。

他说,一个压缩的模型可以表现得几乎一样好,节省能源和金钱。

整个人工智能行业都在努力使模型更小,更高效。蒸馏模型,如DeepSeek自己的R1-Distill变体,试图通过将它们所知道的“教”给较小的模型来捕获较大模型的能力,尽管它们在复杂的推理任务上往往达不到原始模型的性能。

压缩模型的其他方法包括量化,这会降低模型参数(训练时设置的边界)的精度,以及修剪,这会删除单个权重或整个“神经元”。

在未来,Multiverse表示,它计划压缩所有主流开源模型。



DeepSeek V3.2正式在他们的训练目标中使用了KL正则化项!


Deepseek 通过热启动(采用单独的初始化 + 优化动态)和在 ~1T 个令牌上适应变化,将注意力复杂度从二次方降低到近似线性。

他们还为分解的预填充和解码使用了不同的注意力模式!



前沿技术已经没有知识壁垒了,现在唯一的硬通货就是“算力”。所以,是时候搞更多GPU了。

现在,顶尖的AI知识基本都公开或能获取到了,光靠“我知道你不知道”已经没用了。大家的起跑线越来越近。那最后拼的是什么?就是谁有更多的GPU,更强的计算能力来训练和运行模型。结论很简单粗暴:赶紧去抢/买更多显卡(GPU)!

--- 
所有 DeepSeek 模型均可与 CANN(华为 AI 芯片生态系统)即插即用。

G3:
硬件兼容性:该集成使 DeepSeek 的高级型号(如 DeepSeek-V3 和 R1)能够在华为昇腾 NPU(神经处理单元)上运行,包括昇腾 910B 和 910C 芯片。

软件生态系统:华为自主研发了CANN软件栈,旨在与英伟达占据主导地位的CUDA生态系统展开竞争。此举是华为在美国对高端人工智能芯片出口实施限制的情况下,扶持中国本土人工智能供应链的战略举措。

性能和效率:DeepSeek 的模型采用架构创新设计,计算效率高,即使在性能较弱、符合出口标准的硬件上,结合 CANN 的优化,也能有效运行。