DeepSeek V4 基准测试结果刚刚泄露。
SWE-Bench 验证通过率为 83.7%。
那它将成为世界上最好的编码模型。
背景信息:
DeepSeek V3.2 思维:73.1%
GPT 5.2 高:80.0%
Kimi K2.5 思考:76.8%
Gemini 3.0 Pro:76.2%
这不仅仅是编写代码。
看看剩下的部分:
AIME 2026:99.4%
FrontierMath Tier 4:23.5%(比 GPT 5.2 高 11 倍)
IMO答案排名:88.4%
如果这些数字属实,DeepSeek V4 即将刷新排行榜。
中国的实验室并没有放慢速度down.而是在加速发展。
中国AI模型DeepSeek-v4“跑分”炸出SOTA?Reddit全网吵翻天!
第一阶段:成绩图出现,群体自动进入“王座争夺模式”
帖子标题写着“DeepSeek-v4 Benchmarks Leaked”。
配图是一张分数图表。
评论区第一反应非常典型:
“那它就是世界最强代码模型了。”
马上有人接话:
“等Opus 4.6和CODEX-5.3评估完再说。”
注意这里的节奏。
没有人先问图从哪里来。
大家默认成绩真实,然后开始排位赛。
有人讨论SWE Bench成绩。
有人讨论Frontier Math。
有人讨论HLE分数。
整个评论区迅速变成冠军争夺现场。
像体育解说一样。
这说明一个事实:
在大模型时代,分数等于权力。
图表等于地位。
当分数出现,讨论立刻围绕“谁第一”。
群体思维自动进入王座模式。
这是一种高度结构化的认知反应。
第二阶段:质疑声音出现,基准本身被反向拆解
很快,有人指出问题。
“为什么没有Claude Opus 4.5?”
“为什么没有GPT 5.3 Codex?”
逻辑非常简单。
如果你打破世界纪录,你一定会把旧纪录保持者放在图里。
这是最基本的竞争心理。
于是推理链条展开:
缺失关键对手 → 有隐藏动机 → 可能造假。
还有人提到一个更核心的问题:基准测试本身已经被污染。
SWE Bench题目公开。
Frontier Math需要与Epoch AI合作。
公开题目可能被模型训练过。
当基准变成公开目标,模型会针对它优化。这就是所谓“Goodhart定律”。
一旦一个指标成为目标,它就失去作为衡量标准的意义。
这句话在评论区被反复提及。有人甚至戏称“Benchmaxing”。
意思是:专门为了刷分而优化。
这里讨论已经升级:焦点从“模型强不强”转向“分数有没有意义”。
第三阶段:开源权重与方法公开的区别被拉到台前
评论里出现一个非常关键的概念区分:
Open weights 和 Open source。
有人说DeepSeek是开源。
马上有人纠正:它是开放权重。
开放权重是公布模型参数。
完整开源意味着公开全部训练数据与流程。
这两者在产业影响上完全不同。
开放权重意味着:任何人可以部署接近顶尖水平的模型。
完整开源意味着:整个方法论透明,行业技术扩散。
这场争论的底层逻辑其实是价格战。
有人说:
如果中国模型以十分之一成本达到顶尖水平,
美国公司收费模式会被冲击。
这直接触及资本市场。
于是讨论开始延伸到股市。
有人说会“再次砸盘”。
有人担心养老金缩水。
一张图表开始影响金融想象。