DeepSeek-v4跑分泄露引爆AI圈,真假难辨却已搅动全球市场神经


DeepSeek V4 基准测试结果刚刚泄露。

SWE-Bench 验证通过率为 83.7%。

那它将成为世界上最好的编码模型。

背景信息:

DeepSeek V3.2 思维:73.1%
GPT 5.2 高:80.0%
Kimi K2.5 思考:76.8%
Gemini 3.0 Pro:76.2%

这不仅仅是编写代码。

看看剩下的部分:

AIME 2026:99.4%
FrontierMath Tier 4:23.5%(比 GPT 5.2 高 11 倍)
IMO答案排名:88.4%

如果这些数字属实,DeepSeek V4 即将刷新排行榜。

中国的实验室并没有放慢速度down.而是在加速发展。


中国AI模型DeepSeek-v4“跑分”炸出SOTA?Reddit全网吵翻天!

第一阶段:成绩图出现,群体自动进入“王座争夺模式”

帖子标题写着“DeepSeek-v4 Benchmarks Leaked”。
配图是一张分数图表。

评论区第一反应非常典型:
“那它就是世界最强代码模型了。”

马上有人接话:
“等Opus 4.6和CODEX-5.3评估完再说。”

注意这里的节奏。
没有人先问图从哪里来。
大家默认成绩真实,然后开始排位赛。

有人讨论SWE Bench成绩。
有人讨论Frontier Math。
有人讨论HLE分数。

整个评论区迅速变成冠军争夺现场。
像体育解说一样。

这说明一个事实:
在大模型时代,分数等于权力。
图表等于地位。

当分数出现,讨论立刻围绕“谁第一”。
群体思维自动进入王座模式。

这是一种高度结构化的认知反应。

第二阶段:质疑声音出现,基准本身被反向拆解

很快,有人指出问题。

“为什么没有Claude Opus 4.5?”
“为什么没有GPT 5.3 Codex?”

逻辑非常简单。
如果你打破世界纪录,你一定会把旧纪录保持者放在图里。
这是最基本的竞争心理。

于是推理链条展开:
缺失关键对手 → 有隐藏动机 → 可能造假。

还有人提到一个更核心的问题:基准测试本身已经被污染。

SWE Bench题目公开。
Frontier Math需要与Epoch AI合作。
公开题目可能被模型训练过。

当基准变成公开目标,模型会针对它优化。这就是所谓“Goodhart定律”。

一旦一个指标成为目标,它就失去作为衡量标准的意义。

这句话在评论区被反复提及。有人甚至戏称“Benchmaxing”。

意思是:专门为了刷分而优化。

这里讨论已经升级:焦点从“模型强不强”转向“分数有没有意义”。

第三阶段:开源权重与方法公开的区别被拉到台前

评论里出现一个非常关键的概念区分:

Open weights 和 Open source。

有人说DeepSeek是开源。
马上有人纠正:它是开放权重。

开放权重是公布模型参数。
完整开源意味着公开全部训练数据与流程。

这两者在产业影响上完全不同。

开放权重意味着:任何人可以部署接近顶尖水平的模型。

完整开源意味着:整个方法论透明,行业技术扩散。

这场争论的底层逻辑其实是价格战。

有人说:
如果中国模型以十分之一成本达到顶尖水平,
美国公司收费模式会被冲击。

这直接触及资本市场。

于是讨论开始延伸到股市。
有人说会“再次砸盘”。
有人担心养老金缩水。

一张图表开始影响金融想象。