AI大语言模型、AGI

DeepSeek-v4跑分泄露引爆AI圈，真假难辨却已搅动全球市场神经

DeepSeek V4 基准测试结果刚刚泄露。

SWE-Bench 验证通过率为 83.7%。

那它将成为世界上最好的编码模型。

背景信息：

DeepSeek V3.2 思维：73.1%
GPT 5.2 高：80.0%
Kimi K2.5 思考：76.8%
Gemini 3.0 Pro：76.2%

这不仅仅是编写代码。

看看剩下的部分：

AIME 2026：99.4%
FrontierMath Tier 4：23.5%（比 GPT 5.2 高 11 倍）
IMO答案排名：88.4%

如果这些数字属实，DeepSeek V4 即将刷新排行榜。

中国的实验室并没有放慢速度down.而是在加速发展。

中国AI模型DeepSeek-v4“跑分”炸出SOTA？Reddit全网吵翻天！

第一阶段：成绩图出现，群体自动进入“王座争夺模式”

帖子标题写着“DeepSeek-v4 Benchmarks Leaked”。
配图是一张分数图表。

评论区第一反应非常典型：
“那它就是世界最强代码模型了。”

马上有人接话：
“等Opus 4.6和CODEX-5.3评估完再说。”

注意这里的节奏。
没有人先问图从哪里来。
大家默认成绩真实，然后开始排位赛。

有人讨论SWE Bench成绩。
有人讨论Frontier Math。
有人讨论HLE分数。

整个评论区迅速变成冠军争夺现场。
像体育解说一样。

这说明一个事实：
在大模型时代，分数等于权力。
图表等于地位。

当分数出现，讨论立刻围绕“谁第一”。
群体思维自动进入王座模式。

这是一种高度结构化的认知反应。

第二阶段：质疑声音出现，基准本身被反向拆解

很快，有人指出问题。

“为什么没有Claude Opus 4.5？”
“为什么没有GPT 5.3 Codex？”

逻辑非常简单。
如果你打破世界纪录，你一定会把旧纪录保持者放在图里。
这是最基本的竞争心理。

于是推理链条展开：
缺失关键对手 → 有隐藏动机 → 可能造假。

还有人提到一个更核心的问题：基准测试本身已经被污染。

SWE Bench题目公开。
Frontier Math需要与Epoch AI合作。
公开题目可能被模型训练过。

当基准变成公开目标，模型会针对它优化。这就是所谓“Goodhart定律”。

一旦一个指标成为目标，它就失去作为衡量标准的意义。

这句话在评论区被反复提及。有人甚至戏称“Benchmaxing”。

意思是：专门为了刷分而优化。

这里讨论已经升级：焦点从“模型强不强”转向“分数有没有意义”。

第三阶段：开源权重与方法公开的区别被拉到台前

评论里出现一个非常关键的概念区分：

Open weights 和 Open source。

有人说DeepSeek是开源。
马上有人纠正：它是开放权重。

开放权重是公布模型参数。
完整开源意味着公开全部训练数据与流程。

这两者在产业影响上完全不同。

开放权重意味着：任何人可以部署接近顶尖水平的模型。

完整开源意味着：整个方法论透明，行业技术扩散。

这场争论的底层逻辑其实是价格战。

有人说：
如果中国模型以十分之一成本达到顶尖水平，
美国公司收费模式会被冲击。

这直接触及资本市场。

于是讨论开始延伸到股市。
有人说会“再次砸盘”。
有人担心养老金缩水。

一张图表开始影响金融想象。

DeepSeek-v4跑分泄露引爆AI圈，真假难辨却已搅动全球市场神经

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道