DeepSeek推DeepSeek V3.1基础型号 性能提升13%


DeepSeek在huggingface.co上开启了新的DeepSeek-V3.1-Base页面,尽管正在上传,页面是空白的,但是可以看出模型大小是685B参数

极客们沸腾了:

1、我敢肯定,他们就是在等gpt-5发布后,然后就像:“哈哈,拿着我的啤酒。“

2、虽然这是一个基本型号,我不是搞AI研究的专家,就是个写代码、搭系统的工程师。

但我来简单说说大模型到底是咋回事。

1. 基础模型(Base Model)—— 就是个“高级自动补全”

你可以把它想象成一个超级“输入法联想”或者“下一句预测机”。它读了整个互联网上乱七八糟的东西(比如网页、论坛、书、文章等等),学到了“一句话后面通常接啥”。

比如你打:“嘿伙计们”,它可能会接着蹦出:
- “怎么样?”
- “好久没更新博客了……”
- “嘿女孩们!”、“嘿朋友们!”、“嘿敌人!”……

它不讲对错,也不讲礼貌,就是根据它“见得多”来猜接下来该说啥。这叫“无监督学习”——没人教它,它自己看海量数据自学成才。

这种模型就像原始的GPT刚出来时那样,只能干一件事:给你续写。比如调用API的 /completions 接口,你给一段文字,它往后写。



2. 指令模型(Instruction-Tuned Model)—— 才是咱们平时用的“智能助手”

这个才是你熟悉的那种AI:能听懂你的话、回答问题、写作文、帮你写代码,还尽量做到有帮助、不胡说、不害人

它是怎么变聪明又懂事的?分两步:

- 第一步:教它听指令(监督微调)  
  用一堆“问题+正确回答”的例子去训练它,比如:
  - 问:“写一首关于猫的诗。”
  - 答:“小猫踩梅花,跳上窗台看晚霞……”

  这样它就学会“原来人类是这样提问的,我该这样回答”。

- 第二步:让人打分,奖励好回答(RLHF)  
  让真人和AI聊天,然后给回答打分:“这个回答好”、“那个太蠢了”、“这个有风险”。AI根据这些反馈不断调整自己,学会说人话、说有用的话、不说坏话。

这就叫“人类反馈强化学习”(RLHF)。经过这一步,模型才变得靠谱、安全、像个人类助手



总结一下:

- 基础模型:是个“野孩子”,啥都敢说,啥都敢猜,适合拿来当底子再加工。
- 指令模型:是“教育改造”后的乖孩子,听话、有用、守规矩,是我们日常用的ChatGPT那种。



为啥基础模型也有用?

虽然它“野”,但你可以:
- 拿它去训练自己的专用AI(比如医疗、法律领域);
- 做自动写代码、自动写文案的工具;
- 或者玩一些更自由、更实验性的项目(比如用LoRA微调);
- 甚至故意让它“放飞自我”,看看它能说出啥离谱话(笑)。



所以简单说:
> 基础模型是“原材料”,指令模型是“成品AI助手”。

你拿原材料可以自己做饭,但大多数人更愿意直接点外卖——那个“外卖”就是指令模型。



所谓基础模型,就是最原始、没怎么“上课”的那种,它干的事就是纯粹补全。你给它一句话,它就接着往下编,完全按它觉得合适的上下文走。比如有一次,我给 GPT-3.5 基础模型丢了个问题,它居然自动脑补成一张选择题卷子:先给出选项,然后还“热心”地继续帮我出几道类似的选择题,最后还要求我自己选答案、交作业。它就是把我丢的那句话当作“考试的一部分”,然后本能地继续往下接剧情。

指令模型就不一样了。它在训练时额外做过“微调”,主要方式最早是 RLHF(人类反馈强化学习),后来更先进的是 DPO(直接偏好优化)。这种微调其实只动了模型里少量的权重,但方向性很强,把基础模型那种“天马行空的补全”收窄成了“问题 → 答案”的风格。换句话说,指令模型会本能地把你输入的东西当作一个问题,并尽量给出一个回答,而不是乱开脑洞写长篇小说。

所以简单总结:

* 基础模型:像一个没约束的作家,给什么梗就往下写,容易跑偏,创意爆棚但不一定回答问题。
* 指令模型:像一个被训练过的考生,看到问题就会专心想办法回答,格式和内容都更像“问答”。



基准测试绝对适用于基础模型。不要在AIME或指令跟踪上测试它们,但ARC-C,MMLU,GPQA和BBH与基本模型兼容。


DeepSeek 官网现在放的东西,其实不是 DeepSeek 3.1 指令模型。他们在公告里写得很清楚,推出的是 3.1 基础模型(base model),并不是一个训练好的“会聊天”的 3.1 指令模型

另外,如果你真的去他们网站上点聊天,会发现它自己报的身份还是 版本 3,而不是 3.1。换句话说,现在公开给大家用的聊天接口还是旧的 3.0 系列,最新的 3.1 只是在研究层面发布了基础版,还没上指令微调、也没对外开放当成聊天机器人用。

所以一句话总结:官网能聊天的还是 DeepSeek 3,不是 3.1;3.1 目前只有基础模型版本,没出指令模型,更别说能直接用来对话了。



通过官方的DeepSeek API在我的基准测试SVGBench上运行了DeepSeek-V3.1。虽然DeepSeek没有明确地说新模型已经上线API上。我认为,鉴于基准测试分数的大幅跃升,可以安全地假设新模型是在API上的。
在我的测试中,上下文长度也扩展到了128K,这表明新模型已经启动。
有趣的是,非推理版本的得分高于推理版本。远未接近前沿,但与DeepSeek-R1-0528的得分相比,跃升了13%。
整体排名第13位,中国最佳车型排名第2位,开放重量车型排名第2位,无视力车型排名第2位。
https://github.com/johnbean393/SVGBench/