DeepSeek新版R1口味从Chatgpt换成Gemini


给AI模型做"DNA亲子鉴定"!文本风格分析显示,新版R1现在更接近Google。
所以他们可能使用了更多的合成双子输出进行训练。

想象每个AI模型都会在作文里留下自己的"口水印"——老版的r1家族用的是OpenAI牌的"口水",新版的r1家族改用Gemini牌的"口水"。

破案过程超级像警匪片️♂️:

  1. 我先当语文老师改作文,专门抓那些AI爱用但正常人不会说的奇葩词(比如"综上所述""让我们深入探讨"这种装逼用语)
  2. 给每个AI建立"黑名单",记录它们最爱瞎编的1000个词
  3. 就像查DNA一样,把AI们的用词习惯编成密码(比如1100101=ChatGPT,1010101=Gemini)
  4. 最后用生物课学的那套进化树分析法,看看谁抄了谁的作业!


左边是旧R1,右边是新R1。
顶部(红色文字)是V3。


网友热评:
1、或者这是一个迹象,他们使用了类似的训练方法或数据。这说明它们可能是一家人,用的都是同一个‘祖传秘方’!

  • 新版的 r1 虽然换了 Gemini 模型,但说话方式跟老版(OpenAI)没啥大区别。
  • 可能是因为它们训练的数据或者方法差不多,所以“口头禅”都类似。
  • 这些“过度使用的短语”在普通用户眼里可能不明显,但用统计方法一挖,就能发现它们的“血缘关系”

2、关于 Deepseek-R1(初代)的训练内幕:
这哥们儿训练时用了“合成数据”当种子来搞强化学习(RL)——毕竟像数学推理这种东西,你总不能让AI瞎蒙吧?得先教它“正确解题姿势”。

  • 数学题好办:让AI写推理步骤(Chain-of-Thought),答案错了就直接打叉❌。
  • 但主观题(比如写作文)就蛋疼了——谁来判断“好”或“烂”?没有标准答案啊!
    • 要么搞个裁判模型(但谁TM有闲工夫训练这个?)
    • 要么直接用合成数据当种子(相当于给AI喂“参考答案”),反正没人会手写几百万条示范!
种子数据的影响:
  • 对AI的推理逻辑影响很大(比如解题思路)
  • 但对AI的说话风格影响不大——毕竟最终输出还是得靠真实数据集(比如盗版书、网上扒的文本这些“野生素材”)
说白了:“种子决定AI怎么想,盗版书决定AI怎么骚话连篇。

3、看图

  • 3月24号的V3和R1,在图上跟GPT-4贴得贼近 → 说明这俩模型八成是拿OpenAI的合成数据喂大的。
  • 5月28号的R1,突然跟Gemini 2.5 Pro勾肩搭背了 → 好家伙,换爹了!现在改用Gemini的数据来训练了。
Deepseek 这公司变心挺快啊!3月还抱着OpenAI的大腿,5月就改投Gemini的怀抱了。看来他们选合成数据就跟选奶茶口味一样——今天喜欢芝士葡萄,明天就换杨枝甘露了呗

4、OpenAI通过API使o3变得非常昂贵,这就是为什么R1不匹配它。因此,他们可能会因此提取谷歌最好的。

5、这就解释了为什么新的R1蒸馏器在写作方面比旧的蒸馏甚至官方的qwen微调指令模型要好得多。

6、现在连OpenAI、谷歌这些大佬都在狂用合成数据! 而且他们可不是闲着蛋疼才藏着掖着‘思维链’(Chain-of-Thought)——这玩意儿值钱啊!谁愿意白送竞争对手?
如果我是搞AI的,我肯定直接用最强模型生成合成数据啊! 不然呢?难道去屎山里淘金?有浓缩咖啡不喝,非去灌马桶水?

7、Deepseek使用大量的合成数据来避免对齐。考虑到API的成本,他们可能使用了Gemini而不是OpenAI

8、关于Deepseek-R1的训练方法他们的论文说用了“种子数据”(就是先喂一小撮AI生成的合成数据,再搞强化学习RL)。但大部分训练数据还是正经从网上扒的(有机数据),合成数据主要用来教AI“怎么推理”,比如解数学题、逻辑分析这些。

重点来了:

  • 不是数据越多越好!就算某个词在数据集里出现一万次,也不代表AI会学得更深——还得看训练时怎么加权。
  • 如果只用小数据集猛练某个技能,AI就会变成“死记硬背的书呆子”(专业术语:过拟合)。
  • Deepseek-R1可不是随便吃一堆文本就完事了,人家训练是有讲究的!

“大家都在用合成数据,结果AI说话越来越像”
现在所有大厂(谷歌、OpenAI、Anthropic…)都偷偷用合成数据,导致不同AI说的话越来越像。比如:

  • 谷歌的AI突然蹦出一句“这是克劳德(Claude)的风格” → 说明它们可能用了类似的数据源或训练方法。
  • (作者吐槽)我自己也搞不懂为啥会这样 

总结

  • 合成数据是AI界的“秘密调料”,但用多了会让不同AI“串味”。
  • 训练AI不是倒垃圾(数据越多越好),关键是怎么喂、喂什么。
  • 如果你发现不同AI说话风格蜜汁相似……嗯,它们可能用了同一个“食谱”。