DeepSeek新版R1口味从Chatgpt换成Gemini

给AI模型做"DNA亲子鉴定"！文本风格分析显示，新版R1现在更接近Google。
所以他们可能使用了更多的合成双子输出进行训练。

想象每个AI模型都会在作文里留下自己的"口水印"——老版的r1家族用的是OpenAI牌的"口水"，新版的r1家族改用Gemini牌的"口水"。

破案过程超级像警匪片️♂️：

左边是旧R1，右边是新R1。
顶部（红色文字）是V3。

网友热评：
1、或者这是一个迹象，他们使用了类似的训练方法或数据。这说明它们可能是一家人，用的都是同一个‘祖传秘方’！

2、关于 Deepseek-R1（初代）的训练内幕：
这哥们儿训练时用了“合成数据”当种子来搞强化学习（RL）——毕竟像数学推理这种东西，你总不能让AI瞎蒙吧？得先教它“正确解题姿势”。

数学题好办：让AI写推理步骤（Chain-of-Thought），答案错了就直接打叉❌。
但主观题（比如写作文）就蛋疼了——谁来判断“好”或“烂”？没有标准答案啊！
- 要么搞个裁判模型（但谁TM有闲工夫训练这个？）
- 要么直接用合成数据当种子（相当于给AI喂“参考答案”），反正没人会手写几百万条示范！

种子数据的影响：

说白了：“种子决定AI怎么想，盗版书决定AI怎么骚话连篇。

3、看图

Deepseek 这公司变心挺快啊！3月还抱着OpenAI的大腿，5月就改投Gemini的怀抱了。看来他们选合成数据就跟选奶茶口味一样——今天喜欢芝士葡萄，明天就换杨枝甘露了呗

4、OpenAI通过API使o3变得非常昂贵，这就是为什么R1不匹配它。因此，他们可能会因此提取谷歌最好的。

5、这就解释了为什么新的R1蒸馏器在写作方面比旧的蒸馏甚至官方的qwen微调指令模型要好得多。

6、现在连OpenAI、谷歌这些大佬都在狂用合成数据！而且他们可不是闲着蛋疼才藏着掖着‘思维链’（Chain-of-Thought）——这玩意儿值钱啊！谁愿意白送竞争对手？
如果我是搞AI的，我肯定直接用最强模型生成合成数据啊！不然呢？难道去屎山里淘金？有浓缩咖啡不喝，非去灌马桶水？

7、Deepseek使用大量的合成数据来避免对齐。考虑到API的成本，他们可能使用了Gemini而不是OpenAI

8、关于Deepseek-R1的训练方法他们的论文说用了“种子数据”（就是先喂一小撮AI生成的合成数据，再搞强化学习RL）。但大部分训练数据还是正经从网上扒的（有机数据），合成数据主要用来教AI“怎么推理”，比如解数学题、逻辑分析这些。

重点来了：

“大家都在用合成数据，结果AI说话越来越像”
现在所有大厂（谷歌、OpenAI、Anthropic…）都偷偷用合成数据，导致不同AI说的话越来越像。比如：

总结