最近那些超级AI(比如DeepSeek之类推理模型)变得特别会做题,秘诀就是让它们像人类一样"把思考过程写出来"。但这篇论文发现了个反常识的现象——有时候不思考反而更厉害!
神奇发现: 用最新AI"深度求索-R1-蒸馏版"做实验,发现只要对它说"别想了直接答",成绩反而更好!尤其在以下场景:
- 数学题、编程题、证明题等7种烧脑任务
- 比如某编程考试里,让它"别多想"能拿51分,"认真思考"反而只有28分
- 当允许AI多试几次(比如猜5次选最好答案)时,"不思考"模式几乎和"思考"模式一样强
作弊技巧: 让AI用"不思考"模式快速生成N个答案,然后:
- 有标准答案时就自动批改
- 没答案时就选AI自己最有信心的那个
- 结果比让它慢慢思考更快更好,最快能达到9倍速度!
网友讨论: 1、这篇论文在研究大语言模型(比如 DeepSeek-R1-Distill-Qwen-32B)时,发现一个反直觉的现象:“让模型假装思考(写一堆推理步骤),有时候还不如直接让它‘别想了,快答!’”
实验对比:
- “正常模式”:模型像学霸一样,边做题边写思考过程(比如
先这样…再那样…所以答案是42 )。 - “无思考模式”:直接给模型一个提示:“好了,我已经想完了,答案是:_”,让它跳过推理,直接输出结果。
在数学、编程、逻辑推理等任务上,“无思考”模式反而成绩更好,尤其是: 限制输出长度时(比如只让模型写700个字):
- “无思考”得分 51.3 vs “思考”得分 28.9(差距巨大!)。
让模型多试几次(Best-of-N):
- “无思考”模式生成多个答案后选最好的,表现几乎和“思考”模式一样强。
2、指理模型(Qwen-32B-Instruct)总体表现比DeepSeek R1 Distill差 因此,总的来说,我认为这篇论文只是部分地捕捉到了 R1 Distill Qwen 32B 优于 Qwen 32B 的地方,而另一部分则表明 RL 模型的表现与 best-of-n 类似。
3、我目前正在对 RAG 进行研究,将已知事实直接注入推理步骤。
"<认为>我知道{结果在这里},所以...... "
<think> I know that {RESULTS HERE}, so… |
确实有助于减少幻觉。