提示大模型:少推理,直接答!

最近那些超级AI(比如DeepSeek之类推理模型)变得特别会做题,秘诀就是让它们像人类一样"把思考过程写出来"。但这篇论文发现了个反常识的现象——有时候不思考反而更厉害!

神奇发现: 用最新AI"深度求索-R1-蒸馏版"做实验,发现只要对它说"别想了直接答",成绩反而更好!尤其在以下场景:

  • 数学题、编程题、证明题等7种烧脑任务
  • 比如某编程考试里,让它"别多想"能拿51分,"认真思考"反而只有28分
  • 当允许AI多试几次(比如猜5次选最好答案)时,"不思考"模式几乎和"思考"模式一样强

作弊技巧: 让AI用"不思考"模式快速生成N个答案,然后:

  • 有标准答案时就自动批改
  • 没答案时就选AI自己最有信心的那个
  • 结果比让它慢慢思考更快更好,最快能达到9倍速度!

网友讨论: 1、这篇论文在研究大语言模型(比如 DeepSeek-R1-Distill-Qwen-32B)时,发现一个反直觉的现象:“让模型假装思考(写一堆推理步骤),有时候还不如直接让它‘别想了,快答!’”

实验对比:

  • “正常模式”:模型像学霸一样,边做题边写思考过程(比如 先这样…再那样…所以答案是42)。
  • “无思考模式”:直接给模型一个提示:“好了,我已经想完了,答案是:_”,让它跳过推理,直接输出结果。

在数学、编程、逻辑推理等任务上,“无思考”模式反而成绩更好,尤其是: 限制输出长度时(比如只让模型写700个字):

  • “无思考”得分 51.3 vs “思考”得分 28.9(差距巨大!)。

让模型多试几次(Best-of-N):

  • “无思考”模式生成多个答案后选最好的,表现几乎和“思考”模式一样强。

2、指理模型(Qwen-32B-Instruct)总体表现比DeepSeek R1 Distill差 因此,总的来说,我认为这篇论文只是部分地捕捉到了 R1 Distill Qwen 32B 优于 Qwen 32B 的地方,而另一部分则表明 RL 模型的表现与 best-of-n 类似。

3、我目前正在对 RAG 进行研究,将已知事实直接注入推理步骤。

"<认为>我知道{结果在这里},所以...... "

<think> I know that {RESULTS HERE}, so…

确实有助于减少幻觉。