小模型逆袭大模型:测试扩展是关键!


测试时间扩展(TTS)是一种通过在推理阶段增加一些额外的计算来提高大型语言模型(LLM)性能的重要方法。不过,目前的研究还没有系统地分析策略模型、过程奖励模型(PRM)和问题难度对 TTS 的影响。这种分析的缺失限制了我们更好地理解和使用 TTS 方法。

在这篇文章中,我们主要研究两个核心问题:

  • (1)在不同的策略模型、PRM 和问题难度下,如何最好地扩展测试时间的计算?
  • (2)通过扩展计算,能在多大程度上提高 LLM 在复杂任务上的表现?较小的语言模型是否可以通过这种方法打败较大的语言模型?

通过对 MATH-500 和难度较高的 AIME24 任务进行大量实验,我们得出了以下结论:

  • (1)最优的 TTS 策略非常依赖于策略模型、PRM 和问题难度的选择。
  • (2)通过我们找到的最优 TTS 策略,很小的策略模型甚至可以打败更大的模型。
比如,在 MATH-500 任务上,1B 的 LLM 可以超过 405B 的 LLM。此外,在 MATH-500 和 AIME24 上,0.5B 的 LLM 表现比 GPT-4o 更好,3B 的 LLM 超过了 405B 的 LLM,7B 的 LLM 打败了 o1 和 DeepSeek-R1,而且推理效率更高。

这些发现表明,根据每个任务和模型的特点调整 TTS 策略非常重要,同时也证明了 TTS 是一种很有潜力的方法,可以增强 LLM 的推理能力。

网友:
精简的模型:没有所有不必要的“护栏”,真正提高了性能。

很快,由于对AI ML的出色理解,任何模型都可以立即改进,在每个专业任务上获得95%以上的分数。

ASI-Singularity(人工超级智能-奇点)将成为唯一的全球解决方案。