测试时间扩展(TTS)是一种通过在推理阶段增加一些额外的计算来提高大型语言模型(LLM)性能的重要方法。不过,目前的研究还没有系统地分析策略模型、过程奖励模型(PRM)和问题难度对 TTS 的影响。这种分析的缺失限制了我们更好地理解和使用 TTS 方法。
在这篇文章中,我们主要研究两个核心问题:
- (1)在不同的策略模型、PRM 和问题难度下,如何最好地扩展测试时间的计算?
- (2)通过扩展计算,能在多大程度上提高 LLM 在复杂任务上的表现?较小的语言模型是否可以通过这种方法打败较大的语言模型?
通过对 MATH-500 和难度较高的 AIME24 任务进行大量实验,我们得出了以下结论:
- (1)最优的 TTS 策略非常依赖于策略模型、PRM 和问题难度的选择。
- (2)通过我们找到的最优 TTS 策略,很小的策略模型甚至可以打败更大的模型。
这些发现表明,根据每个任务和模型的特点调整 TTS 策略非常重要,同时也证明了 TTS 是一种很有潜力的方法,可以增强 LLM 的推理能力。
网友:
精简的模型:没有所有不必要的“护栏”,真正提高了性能。
很快,由于对AI ML的出色理解,任何模型都可以立即改进,在每个专业任务上获得95%以上的分数。
ASI-Singularity(人工超级智能-奇点)将成为唯一的全球解决方案。