小模型逆袭大模型：测试扩展是关键！

#DeepSeek时刻 #大语言模型LLM #强化学习RL

2025-02-12 banq

测试时间扩展（TTS）是一种通过在推理阶段增加一些额外的计算来提高大型语言模型（LLM）性能的重要方法。不过，目前的研究还没有系统地分析策略模型、过程奖励模型（PRM）和问题难度对 TTS 的影响。这种分析的缺失限制了我们更好地理解和使用 TTS 方法。

在这篇文章中，我们主要研究两个核心问题：

（1）在不同的策略模型、PRM 和问题难度下，如何最好地扩展测试时间的计算？
（2）通过扩展计算，能在多大程度上提高 LLM 在复杂任务上的表现？较小的语言模型是否可以通过这种方法打败较大的语言模型？

通过对 MATH-500 和难度较高的 AIME24 任务进行大量实验，我们得出了以下结论：

（1）最优的 TTS 策略非常依赖于策略模型、PRM 和问题难度的选择。
（2）通过我们找到的最优 TTS 策略，很小的策略模型甚至可以打败更大的模型。

比如，在 MATH-500 任务上，1B 的 LLM 可以超过 405B 的 LLM。此外，在 MATH-500 和 AIME24 上，0.5B 的 LLM 表现比 GPT-4o 更好，3B 的 LLM 超过了 405B 的 LLM，7B 的 LLM 打败了 o1 和 DeepSeek-R1，而且推理效率更高。

这些发现表明，根据每个任务和模型的特点调整 TTS 策略非常重要，同时也证明了 TTS 是一种很有潜力的方法，可以增强 LLM 的推理能力。

网友：
精简的模型：没有所有不必要的“护栏”，真正提高了性能。

很快，由于对AI ML的出色理解，任何模型都可以立即改进，在每个专业任务上获得95%以上的分数。

ASI-Singularity（人工超级智能-奇点）将成为唯一的全球解决方案。

小模型逆袭大模型：测试扩展是关键！

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道