性价比之王：deepseek-r1-distill-llama-70b

deepseek/deepseek-r1-distill-llama-70b位列排名榜第三名，排在openai/o1和deepseek-r1之后：

这张图是一个比较不同模型在“Lineage Benchmark”测试中的表现的图表。Lineage Benchmark 是一个用来测试不同模型能力的测试。图中的每个条形代表一个模型，而条形的不同颜色部分表示这个模型在不同问题规模下的表现。

图的左边列出了所有参与测试的模型名称，比如“openai/o1”、“deepseek/deepseek-r1-distill-llama-70b”等等。右边的数字表示这些模型在测试中的得分，得分越高表示模型的表现越好。
图的底部有四种颜色的图例，分别代表不同的问题规模：

绿色代表“问题规模8”
黄色代表“问题规模16”
橙色代表“问题规模32”
红色代表“问题规模64”

每个模型的条形被分成了不同颜色的部分，这些部分的长度表示该模型在对应问题规模下的得分。比如，如果一个模型的绿色部分很长，那说明它在“问题规模8”下的表现很好。

网友：
1、我们目前在TrialRadar.com正在运行这个蒸馏llama70 B，你可以看到速度和智能的平衡是伟大的！真的，它可以为我们的“高级”模式提供支持，目前运行的是o3-mini-相当慢，特别是在长提示符（预期）的情况下。

2、看起来我只是在OpenRouter上选错了提供这个模型的供应商。在https://github.com/fairydreaming/lineage-bench这个网站上，如果用Groq这个供应商，并且把温度调到0.5，这个模型的表现就超过了o3-mini。

虽然o3-mini在lineage-8、lineage-16和lineage-32这几个测试中表现得更好，但在lineage-64这个测试里，它几乎总是选错答案。而DeepSeek-R1-Distill-Llama-70 B在lineage-64里的表现就好多了，有一半以上的时间都能选对答案。这就是为什么它能打败O3-Mini。

不过，这个模型也有点问题，它总是喜欢创造出一些不同版本的答案格式。

现在，如果我能找到一个靠谱的供应商来处理剩下的蒸馏过程，那就好了。

3、以往我一直在寻觅一个值得信赖的供应商来运行DeepSeek-R1-Distill-Qwen-32 B模型，但遇到了不少挑战：

在DeepInfra，尽管最大输出可达131k，但不论我如何调整设置，生成的令牌总是被削减至4k。
至于Fireworks，虽然它的最大输出为64k，但同样地，无论我如何配置，生成的令牌总被限制在8k。
Cloudflare虽然不会削减输出，但它常常陷入循环，无论我将温度设置为0.01、0.5还是0.7。

4、我刚买了96 GB RAM，可以运行70 B型号。这虽然缓慢的，但已经很好了！

采用量化技术，您仅需两块24GB的GPU便能驾驭这一模型，同时保持适宜的上下文长度。若采用更为激进的整数量化手段，即便是单块GPU亦能胜任运行之责，然而此举会使得上下文长度受到一定限制，且模型的性能亦会随精度之降低而递减。我所指的是，当您将CPU及其缓慢的RAM纳入运算之中时，尽管性能尚可接受，但每秒处理的令牌数量将显著减少。

5、运行70 B q4需要多少VRAM？Ollama的是43GB。

6、这些经过提炼的deepseek-r1模型存在一个特点，那就是如果对它们进行更多的训练，它们的表现可能会更上一层楼。
特别是，如果能够获取登录数据并尝试匹配完整的deepseek-r1的分布，因为这些模型并非以这种方式生成。
在重新提取这些模型方面，已经做了一些出色的工作——尽管只是针对较小的1.5B和8B模型，但结果对于更大的模型也是充满希望的：https://mobiusml.github.io/r1_result_blogpost/
这意味着，拥有足够计算资源的人可以重新提取这个模型，以获得一个更优秀的模型。
再者，拥有这样计算能力的人也可以使用qwen2.5-72B来创建适当的登录数据蒸馏，从而制作出更优质的模型

7、把一个7B的LLM放在机器人上比用O3解决博士水平的数学问题更有趣！