性价比之王:deepseek-r1-distill-llama-70b
deepseek/deepseek-r1-distill-llama-70b位列排名榜第三名,排在openai/o1和deepseek-r1之后:
这张图是一个比较不同模型在“Lineage Benchmark”测试中的表现的图表。Lineage Benchmark 是一个用来测试不同模型能力的测试。图中的每个条形代表一个模型,而条形的不同颜色部分表示这个模型在不同问题规模下的表现。
图的左边列出了所有参与测试的模型名称,比如“openai/o1”、“deepseek/deepseek-r1-distill-llama-70b”等等。右边的数字表示这些模型在测试中的得分,得分越高表示模型的表现越好。
图的底部有四种颜色的图例,分别代表不同的问题规模:
- 绿色代表“问题规模8”
- 黄色代表“问题规模16”
- 橙色代表“问题规模32”
- 红色代表“问题规模64”
每个模型的条形被分成了不同颜色的部分,这些部分的长度表示该模型在对应问题规模下的得分。比如,如果一个模型的绿色部分很长,那说明它在“问题规模8”下的表现很好。
网友:
1、我们目前在TrialRadar.com正在运行这个蒸馏llama70 B,你可以看到速度和智能的平衡是伟大的!真的,它可以为我们的“高级”模式提供支持,目前运行的是o3-mini-相当慢,特别是在长提示符(预期)的情况下。
2、看起来我只是在OpenRouter上选错了提供这个模型的供应商。在https://github.com/fairydreaming/lineage-bench这个网站上,如果用Groq这个供应商,并且把温度调到0.5,这个模型的表现就超过了o3-mini。
虽然o3-mini在lineage-8、lineage-16和lineage-32这几个测试中表现得更好,但在lineage-64这个测试里,它几乎总是选错答案。而DeepSeek-R1-Distill-Llama-70 B在lineage-64里的表现就好多了,有一半以上的时间都能选对答案。这就是为什么它能打败O3-Mini。
不过,这个模型也有点问题,它总是喜欢创造出一些不同版本的答案格式。
现在,如果我能找到一个靠谱的供应商来处理剩下的蒸馏过程,那就好了。
3、以往我一直在寻觅一个值得信赖的供应商来运行DeepSeek-R1-Distill-Qwen-32 B模型,但遇到了不少挑战:
- 在DeepInfra,尽管最大输出可达131k,但不论我如何调整设置,生成的令牌总是被削减至4k。
- 至于Fireworks,虽然它的最大输出为64k,但同样地,无论我如何配置,生成的令牌总被限制在8k。
- Cloudflare虽然不会削减输出,但它常常陷入循环,无论我将温度设置为0.01、0.5还是0.7。
4、我刚买了96 GB RAM,可以运行70 B型号。这虽然缓慢的,但已经很好了!
采用量化技术,您仅需两块24GB的GPU便能驾驭这一模型,同时保持适宜的上下文长度。若采用更为激进的整数量化手段,即便是单块GPU亦能胜任运行之责,然而此举会使得上下文长度受到一定限制,且模型的性能亦会随精度之降低而递减。我所指的是,当您将CPU及其缓慢的RAM纳入运算之中时,尽管性能尚可接受,但每秒处理的令牌数量将显著减少。
5、运行70 B q4需要多少VRAM?Ollama的是43GB。
6、这些经过提炼的deepseek-r1模型存在一个特点,那就是如果对它们进行更多的训练,它们的表现可能会更上一层楼。
特别是,如果能够获取登录数据并尝试匹配完整的deepseek-r1的分布,因为这些模型并非以这种方式生成。
在重新提取这些模型方面,已经做了一些出色的工作——尽管只是针对较小的1.5B和8B模型,但结果对于更大的模型也是充满希望的:https://mobiusml.github.io/r1_result_blogpost/
这意味着,拥有足够计算资源的人可以重新提取这个模型,以获得一个更优秀的模型。
再者,拥有这样计算能力的人也可以使用qwen2.5-72B来创建适当的登录数据蒸馏,从而制作出更优质的模型
7、把一个7B的LLM放在机器人上比用O3解决博士水平的数学问题更有趣!