王道:3090显卡跑DeepSeek Qwen-32B
DeepSeek模型MMLU Pro测试:越大模型表现更优,在单个3090上运行Qwen 32B才是王道:
这张图表的标题是“MMLU Pro DeepSeek R1 Distill 基准测试”。MMLU Pro 是一个测试,用来衡量不同模型在多个学科上的表现。DeepSeek R1 是一个模型系列,图表中列出了几种不同大小的模型,比如 DeepSeek-R1-Distill-Qwen-15B、DeepSeek-R1-Distill-Qwen-7B 等等。
图表中有很多彩色的柱子,每种颜色代表一个学科,比如红色代表“总体”,黄色代表“经济学”,绿色代表“生物学”,等等。柱子的高度表示模型在该学科上的得分。
从左到右,我们看到不同模型在各个学科上的得分。比如,DeepSeek-R1-Distill-Qwen-15B 模型在“总体”上得分是 57.5,在“数学”上得分是 55,在“经济学”上得分是 41.0,等等。
随着模型大小的增加,比如从 DeepSeek-R1-Distill-Qwen-15B 到 DeepSeek-R1-Distill-Llama-70B,我们可以看到总体得分和其他学科的得分都在提高。这说明更大的模型通常在这些测试中表现得更好。
网友讨论:
1、DS-Qwen-32 确实能更好地处理许多任务。
2、现在我们知道为什么 deepseek 没有发布 qwen72b 精简版了,Qwen2.5 72b 的许可证与 14B/32B 型号不同,这可能会起到一定作用,看看(其他地方https://qwenlm.github.io/blog/qwen2.5-llm/)qwen 未修改的 qwen2.5-32B 与 72B 的基准测试——在列出的各种基准测试中,72B 都比 32B 更好
3、我一直在使用 hf.co/unsloth/DeepSeek-R1-Distill-Qwen-14B-GGUF:Q3_K_M 和 hf.co/unsloth/DeepSeek-R1-Distill-Llama-8B-GGUF:Q6_K,因为它们刚好适合我的 RTX 2080,而且我印象非常深刻。它们是我尝试过的第一批大小小于 8GB 的模型。
尽管没有任何凹凸贴图或适当的镜面照明,但它们成功通过了three.js 地球测试。
这是 8B Q6_K 模型的输出。
4、在实际应用中,32b 模型是否真的比 70b 模型好或更好?
32B R1 蒸馏未量化(16 位)模型在编码和创作写作任务方面都比 70B R1 8bpw EXL2 蒸馏模型差。使用 32B 模型的唯一原因是,如果你无法在没有太多量化的情况下运行 70B 模型。
MMLU Pro 测试,由于数据集污染而广为人知且公开,更多地是测试记忆力而不是泛化能力或实际智力。在记忆力有点模糊的情况下,智力仍然有帮助,因此模型可以做出更好的猜测,但重点是,MMLU Pro 不测试现实世界的编码任务或创意写作。
5、32B 型号在辅助器基准测试中的得分是 70B 型号的两倍。
请注意,基础模型完全不同,而不是同一事物的不同尺寸。
6、要么 Qwen 32B 真的很好,要么LLaMA 3.3 70B 已经过时,要么 32B 参数以外的收益递减。