低成本时Llama 4表现最佳,中等成本GPT-4o领先,高成本GPT-4.5 Preview最优。
这张图片是一个散点图,展示了不同模型在LMArena基准测试中的ELO分数与成本之间的关系。以下是图中的一些关键信息:
坐标轴:
- 横轴表示成本(COST),单位是美元($),范围从$0.10到$100.00。
- 纵轴表示ELO分数,范围从1275到1425。
模型标记: 图中标记了多个模型,包括Llama 4 Maverick、GPT-4o、GPT-4.5 Preview、DeepSeek V3.1、DeepSeek R1、Gemini 2.0 Flash、Qwen 2.5 Max、o3-mini (high)、QwQ 32B、DeepSeek V3、Command A和Claude 3.7。 每个模型用不同颜色的点表示,并标注了发布日期或版本信息。
模型性能与成本的关系:
- 图中显示了不同模型在不同成本下的ELO分数,反映了模型的性能和成本效率。
- 例如,Llama 4 Maverick在成本约为$0.10时,ELO分数约为1420,显示出较高的性能和成本效率。
- 成本估算假设了分布式推理,包括推测解码、fp8量化、持久缓存以及$2/hr的H100运营成本。
- 为了提供用户体验,解码延迟为每个token 30ms,经过一次性350ms的预填充延迟后,模型可以在$0.19到$0.49每百万token(3:1混合)的范围内提供服务。
- LMArena测试是使用优化为对话的Llama 4 Maverick进行的。
总结: 这张图展示了不同模型在LMArena基准测试中的ELO分数与成本之间的关系,帮助我们理解不同模型在不同成本下的性能表现。通过比较不同模型的ELO分数和成本,可以评估它们的性价比和适用场景。
不同成本下哪个模型的ELO分数最高? 根据图表,不同成本下ELO分数最高的模型如下:
- 低成本([list=1]
- 低成本($0.10 - $1.00):
- 在这个成本范围内,Llama 4 Maverick 03-26 Experimental 模型的ELO分数最高,约为1420。
- 低成本($0.10 - $1.00):
- 在这个成本范围内,Llama 4 Maverick 03-26 Experimental 模型的ELO分数最高,约为1420。
.00):
- 在这个成本范围内,Llama 4 Maverick 03-26 Experimental 模型的ELO分数最高,约为1420。
- 在这个成本范围内,Llama 4 Maverick 03-26 Experimental 模型的ELO分数最高,约为1420。
.00):
- 在这个成本范围内,GPT-4o (Mar 25) 模型的ELO分数最高,约为1400。
- 在这个成本范围内,GPT-4.5 Preview 模型的ELO分数最高,约为1400。
- 在低成本范围内,Llama 4 Maverick表现最佳。
- 在中等成本范围内,GPT-4o表现最佳。
- 在高成本范围内,GPT-4.5 Preview表现最佳。