AI模型成本与性能：Llama4一领风骚

低成本时Llama 4表现最佳，中等成本GPT-4o领先，高成本GPT-4.5 Preview最优。这张图片是一个散点图，展示了不同模型在LMArena基准测试中的ELO分数与成本之间的关系。以下是图中的一些关键信息：坐标轴：

横轴表示成本（COST），单位是美元（$），范围从$0.10到$100.00。
纵轴表示ELO分数，范围从1275到1425。

模型标记：图中标记了多个模型，包括Llama 4 Maverick、GPT-4o、GPT-4.5 Preview、DeepSeek V3.1、DeepSeek R1、Gemini 2.0 Flash、Qwen 2.5 Max、o3-mini (high)、QwQ 32B、DeepSeek V3、Command A和Claude 3.7。每个模型用不同颜色的点表示，并标注了发布日期或版本信息。

模型性能与成本的关系：

图中显示了不同模型在不同成本下的ELO分数，反映了模型的性能和成本效率。
例如，Llama 4 Maverick在成本约为$0.10时，ELO分数约为1420，显示出较高的性能和成本效率。

假设条件：

成本估算假设了分布式推理，包括推测解码、fp8量化、持久缓存以及$2/hr的H100运营成本。
为了提供用户体验，解码延迟为每个token 30ms，经过一次性350ms的预填充延迟后，模型可以在$0.19到$0.49每百万token（3:1混合）的范围内提供服务。
LMArena测试是使用优化为对话的Llama 4 Maverick进行的。

总结：这张图展示了不同模型在LMArena基准测试中的ELO分数与成本之间的关系，帮助我们理解不同模型在不同成本下的性能表现。通过比较不同模型的ELO分数和成本，可以评估它们的性价比和适用场景。

不同成本下哪个模型的ELO分数最高？ 根据图表，不同成本下ELO分数最高的模型如下：

低成本（[list=1]
低成本（$0.10 - $1.00）：
- 在这个成本范围内，Llama 4 Maverick 03-26 Experimental 模型的ELO分数最高，约为1420。
.10 -
低成本（$0.10 - $1.00）：
- 在这个成本范围内，Llama 4 Maverick 03-26 Experimental 模型的ELO分数最高，约为1420。 .00）：
  - 在这个成本范围内，Llama 4 Maverick 03-26 Experimental 模型的ELO分数最高，约为1420。

中等成本（$1.00 - $10.00）：

在这个成本范围内，GPT-4o (Mar 25) 模型的ELO分数最高，约为1400。

高成本（$10.00 - $100.00）：

在这个成本范围内，GPT-4.5 Preview 模型的ELO分数最高，约为1400。

总结：

在低成本范围内，Llama 4 Maverick表现最佳。
在中等成本范围内，GPT-4o表现最佳。
在高成本范围内，GPT-4.5 Preview表现最佳。