AI模型成本与性能:Llama4一领风骚

低成本时Llama 4表现最佳,中等成本GPT-4o领先,高成本GPT-4.5 Preview最优。 这张图片是一个散点图,展示了不同模型在LMArena基准测试中的ELO分数与成本之间的关系。以下是图中的一些关键信息: 坐标轴:

  • 横轴表示成本(COST),单位是美元($),范围从$0.10到$100.00。
  • 纵轴表示ELO分数,范围从1275到1425。

模型标记: 图中标记了多个模型,包括Llama 4 Maverick、GPT-4o、GPT-4.5 Preview、DeepSeek V3.1、DeepSeek R1、Gemini 2.0 Flash、Qwen 2.5 Max、o3-mini (high)、QwQ 32B、DeepSeek V3、Command A和Claude 3.7。 每个模型用不同颜色的点表示,并标注了发布日期或版本信息。

模型性能与成本的关系:

  • 图中显示了不同模型在不同成本下的ELO分数,反映了模型的性能和成本效率。
  • 例如,Llama 4 Maverick在成本约为$0.10时,ELO分数约为1420,显示出较高的性能和成本效率。
假设条件:
  • 成本估算假设了分布式推理,包括推测解码、fp8量化、持久缓存以及$2/hr的H100运营成本。
  • 为了提供用户体验,解码延迟为每个token 30ms,经过一次性350ms的预填充延迟后,模型可以在$0.19到$0.49每百万token(3:1混合)的范围内提供服务。
  • LMArena测试是使用优化为对话的Llama 4 Maverick进行的。

总结: 这张图展示了不同模型在LMArena基准测试中的ELO分数与成本之间的关系,帮助我们理解不同模型在不同成本下的性能表现。通过比较不同模型的ELO分数和成本,可以评估它们的性价比和适用场景。

不同成本下哪个模型的ELO分数最高? 根据图表,不同成本下ELO分数最高的模型如下:

  1. 低成本([list=1]
  2. 低成本($0.10 - $1.00):
    • 在这个成本范围内,Llama 4 Maverick 03-26 Experimental 模型的ELO分数最高,约为1420。
    .10 -
  3. 低成本($0.10 - $1.00):
    • 在这个成本范围内,Llama 4 Maverick 03-26 Experimental 模型的ELO分数最高,约为1420。 .00):
      • 在这个成本范围内,Llama 4 Maverick 03-26 Experimental 模型的ELO分数最高,约为1420。
  • 中等成本($1.00 - $10.00):
    • 在这个成本范围内,GPT-4o (Mar 25) 模型的ELO分数最高,约为1400。
  • 高成本($10.00 - $100.00):
    • 在这个成本范围内,GPT-4.5 Preview 模型的ELO分数最高,约为1400。
    总结:
    • 在低成本范围内,Llama 4 Maverick表现最佳。
    • 在中等成本范围内,GPT-4o表现最佳。
    • 在高成本范围内,GPT-4.5 Preview表现最佳。