这张图片展示了一组不同模型的性能比较。表格中列出了各个模型的名称及其对应的几个关键指标:
1. Length(长度):模型生成文本的最大长度。
2. Slop(斜率):衡量模型生成文本的流畅度或连贯性。
3. Repetition(重复率):模型生成文本中重复内容的比例。
4. Degradation(退化率):模型在生成长文本时质量下降的程度。
5. Score(得分):模型的综合评分,数值越高表示性能越好。
每个模型的得分用不同颜色的条形图表示,颜色从蓝色到绿色,表示从高到低的得分。
得分最高的是“gemini-2.5-pro-preview-03-25”,得分为80.2。
第二名是中国开源deepseek v3 0324版本
得分最低的是“Llama-4-Scout-17B-16E-Instruct”,得分为32.4。
如果今天令人失望的 Llama 4 发布告诉了我们什么,那就是即使 30 万亿个训练标记和 2 万亿个参数也无法使您的非推理模型比较小的推理模型更好。
模型和数据大小的扩展已结束。
奇怪的是,他们没有在这个新版本中加入推理机,应该可以很容易地 GRPO 其中一个基础模型并获得一些真正好的东西
他们号称的1000万上下文长度其实是虚的,因为压根没有模型真正训练过超过25.6万token的提示词。
意思就是你如果输入超过25.6万token,大部分情况下输出的都是垃圾。
就算你的问题长度没超过25.6万token,输出质量照样大概率很烂——毕竟想搞到大量这种超长的高质量训练数据,现实中基本不可能做到。
他们最大的"巨无霸"模型有2万亿参数,但推理能力连业内顶尖水平都达不到。谁稀罕一个2万亿参数的弱鸡?这话我就撂这儿了。这些模型也就这点能耐了。
排行榜分数都是可以针对性优化的——包括那些Elo评分——所以它们名次靠前根本不稀奇。
你要是拿自己的实际问题测试,它产生的幻觉跟2023年的老古董模型没啥两样。