这是Gemma 3 27b vs. 阿里千问QwQ 32b vs. Mistral 24b vs. Deepseek r1测试。
上周,谷歌和Mistral公司分别发布了两个新的人工智能模型,叫做Gemma 3 27b和Mistral small 3.1 24b。从一些标准测试来看,这两个模型的表现似乎都能接近另一个叫做Deepseek r1的模型,这听起来挺厉害的。
但是说实话,我现在对这些标准测试的结果不太感兴趣了,特别是那些由在Lmsys 排行榜上的得分与 Deepseek r1 相当做的测试。因为在实际使用这些模型的时候,它们的表现总是不太符合测试的排名。
所以,我自己做了一些小测试,想看看应该选择哪个模型。我还用了Deepseek r1来对比答案,因为我经常用它来获取更好的图像。
我不太喜欢排行榜,因为我仍然确信具有 671B 参数的 Deepseek r1 在一般任务中将始终遥遥领先。但我很想看看这三款产品的表现如何。QwQ 在多个基准测试中的得分甚至与 Deepseek r1 相当。
因此,这里的基本假设是模型的表现将低于 r1,而任何高于该值的数值都会为模型增加一分。
我使用了OpenRouter托管模型来进行此比较。
以下是我的发现:
- 对于编程任务:QwQ 32b在编程方面明显比另外两个模型强。有时候它写的代码比Deepseek r1还要好。他们在测试中没有说谎。和它交流也很舒服。Gemma排在第二,能完成一些简单的任务。而Mistral在这方面表现很差。
- 对于逻辑推理:Qwen表现得更好。当然,这是一个专门用于推理的模型,但Gemma也很不错。他们做了一个很好的基础模型。Mistral虽然也有这个功能,但表现一般。
- 对于数学问题:Gemma和QwQ都能处理一些简单的数学题。Gemma作为基础模型,速度更快。我可能会对这两个模型进行更多的测试。Mistral表现还行,但还是排在第三。
那么,该选哪个呢?
阿里千问QwQ 32b无疑是这些模型中最好的。
它在编程、逻辑推理和数学方面都很擅长。
我已经很久没用过本地模型了,上一次用的是一年前的Mixtral,我没想到它们现在会这么好。
- 千问QwQ很有前途;我迫不及待想看到他们的新max模型。
- Gemma 3 27b是一个很稳固的基础模型。感觉很好。有了它,你不会错过太多东西。但它有特定的许可证,比Apache 2.0更严格。
- Mistral small 3.1 24b没有给我留下太深的印象;也许它需要更严格的测试。
- Gemma和Mistral Small都支持图像处理,所以也可以考虑这一点。