国产小模型Qwen3暴打谷歌Gemini!

小语言模型本地AI能否干翻谷歌大模型Gemini 2.5?实测7款"野生学霸"表现!

参赛选手小模型名单:

  • 通义千问Qwen 3 1.7B 小不点
  • 通义千问Qwen3 4B 三好生
  • 通义千问Qwen3 8B Q6 课代表
  • 通义千问Qwen 3 14B Q4 学霸
  • 谷歌Gemma3 4B 普通生
  • 谷歌Gemma 3 12B Q4 特长生
  • 微软Phi-4 Mini-Reasoning:疑似考试睡着的留级生

测试规则:

  • 用葡萄牙语题库考英语作答(就是这么魔鬼)
  • 要求写成学术报告格式(就像语文老师要的论文作业)
  • 可以查自家笔记(本地数据库)和维基百科
  • 作弊/胡编直接零分(hallucination幻觉警告!)

结果惊掉下巴:

  1. 冠军:通义千问4B——速度快得像抄答案,报告工整得让班主任落泪,居然比谷歌Gemini 2.5还强!
  2. 亚军:通义8B/14B——稳如年级前三,就是14B稍微有点"思考缓慢"(电脑风扇狂转)
  3. 及格组:Gemma兄弟——交卷快但漏写大题,像极了考前没复习的我
  4. 翻车组:Phi-4——全程梦游瞎编,连1.7G小不点都不如

最魔幻现实:
本来想找个平替,结果通义4B直接把我工作流里的谷歌Gemini开除了!这就好比:
预期:找个能骑的自行车
结果:自行车飙出了法拉利速度

给同学划重点:

  • 要自己电脑跑AI,通义千问4B以上闭眼入
  • 谷歌Gemma像偏科生——工具书都不会用
  • 微软Phi-4可能装错驱动了...(或者真的菜)