OpenAI家新出的这个o3模型啊,简直就是个"脑补帝"!根据他们自己人和外面团队的测试,这o3特别爱瞎编乱造,比它家其他几个兄弟模型都能吹。具体有多夸张呢?在他们家的"常识问答考试"里:
- o3每说3句话就有1句是瞎掰的(33%胡扯率)
- 对比它两个老实巴交的哥哥:o1只有16%瞎说,o3-mini更乖只有14.8%
- 结果还有个更离谱的学渣o4-mini,十句话里将近五句不靠谱(48%)
不过隔壁班的GPT-4系列就稳重多了:
- GPT-4-o瞎编率30%
- 学霸GPT-4.5只有19%
但是!(重点来了)别的考场比如HuggingFace那边的监考老师说,GPT-4系列其实更靠谱:
- GPT-4-o胡扯率只有1.5%
- GPT-4.5更是低到1.2%(可惜他们没测o3和o4-mini这两个"吹牛专业户")