o3比其他openai模型更容易产生幻觉

OpenAI家新出的这个o3模型啊,简直就是个"脑补帝"!根据他们自己人和外面团队的测试,这o3特别爱瞎编乱造,比它家其他几个兄弟模型都能吹。具体有多夸张呢?在他们家的"常识问答考试"里:

  • o3每说3句话就有1句是瞎掰的(33%胡扯率)
  • 对比它两个老实巴交的哥哥:o1只有16%瞎说,o3-mini更乖只有14.8%
  • 结果还有个更离谱的学渣o4-mini,十句话里将近五句不靠谱(48%)

不过隔壁班的GPT-4系列就稳重多了:

  • GPT-4-o瞎编率30%
  • 学霸GPT-4.5只有19%

但是!(重点来了)别的考场比如HuggingFace那边的监考老师说,GPT-4系列其实更靠谱:

  • GPT-4-o胡扯率只有1.5%
  • GPT-4.5更是低到1.2%(可惜他们没测o3和o4-mini这两个"吹牛专业户")
OpenAI官方挠着头解释说:"我们o3就是话多啊!说得多了,有真知灼见,但也难免更多跑火车..." 具体为啥这么爱脑补?科学家们也表示:"这事儿还得再研究研究!"