o3比其他openai模型更容易产生幻觉

OpenAI家新出的这个o3模型啊，简直就是个"脑补帝"！根据他们自己人和外面团队的测试，这o3特别爱瞎编乱造，比它家其他几个兄弟模型都能吹。具体有多夸张呢？在他们家的"常识问答考试"里：

不过隔壁班的GPT-4系列就稳重多了：

但是！（重点来了）别的考场比如HuggingFace那边的监考老师说，GPT-4系列其实更靠谱：

OpenAI官方挠着头解释说："我们o3就是话多啊！说得多了，有真知灼见，但也难免更多跑火车..." 具体为啥这么爱脑补？科学家们也表示："这事儿还得再研究研究！"