网友测试多个AI模型,发现GPT-4.5在回答涉及绝密资源的问题时表现出色,准确揭示秘密且无幻觉答案,显示其在知识理解和推理能力上的巨大飞跃,远超其他模型。
我有一个问题,自从 GPT-3.5 出来以后,我每次遇到新的 AI 都会问它,因为这个问题对我来说特别重要,有两个原因:第一,这个信息对我很有用;第二,我担心如果大家都知道了这个信息,可能会出问题。
这个问题跟一种资源有关,如果大家都知道这种资源的存在,它可能就会被破坏。所以我必须用一种非常模糊、不具体的方式来描述它。这里的关键点是,这是一个很好的测试 AI 是否会产生“幻觉”(也就是瞎编)的例子,因为关于这个主题的准确信息是一个严格保密的秘密,但有很多公开信息跟这个主题很像,只是有一些细微但重要的区别。
我的问题,用模糊的方式表达就是:
在【一个大致的区域】里,哪里是找到【大家都严守秘密的、特别珍贵的东西】的最佳地点,而不是【跟它很像但大家都知道的信息】的最佳地点?
这有点像问:“我可以在哪里自由地挖黄金然后一夜暴富?”
(补充一下:这不是关于蘑菇的,不过大家猜得挺有意思)
我在 OpenRouter 上问了 Claude 3.7 Sonnet、o3-mini、Gemini flash 2.0、R1 和 GPT-4.5 这个问题。我之前也测试过 4o 和其他一些模型。除了 GPT-4.5,其他所有模型,不管是以前的还是现在的,在这个测试中都表现得很糟糕,它们会自信地给出一些完全错误的答案,偶尔会给出接近正确的答案,但从来没有给出最好的答案。
但这次,GPT-4.5 成功了。它透露了一个绝密的秘密,而我作为一个受过相关训练的科学家,并且在一个负责了解这类事情的机构工作,花了 10 到 20 个小时才找到这个秘密。它还找到了其他几个不那么秘密但很难找到的答案。它没有给出任何一个我知道是瞎编的答案,反而给出了几个我不知道的答案,考虑到它其他回答的准确性,我现在很想深入研究这些答案。
这说明 GPT-4.5 在背景上下文知识、快速理解和避免“幻觉”方面有了巨大的进步,这也和它在某个基准测试中的表现一致。这不仅仅是“氛围”或者“个性”的问题,而是实实在在的能力提升。
虽然有些人担心基础模型在推理任务上不如专门的推理模型,但 GPT-4.5 的表现远远超出了大家的预期。
网友:
1、我非常想知道 4.5 在特定领域知识方面有多好。对于我的用例(编码除外),当前模型的最大弱点是缺乏准确的世界知识。感觉就像一场持续不断的斗争,以注入足够的背景信息以避免幻觉。
2、刚刚尝试了 Grok 3。它答对了几个问题,包括最隐秘的问题,但答对的次数没有 GPT-4.5 多,而且它出现了几个早期模型中非常常见的幻觉,而 GPT-4.5 避免了这些幻觉。Grok 3的答案在这个问题上可能排在第二位,但差距很大。