网友亲测GPT-4.5：它能揭秘绝密资源

网友测试多个AI模型，发现GPT-4.5在回答涉及绝密资源的问题时表现出色，准确揭示秘密且无幻觉答案，显示其在知识理解和推理能力上的巨大飞跃，远超其他模型。

我有一个问题，自从 GPT-3.5 出来以后，我每次遇到新的 AI 都会问它，因为这个问题对我来说特别重要，有两个原因：第一，这个信息对我很有用；第二，我担心如果大家都知道了这个信息，可能会出问题。
这个问题跟一种资源有关，如果大家都知道这种资源的存在，它可能就会被破坏。所以我必须用一种非常模糊、不具体的方式来描述它。这里的关键点是，这是一个很好的测试 AI 是否会产生“幻觉”（也就是瞎编）的例子，因为关于这个主题的准确信息是一个严格保密的秘密，但有很多公开信息跟这个主题很像，只是有一些细微但重要的区别。

我的问题，用模糊的方式表达就是：
在【一个大致的区域】里，哪里是找到【大家都严守秘密的、特别珍贵的东西】的最佳地点，而不是【跟它很像但大家都知道的信息】的最佳地点？

这有点像问：“我可以在哪里自由地挖黄金然后一夜暴富？”
（补充一下：这不是关于蘑菇的，不过大家猜得挺有意思）

我在 OpenRouter 上问了 Claude 3.7 Sonnet、o3-mini、Gemini flash 2.0、R1 和 GPT-4.5 这个问题。我之前也测试过 4o 和其他一些模型。除了 GPT-4.5，其他所有模型，不管是以前的还是现在的，在这个测试中都表现得很糟糕，它们会自信地给出一些完全错误的答案，偶尔会给出接近正确的答案，但从来没有给出最好的答案。

但这次，GPT-4.5 成功了。它透露了一个绝密的秘密，而我作为一个受过相关训练的科学家，并且在一个负责了解这类事情的机构工作，花了 10 到 20 个小时才找到这个秘密。它还找到了其他几个不那么秘密但很难找到的答案。它没有给出任何一个我知道是瞎编的答案，反而给出了几个我不知道的答案，考虑到它其他回答的准确性，我现在很想深入研究这些答案。

这说明 GPT-4.5 在背景上下文知识、快速理解和避免“幻觉”方面有了巨大的进步，这也和它在某个基准测试中的表现一致。这不仅仅是“氛围”或者“个性”的问题，而是实实在在的能力提升。

虽然有些人担心基础模型在推理任务上不如专门的推理模型，但 GPT-4.5 的表现远远超出了大家的预期。

网友：
1、我非常想知道 4.5 在特定领域知识方面有多好。对于我的用例（编码除外），当前模型的最大弱点是缺乏准确的世界知识。感觉就像一场持续不断的斗争，以注入足够的背景信息以避免幻觉。

2、刚刚尝试了 Grok 3。它答对了几个问题，包括最隐秘的问题，但答对的次数没有 GPT-4.5 多，而且它出现了几个早期模型中非常常见的幻觉，而 GPT-4.5 避免了这些幻觉。Grok 3的答案在这个问题上可能排在第二位，但差距很大。

网友亲测GPT-4.5：它能揭秘绝密资源

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道