GPT-4.5以“研究预览版”的形式发布,OpenAI Pro(每月 200 美元)客户和拥有 API 密钥的开发人员均可使用。OpenAI 还发布了GPT-4.5 系统卡。
现在它的价格非常昂贵:目前每百万输入代币 75.00 美元,每百万输出代币 150 美元!相比之下,o1 的价格为 15 美元/60 美元,而 GPT-4o 的价格仅为 2.50 美元/10 美元。
它的几乎所有关键特征都与GPT-4o 相同:它具有相同的 128,000 上下文长度,处理相同的输入(文本和图像),甚至具有相同的培训截止日期,即 2023 年 10 月。
那么它更擅长什么呢?根据 OpenAI 的博客文章:
- 将对世界的深刻理解与更佳的协作相结合,可以形成一种模型,该模型可以在更适合人类协作的热情而直观的对话中自然地整合想法。GPT-4.5 能够更好地理解人类的意思,并以更细致入微的“情商”来解读微妙的暗示或隐含的期望。
- GPT-4.5 还表现出更强的审美直觉和创造力。它擅长帮助写作和设计。
报告称 SimpleQA 幻觉率为 37.1%——比 GPT-4o(61.8%)和 o3-mini(80.3%)有了很大进步,但比 o1(44%)好不了多少。编码基准测试的得分似乎都与 o3-mini 相似。
Paul Gauthier报告称, Aider 的多语言编码基准测试中的得分为 45% :低于 DeepSeek V3(48%)、Sonnet 3.7(无思考为 60%,有思考为 65%)和 o3-mini(60.4%),但明显领先于 GPT-4o(23.1%)。
OpenAI 似乎对模型本身并不太有信心:
GPT-4.5 是一个非常庞大且计算密集型的模型,因此它比 GPT-4o 更昂贵,而且不能替代它。因此,我们正在评估是否继续在 API 中长期提供该服务,同时在支持当前功能和构建未来模型之间取得平衡。
OpenAI 的 Rapha Gontijo Lopes称其为“(可能是)世界上最大的模型”:而大型模型的问题在于比小型模型慢得多!
Andrej Karpathy发表了一些关于新模型的说明,他强调,考虑到 GPT-4 的训练成本计算增加了 10 倍,改进是有限的:
我记得我以前参加过一个黑客马拉松,那时候我试着找出GPT4比3.5好的地方。确实有一些地方GPT4更强,但要找到特别明显、具体的例子还挺难的。[...] 所以,带着这种期待,我开始测试GPT4.5。我用了几天的GPT4.5,发现它的预训练计算量是GPT4的10倍。这让我感觉好像又回到了两年前的黑客马拉松。虽然一切都好了一点,确实不错,但也没有特别惊艳的地方。 |
Andrej 还进行了一项有趣的基于氛围的民意调查评估,比较了 GPT-4.5 和 GPT-4o 的输出。
官方文档特点:
1、扩展无监督学习
我们通过扩展两个互补的范式来提高人工智能能力:无监督学习和推理。它们代表了智能的两个轴。
- 扩展推理教会模型在做出反应之前思考并产生思路链,从而使它们能够解决复杂的 STEM 或逻辑问题。OpenAI o1 和 OpenAI o3‑mini 等模型推进了这一范式。
- 另一方面,无监督学习提高了世界模型的准确性和直觉。
2、更深层次的世界知识
随着我们扩展模型并解决更复杂的问题,教会它们更好地理解人类的需求和意图变得越来越重要。对于 GPT-4.5,我们开发了新的可扩展技术,可以使用来自较小模型的数据来训练更大、更强大的模型。这些技术提高了 GPT-4.5 的可操作性、对细微差别的理解和自然对话。
将对世界的深刻理解与更佳的协作相结合,可以形成一种模型,该模型可以在更适合人类协作的热情而直观的对话中自然地整合想法。
GPT-4.5 能够更好地理解人类的意思,并以更细致入微的“情商”来解读微妙的暗示或隐含的期望。GPT-4.5 还表现出更强的审美直觉和创造力。它擅长帮助写作和设计。
早期测试表明,与 GPT-4.5 交互感觉更自然。它的知识库更广泛,跟踪用户意图的能力更强,而且“情商”更高,这让它在提高写作、编程和解决实际问题等任务上非常有用。我们还希望它能减少幻觉。
何为情商更高?
就是它更懂“人情世故”了,能更好地理解你的话外之音、情绪和需求,并且用更自然、更贴心的方式回应你。
更高情商就是GPT-4.5更懂你,更会“说话”,更像一个能理解你情绪的朋友,而不是冷冰冰的机器。
情商反面是“直男”:
- 可能完全看不出你生气了,甚至还会问“你为什么生气?”(明明你已经气得冒烟了)
- 想到什么说什么,不太考虑别人的感受,比如你换了新发型,他可能会直接说“这发型不适合你”。
- 喜欢讲道理,而不是照顾情绪。比如你抱怨“今天好累”,他可能会说“累了就早点休息”,而不是“辛苦了,我来帮你”。
- 做事比较直接,不太会拐弯抹角,也不太懂暗示。
注意点:
1、直男情商低原因可能与智商无关,而是与大脑能量有关,缺乏情境意识:
- 直男可能更倾向于用逻辑和理性解决问题,而不是关注情感和细节。这可能是因为他们的大脑能量更多地分配给了“解决问题”而不是“感知情绪”。
- 处理情感信息(比如读懂别人的情绪、理解言外之意)需要消耗大量大脑能量。如果直男的大脑能量有限,他们可能会优先处理更直接、更明确的任务,而忽略情感细节。
2、高情商如果大脑能量不足,有可能因为同情、同理心陷入其他人负面情绪陷阱而不能自拔,一起变成抑郁症。
- 高情商的人就像“情绪海绵”,容易吸收周围人的情绪。如果长期接触负面情绪,自己也可能被拖入抑郁的陷阱。
- 高情商的人往往更关注他人,而忽略了自己的情绪需求。如果缺乏有效的情绪管理能力,可能会因为能量耗尽而崩溃。
Claude 3.7更像理工直男,编码模型新霸主,更像男人;Grok3则类似严谨的中性科学家;而ChatGPT 4.5因为其产品经理山姆奥特曼的同性Gay原因,更关注人类细致感情,导致向类人化发展,更像女人。
大模型发展由此进入了个性化发展时代。
有一种观点认为:当ChatGPT4.5这样更善解人意的大模型装入机器人脑袋时,机器人也许不只是帮助人类解决家务问题,也会陪伴孤独的人类,解决了情感问题。