在推出GPT-4.5不到两个月后,OpenAI又发布了一个重要版本。周一,这家人工智能研究机构在其 API 中发布了 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。此次发布不仅包含了 OpenAI 首个 nano AI 模型,该公司还声称这三个新的 GPT-4.1 推理模型在编码、指令跟踪和长上下文方面带来了显著改进。
2025年4月14日,OpenAI在API里新上线了三个智能模型:GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。这些新模型比之前的GPT-4o和GPT-4o mini更强更聪明,特别在写代码和听懂复杂指令方面进步超大。
它们现在能记住和处理更长的对话内容——最多能记住100万个词!而且更擅长理解这些超长的内容。
它们学到的知识也更新到了2024年6月的最新信息。
(以下是具体有多厉害的说明)
- 写代码能力:GPT-4.1在专业编程测试SWE-bench中拿到54.6分,比GPT-4o高了21.4分,比GPT-4.5高了26.6分,现在是全世界最会写代码的AI。
- 理解指令能力:在MultiChallenge测试中(专门考AI能不能准确执行复杂指令),GPT-4.1拿到38.3分,比GPT-4o提高了10.5分。
- 看视频理解能力:在视频理解测试video-MME里,GPT-4.1看没有字幕的长视频能考72分,比GPT-4o提高了6.7分,创造了新纪录。
虽然测试分数很重要,但我们最看重的是实际使用效果。通过和开发者们一起努力,我们把这些模型优化得特别适合真实场景的需求。
最重要的是,这一批GPT-4.1模型不仅更强,还更省钱!无论响应速度快还是慢,它们的表现都比以前更好。
值得注意的是,GPT-4.1 并不包含在 ChatGPT 中,仅在 API 中。与 GPT-4o 的情况一样,OpenAI 计划逐步将其最新模型中的改进融入到聊天机器人中,但您不会在模型选择器中找到它。
此外,OpenAI 透露,它将开始在 API 中弃用 GPT-4.5 预览版。7 月 14 日,GPT-4.5 预览版将被关闭,因为 GPT-4.1“在许多关键功能上提供了改进或类似的性能,而且成本和延迟更低”。
OpenAI 总结道:“GPT-4.1 是人工智能实际应用的重要一步。通过密切关注现实世界的开发者需求——从编码到指令执行,再到长上下文理解——这些模型为构建智能系统和复杂的代理应用程序开辟了新的可能性。我们不断受到开发者社区创造力的启发,并期待看到大家使用 GPT-4.1 构建成果。”
GPT-4.1 mini 和 nano 简介
除了主模型外,OpenAI 还发布了两个较小的版本:GPT-4.1 mini 和 GPT-4.1 nano。这些模型专为速度和效率至关重要的应用而设计。
GPT-4.1 mini 比 GPT-4o 便宜 83%,速度提高一倍,同时在 MMMU(多模态理解)和 MathVista 等基准测试中提供相同或更佳的性能。
GPT-4.1 nano 是该系列中最紧凑的模型,针对分类、自动完成和信息提取等延迟敏感或成本受限的任务进行了优化。
新的上下文窗口支持最多 100 万个令牌
这三个模型都引入了显著扩展的上下文窗口,最多可达一百万个 token,是 OpenAI 之前 12.8 万个 token 上限的八倍。理论上,这允许在单个提示中分析八个完整的 React 代码库。
然而,更大的上下文窗口并不能保证性能的一致性。OpenAI 承认广泛使用的“大海捞针”测试存在局限性,并表示所有三个模型都通过了该测试。该公司推出了一项新的基准 MRCR(多轮共指解析),旨在评估模型区分长篇上下文中几乎相同的用户提示的能力。
在 MRCR 中,多个提示(例如“写一首关于貘的诗”)会嵌入到长输入的不同位置。然后,模型必须对特定实例做出响应,例如“写一首关于貘的第三首诗”。由于这些提示几乎完全相同,且周围充斥着分散注意力的内容,简单的关键词搜索效果不佳。
尽管 GPT-4.1 在该基准测试中领先,但结果显示,当使用完整上下文窗口时,准确率急剧下降——从 80% 降至 50% 左右。在一次直播演示中,该模型花了一分多钟才从包含 45 万个标记的日志文件中识别出一行插入的文本。
Graphwalks 基准测试同样由 OpenAI 推出,它通过模拟类似图形的结构来测试模型推理海量文本的能力。在该基准测试中,模型必须识别距离给定节点固定数量“边”的点——类似于在城市地图上查找两条街外的所有位置。这要求模型能够推断关系,而不是依赖于表面的解读。
GPT-4.1 在该基准测试中,上下文长度小于 128,000 个 token 时准确率达到 61.7%,明显优于 GPT-4o(42%)。在超过 128,000 个 token 的上下文中,GPT-4.1 仍然保持领先地位,尽管其准确率下降至 19%,这表明这些任务仍然极具挑战性。GPT-4.1 mini 或 nano 等较小模型在这方面的表现明显较差。
早期采用和用例
多家公司报告称,使用 GPT-4.1 后,准确率显著提升。法律科技公司 Blue J 表示,其在复杂税务场景下的准确率提高了 53%。据报告,分析平台 Hex 的 SQL 查询成功率翻了一番。汤森路透的法律文件分析准确率提高了 17%,凯雷投资集团则报告称,从冗长的金融文本中提取信息的能力提高了 50%。
初创公司 Windsurf 率先体验了 GPT-4.1,也取得了显著的进展。在接下来的七天内,用户可以通过同名开发者平台免费试用该模型,之后将以折扣价购买。在竞争日益激烈的“氛围编码”领域,这种方法或许可以作为一种竞争策略,目前该领域由Cursor等工具主导。
网友:
1、记忆是ChatGPT新的护城河
2、奥特曼说:我们在今年夏天之前把我们的模型名字改好怎么样?在那之前,每个人都有几个月的时间来取笑我们(这是我们应得的)。
网友怼道:不是关于你的模型。这是关于你过去的帖子,AGI即将到来,你感觉到它的共鸣,等等,然后你把ChatGPT版本数字从4.5回退到4.1。为什么要撒谎说AGI已经接近了,而事实并非如此,而且你也知道这一点?