OpenAI推出新的GPT-4.1模型

#大语言模型LLM #ChatGPT等OpenAI技术 #vibe编程

2025-04-15 1 3K banq

在推出GPT-4.5不到两个月后，OpenAI又发布了一个重要版本。周一，这家人工智能研究机构在其 API 中发布了 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。此次发布不仅包含了 OpenAI 首个 nano AI 模型，该公司还声称这三个新的 GPT-4.1 推理模型在编码、指令跟踪和长上下文方面带来了显著改进。

2025年4月14日，OpenAI在API里新上线了三个智能模型：GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。这些新模型比之前的GPT-4o和GPT-4o mini更强更聪明，特别在写代码和听懂复杂指令方面进步超大。

它们现在能记住和处理更长的对话内容——最多能记住100万个词！而且更擅长理解这些超长的内容。

它们学到的知识也更新到了2024年6月的最新信息。
（以下是具体有多厉害的说明）

写代码能力：GPT-4.1在专业编程测试SWE-bench中拿到54.6分，比GPT-4o高了21.4分，比GPT-4.5高了26.6分，现在是全世界最会写代码的AI。
理解指令能力：在MultiChallenge测试中（专门考AI能不能准确执行复杂指令），GPT-4.1拿到38.3分，比GPT-4o提高了10.5分。
看视频理解能力：在视频理解测试video-MME里，GPT-4.1看没有字幕的长视频能考72分，比GPT-4o提高了6.7分，创造了新纪录。

虽然测试分数很重要，但我们最看重的是实际使用效果。通过和开发者们一起努力，我们把这些模型优化得特别适合真实场景的需求。

最重要的是，这一批GPT-4.1模型不仅更强，还更省钱！无论响应速度快还是慢，它们的表现都比以前更好。

值得注意的是，GPT-4.1 并不包含在 ChatGPT 中，仅在 API 中。与 GPT-4o 的情况一样，OpenAI 计划逐步将其最新模型中的改进融入到聊天机器人中，但您不会在模型选择器中找到它。

此外，OpenAI 透露，它将开始在 API 中弃用 GPT-4.5 预览版。7 月 14 日，GPT-4.5 预览版将被关闭，因为 GPT-4.1“在许多关键功能上提供了改进或类似的性能，而且成本和延迟更低”。

OpenAI 总结道：“GPT-4.1 是人工智能实际应用的重要一步。通过密切关注现实世界的开发者需求——从编码到指令执行，再到长上下文理解——这些模型为构建智能系统和复杂的代理应用程序开辟了新的可能性。我们不断受到开发者社区创造力的启发，并期待看到大家使用 GPT-4.1 构建成果。”

GPT-4.1 mini 和 nano 简介
除了主模型外，OpenAI 还发布了两个较小的版本：GPT-4.1 mini 和 GPT-4.1 nano。这些模型专为速度和效率至关重要的应用而设计。

GPT-4.1 mini 比 GPT-4o 便宜 83%，速度提高一倍，同时在 MMMU（多模态理解）和 MathVista 等基准测试中提供相同或更佳的性能。

GPT-4.1 nano 是该系列中最紧凑的模型，针对分类、自动完成和信息提取等延迟敏感或成本受限的任务进行了优化。

新的上下文窗口支持最多 100 万个令牌
这三个模型都引入了显著扩展的上下文窗口，最多可达一百万个 token，是 OpenAI 之前 12.8 万个 token 上限的八倍。理论上，这允许在单个提示中分析八个完整的 React 代码库。

然而，更大的上下文窗口并不能保证性能的一致性。OpenAI 承认广泛使用的“大海捞针”测试存在局限性，并表示所有三个模型都通过了该测试。该公司推出了一项新的基准 MRCR（多轮共指解析），旨在评估模型区分长篇上下文中几乎相同的用户提示的能力。

在 MRCR 中，多个提示（例如“写一首关于貘的诗”）会嵌入到长输入的不同位置。然后，模型必须对特定实例做出响应，例如“写一首关于貘的第三首诗”。由于这些提示几乎完全相同，且周围充斥着分散注意力的内容，简单的关键词搜索效果不佳。

尽管 GPT-4.1 在该基准测试中领先，但结果显示，当使用完整上下文窗口时，准确率急剧下降——从 80% 降至 50% 左右。在一次直播演示中，该模型花了一分多钟才从包含 45 万个标记的日志文件中识别出一行插入的文本。

Graphwalks 基准测试同样由 OpenAI 推出，它通过模拟类似图形的结构来测试模型推理海量文本的能力。在该基准测试中，模型必须识别距离给定节点固定数量“边”的点——类似于在城市地图上查找两条街外的所有位置。这要求模型能够推断关系，而不是依赖于表面的解读。

GPT-4.1 在该基准测试中，上下文长度小于 128,000 个 token 时准确率达到 61.7%，明显优于 GPT-4o（42%）。在超过 128,000 个 token 的上下文中，GPT-4.1 仍然保持领先地位，尽管其准确率下降至 19%，这表明这些任务仍然极具挑战性。GPT-4.1 mini 或 nano 等较小模型在这方面的表现明显较差。

早期采用和用例
多家公司报告称，使用 GPT-4.1 后，准确率显著提升。法律科技公司 Blue J 表示，其在复杂税务场景下的准确率提高了 53%。据报告，分析平台 Hex 的 SQL 查询成功率翻了一番。汤森路透的法律文件分析准确率提高了 17%，凯雷投资集团则报告称，从冗长的金融文本中提取信息的能力提高了 50%。

初创公司 Windsurf 率先体验了 GPT-4.1，也取得了显著的进展。在接下来的七天内，用户可以通过同名开发者平台免费试用该模型，之后将以折扣价购买。在竞争日益激烈的“氛围编码”领域，这种方法或许可以作为一种竞争策略，目前该领域由Cursor等工具主导。

网友：
1、记忆是ChatGPT新的护城河

2、奥特曼说：我们在今年夏天之前把我们的模型名字改好怎么样？在那之前，每个人都有几个月的时间来取笑我们（这是我们应得的）。
网友怼道：不是关于你的模型。这是关于你过去的帖子，AGI即将到来，你感觉到它的共鸣，等等，然后你把ChatGPT版本数字从4.5回退到4.1。为什么要撒谎说AGI已经接近了，而事实并非如此，而且你也知道这一点？