Claude Sonnet 4.5碾压GPT-5：编程能力登顶SWE-bench

Anthropic发布Claude Sonnet 4.5，编程能力登顶SWE-bench，可连续工作超30小时，同步推出Agent SDK与VS Code插件，全面挑战GPT-5。

Claude Sonnet 4.5震撼发布！Anthropic官宣：这款AI模型能连续编程超30小时不宕机，代码能力碾压GPT-5？

由前OpenAI核心成员创办的Anthropic公司正式推出了其最新大语言模型Claude Sonnet 4.5！

这款模型不仅在编程能力上实现飞跃，更被官方宣称“能够连续处理复杂编码任务超过30小时”，堪称AI界的“永动机”！这是基于真实基准测试和内部实验得出的结论。

我们快速了解下背后这家神秘又硬核的公司——Anthropic。它由前OpenAI研究员Dario Amodei、Daniela Amodei兄妹等人于2021年联合创立，团队中不乏来自谷歌、Meta和DeepMind的顶尖AI科学家。Anthropic自成立之初就主打“AI安全”与“可解释性”，强调构建对人类有益且可控的智能系统。近年来，随着大模型竞赛白热化，Anthropic凭借Claude系列迅速崛起，成为OpenAI最强劲的对手之一。而此次推出的Sonnet 4.5，正是其在技术军备竞赛中的又一记重拳。

Claude Sonnet 4.5到底强在哪里？

第一大亮点就是——编程能力全面升级！
Anthropic官方透露，在权威的SWE-bench Verified基准测试中，该模型拿下了迄今为止所有AI模型中的最高分。
这个测试是基于GitHub上真实存在的软件工程问题，要求模型理解上下文、定位Bug、编写补丁并提交修复方案。

换句话说，Sonnet 4.5已经能像资深工程师一样“实战修代码”。更夸张的是，在内部压力测试中，它被要求持续执行一项复杂的多步骤编程任务，结果竟然连续运行超过30小时而未出现逻辑混乱或任务中断——这种持久作战能力，在当前所有大模型中几乎闻所未闻。

不仅如此，Claude Sonnet 4.5在“操作系统级任务”上的表现也令人瞠目。
在OSWorld这一模拟真实计算机环境的测试中，它的得分从四个月前Sonnet 4的42.2%飙升至61.4%。这意味着什么？意味着它现在能真正“操作电脑”：比如自动打开浏览器、填写表单、下载文件、运行脚本，甚至协调多个应用程序协同工作。
官方还发布了Chrome扩展的演示视频（虽因隐私政策未直接嵌入），展示Sonnet 4.5如何像人类一样在网页间流畅操作，完成端到端的自动化流程。这种能力一旦普及，将极大解放重复性办公劳动，让打工人真正实现“躺平式提效”。

除了硬核的工程能力，Claude Sonnet 4.5在逻辑推理、数学计算和专业知识领域也全面进化。Anthropic联合金融、法律、医学及STEM领域的专业人士进行了专项测试，结果显示，新模型在这些高门槛场景下的表现显著优于此前所有Claude版本。比如在金融建模中能准确推导期权定价公式，在法律文书分析中能精准识别合同漏洞，在医学文献综述中能提炼关键临床证据。

正因如此，Anthropic毫不谦虚地宣称：“Sonnet 4.5适用于任何使用场景”——这几乎是在向全行业发出邀请函：无论你是程序员、律师、医生还是投行分析师，这款AI都值得你立刻上手。

值得一提的是，尽管性能狂飙，Anthropic却维持了原有定价策略：通过Claude API调用Sonnet 4.5，价格仍为每百万输入token 3美元、输出token 15美元。虽然这使其成为市场上最昂贵的模型之一，但考虑到其30小时不间断工作的能力，单位任务成本反而可能大幅降低。对于企业级用户而言，这种“贵但高效”的模式或许更具长期价值。

与此同时，Anthropic还同步升级了其开发者生态。全新的Claude Code工具迎来多项重磅功能：新增“检查点”机制，允许开发者随时保存任务状态并在中断后无缝恢复；终端界面全面重设计，操作更直观；更重磅的是推出了原生VS Code扩展，让Sonnet 4.5深度融入主流开发环境，实现代码补全、错误调试、文档生成的一站式体验。对程序员来说，这无异于给IDE装上了“AI副驾驶”。

更令人兴奋的是，Anthropic首次开源了其内部使用的“Claude Agent SDK”。这套软件开发工具包，原本是公司构建复杂AI代理系统的秘密武器，如今向公众开放。开发者可借此搭建能管理长期任务、协调多个子代理、处理动态授权的智能体系统。配合API新增的内存管理与上下文处理工具，构建7×24小时运行的AI工作流将不再是梦。想象一下：一个AI代理白天帮你写代码，晚上自动部署测试，凌晨分析日志并生成报告——这正是Sonnet 4.5+Agent SDK组合描绘的未来图景。

为配合此次发布，Anthropic还限时推出了“与Claude共创”（Imagine with Claude）实验项目。在五天内，Claude Max订阅用户可体验Sonnet 4.5实时生成完整软件应用的神奇能力。只需描述需求，AI便能从零开始搭建前端界面、后端逻辑乃至数据库结构，并实时预览效果。这种“所想即所得”的开发模式，或将彻底颠覆传统软件工程流程。

回看整个AI大模型赛道，Anthropic的节奏明显在加速。今年8月刚发布Opus 4.1，如今又火速推出Sonnet 4.5，四个月内连升两级。这种高频迭代背后，无疑是与OpenAI的激烈博弈。就在Opus 4.1发布几天后，GPT-5正式登场；而如今Sonnet 4.5的多项指标直指GPT-5软肋——尤其是长时任务稳定性与系统操作能力。可以预见，两大巨头的“代码军备竞赛”才刚刚进入高潮。

总结来看，Claude Sonnet 4.5不仅是一次常规升级，更标志着AI从“问答助手”向“自主执行者”的关键跃迁。它不再满足于回答“如何写排序算法”，而是能真正接手整个项目，从需求分析到部署运维全程包办。

Claude Sonnet 4.5碾压GPT-5：编程能力登顶SWE-bench

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道