Claude Sonnet 4.5碾压GPT-5:编程能力登顶SWE-bench

Anthropic发布Claude Sonnet 4.5,编程能力登顶SWE-bench,可连续工作超30小时,同步推出Agent SDK与VS Code插件,全面挑战GPT-5。

Claude Sonnet 4.5震撼发布!Anthropic官宣:这款AI模型能连续编程超30小时不宕机,代码能力碾压GPT-5?  

由前OpenAI核心成员创办的Anthropic公司正式推出了其最新大语言模型Claude Sonnet 4.5!

这款模型不仅在编程能力上实现飞跃,更被官方宣称“能够连续处理复杂编码任务超过30小时”,堪称AI界的“永动机”!这是基于真实基准测试和内部实验得出的结论。

我们快速了解下背后这家神秘又硬核的公司——Anthropic。它由前OpenAI研究员Dario Amodei、Daniela Amodei兄妹等人于2021年联合创立,团队中不乏来自谷歌、Meta和DeepMind的顶尖AI科学家。Anthropic自成立之初就主打“AI安全”与“可解释性”,强调构建对人类有益且可控的智能系统。近年来,随着大模型竞赛白热化,Anthropic凭借Claude系列迅速崛起,成为OpenAI最强劲的对手之一。而此次推出的Sonnet 4.5,正是其在技术军备竞赛中的又一记重拳。

Claude Sonnet 4.5到底强在哪里?

第一大亮点就是——编程能力全面升级!
Anthropic官方透露,在权威的SWE-bench Verified基准测试中,该模型拿下了迄今为止所有AI模型中的最高分。
这个测试是基于GitHub上真实存在的软件工程问题,要求模型理解上下文、定位Bug、编写补丁并提交修复方案。

换句话说,Sonnet 4.5已经能像资深工程师一样“实战修代码”。更夸张的是,在内部压力测试中,它被要求持续执行一项复杂的多步骤编程任务,结果竟然连续运行超过30小时而未出现逻辑混乱或任务中断——这种持久作战能力,在当前所有大模型中几乎闻所未闻。

不仅如此,Claude Sonnet 4.5在“操作系统级任务”上的表现也令人瞠目。
在OSWorld这一模拟真实计算机环境的测试中,它的得分从四个月前Sonnet 4的42.2%飙升至61.4%。这意味着什么?意味着它现在能真正“操作电脑”:比如自动打开浏览器、填写表单、下载文件、运行脚本,甚至协调多个应用程序协同工作。
官方还发布了Chrome扩展的演示视频(虽因隐私政策未直接嵌入),展示Sonnet 4.5如何像人类一样在网页间流畅操作,完成端到端的自动化流程。这种能力一旦普及,将极大解放重复性办公劳动,让打工人真正实现“躺平式提效”。

除了硬核的工程能力,Claude Sonnet 4.5在逻辑推理、数学计算和专业知识领域也全面进化。Anthropic联合金融、法律、医学及STEM领域的专业人士进行了专项测试,结果显示,新模型在这些高门槛场景下的表现显著优于此前所有Claude版本。比如在金融建模中能准确推导期权定价公式,在法律文书分析中能精准识别合同漏洞,在医学文献综述中能提炼关键临床证据。

正因如此,Anthropic毫不谦虚地宣称:“Sonnet 4.5适用于任何使用场景”——这几乎是在向全行业发出邀请函:无论你是程序员、律师、医生还是投行分析师,这款AI都值得你立刻上手。

值得一提的是,尽管性能狂飙,Anthropic却维持了原有定价策略:通过Claude API调用Sonnet 4.5,价格仍为每百万输入token 3美元、输出token 15美元。虽然这使其成为市场上最昂贵的模型之一,但考虑到其30小时不间断工作的能力,单位任务成本反而可能大幅降低。对于企业级用户而言,这种“贵但高效”的模式或许更具长期价值。

与此同时,Anthropic还同步升级了其开发者生态。全新的Claude Code工具迎来多项重磅功能:新增“检查点”机制,允许开发者随时保存任务状态并在中断后无缝恢复;终端界面全面重设计,操作更直观;更重磅的是推出了原生VS Code扩展,让Sonnet 4.5深度融入主流开发环境,实现代码补全、错误调试、文档生成的一站式体验。对程序员来说,这无异于给IDE装上了“AI副驾驶”。

更令人兴奋的是,Anthropic首次开源了其内部使用的“Claude Agent SDK”。这套软件开发工具包,原本是公司构建复杂AI代理系统的秘密武器,如今向公众开放。开发者可借此搭建能管理长期任务、协调多个子代理、处理动态授权的智能体系统。配合API新增的内存管理与上下文处理工具,构建7×24小时运行的AI工作流将不再是梦。想象一下:一个AI代理白天帮你写代码,晚上自动部署测试,凌晨分析日志并生成报告——这正是Sonnet 4.5+Agent SDK组合描绘的未来图景。

为配合此次发布,Anthropic还限时推出了“与Claude共创”(Imagine with Claude)实验项目。在五天内,Claude Max订阅用户可体验Sonnet 4.5实时生成完整软件应用的神奇能力。只需描述需求,AI便能从零开始搭建前端界面、后端逻辑乃至数据库结构,并实时预览效果。这种“所想即所得”的开发模式,或将彻底颠覆传统软件工程流程。

回看整个AI大模型赛道,Anthropic的节奏明显在加速。今年8月刚发布Opus 4.1,如今又火速推出Sonnet 4.5,四个月内连升两级。这种高频迭代背后,无疑是与OpenAI的激烈博弈。就在Opus 4.1发布几天后,GPT-5正式登场;而如今Sonnet 4.5的多项指标直指GPT-5软肋——尤其是长时任务稳定性与系统操作能力。可以预见,两大巨头的“代码军备竞赛”才刚刚进入高潮。

总结来看,Claude Sonnet 4.5不仅是一次常规升级,更标志着AI从“问答助手”向“自主执行者”的关键跃迁。它不再满足于回答“如何写排序算法”,而是能真正接手整个项目,从需求分析到部署运维全程包办。