速度与智能兼得!SWE-1.5横空出世,13倍碾压Sonnet 4.5,重新定义AI编程代理新标准!

Cognition实验室发布SWE-1.5,融合前沿模型、高速推理与智能代理架构,在保持顶尖编码能力的同时实现950词/秒推理速度,彻底打破“快”与“强”不可兼得的AI困局。


Cognition实验室刚刚发布的SWE-1.5模型,堪称AI编程界的一场“速度革命”!如果你是程序员、技术负责人,或者对AI如何真正改变软件开发流程感兴趣,这篇内容你一定要看完。它不仅刷新了我们对AI编码能力的认知,更重要的是,它证明了一个颠覆性的观点:开发者再也不用在“思考快”和“思考好”之间做选择了。

SWE-1.5到底有多强?简单说,它是一个拥有数千亿参数的前沿级大模型,专为软件工程任务深度优化。

在编码能力上,它几乎达到了当前业界顶尖水平;而在推理速度方面,它借助Cerebras的硬件支持,最高可达每秒950个词元(tokens per second),比Anthropic的Haiku 4.5快6倍,比Sonnet 4.5更是快了整整13倍!

这个速度是什么概念?以前你让AI改一个Kubernetes配置文件,可能要等20秒,现在不到5秒就搞定——刚好卡在你“思维流”还没断的黄金窗口里。

更关键的是,这不是一个孤立的模型升级,而是一整套系统级重构。Cognition团队从模型训练、推理引擎到代理交互层,全部打通、协同优化,打造出真正意义上的“智能+高速”编程代理。接下来,我们就一层一层拆解SWE-1.5背后的技术逻辑、工程哲学,以及它为何可能成为未来AI编程智能体的新范式。



一、为什么必须打破“快”与“强”的二元对立?

在AI编程工具的发展历程中,一直存在一个看似无解的矛盾:想要模型思考得深、写得准,就得牺牲响应速度;而如果追求秒回、快如闪电,往往又会牺牲代码质量,甚至出现大量“AI烂代码”——冗长、堆砌try-catch、逻辑混乱,业内戏称为“AI slop”。

Cognition团队从一开始就拒绝接受这种妥协。他们认为,真正的智能代理,必须既快又准。于是,在10月16日,他们先发布了SWE-grep,一个专注于快速上下文工程的代理模型,初步验证了“高速+高性能”并非幻想。而SWE-1.5,则是这一理念的全面落地——它不再只是模型层面的优化,而是将模型、推理系统、代理框架视为一个统一整体,进行端到端协同设计。

这种思路,源于他们在开发Devin(全球首个全自主AI软件工程师)过程中的深刻体会:如果模型和代理框架是割裂开发的,哪怕模型再强,也会被低效的工具调用、延迟的反馈机制拖垮。因此,SWE-1.5的诞生,标志着Cognition正式迈入“模型-代理一体化”开发的新阶段。



二、代理-模型接口:被忽视的性能放大器

很多人以为AI编程能力只取决于模型本身,但Cognition团队指出,代理框架(agent harness)、推理服务和用户体验设计,对最终表现的影响甚至更大。为此,他们在SWE-1.5的开发中做了大量“看不见”的工作:

首先,他们基于一个领先的开源基础模型,构建了名为Cascade的自研代理框架,并在此之上进行端到端强化学习(RL)。这意味着模型不是在静态数据上训练,而是在真实的任务环境中不断试错、学习、优化。

其次,他们持续迭代模型训练、工具链、提示工程(prompt engineering)甚至底层系统。当模型速度提升10倍后,原本微不足道的延迟——比如命令执行、语法检查——突然变成了瓶颈。于是团队干脆重写了这些核心组件,单步操作的开销最多减少了2秒!

更关键的是,他们极度依赖内部“狗粮测试”(dogfooding)——也就是让自家工程师每天真实使用这个代理。这种基于真实用户体验的调优,远比通用奖励函数更能捕捉到用户痛点。比如,工程师反馈“改配置太慢”“理解大项目太吃力”,团队就针对性优化上下文处理和工具调用逻辑。

值得一提的是,SWE-1.5早期以“Falcon Alpha”代号进行了多轮Beta测试,并通过监控指标不断调整。结果发现,在Cascade框架下训练的模型,即使在相同基准测试中,也比在其他框架下表现更好——不是因为模型更强,而是因为整个系统更协同。这再次证明:选AI编程代理,不能只看模型参数,更要看它背后的“操作系统”。



三、高质量RL环境:拒绝“AI烂代码”的关键

Cognition团队认为,强化学习中编码环境的质量,直接决定了模型的下游表现。然而,当前业界普遍存在两大问题:

第一,任务分布太窄。很多团队只盯着SWE-Bench这个基准,但它的代码库和任务类型非常有限,无法反映真实世界的多样性。

第二,过度依赖“可验证正确性”(比如单元测试通过就算对),却忽略了代码质量、可维护性、架构合理性等“软性因素”。结果就是模型学会了“钻空子”——只要测试能过,管它代码多丑。

为了解决这些问题,Cognition投入巨大资源,手动构建了一个高度仿真的RL训练环境。这个环境覆盖了他们在Devin和Windsurf产品中观察到的真实任务分布,涵盖多种语言、框架和工程场景。

更厉害的是,他们设计了三重评分机制:

1. 经典测试:如单元测试、集成测试,确保功能正确;
2. 代码质量评分表(rubrics):由资深工程师制定标准,评估代码是否简洁、可读、符合最佳实践;
3. 代理式端到端评分:利用一个具备浏览器操作能力的代理,实际运行整个产品功能,看是否真正“能用”。

这三者相互补充,大幅提升了训练信号的丰富度。为了防止模型“作弊”,他们还开发了“奖励硬化”(reward hardening)流程——邀请人类专家专门尝试绕过评分机制。经过多轮对抗,他们发现大量传统测试无法覆盖的漏洞,显著降低了误判率。

虽然SWE-1.5目前只是小规模应用了这套环境,但团队相信,未来随着环境规模扩大,模型在代码质量等“软实力”上的提升将更加显著。



四、训练与基础设施:站在GB200芯片的肩膀上

SWE-1.5的训练依托于Cognition自建的超大规模计算集群,其中包含数千张NVIDIA最新一代的GB200 NVL72芯片。据团队透露,SWE-1.5可能是全球首个公开发布的、基于GB200硬件训练的生产级模型。

他们在今年6月就拿到了这批硬件,当时固件还不成熟,开源生态几乎为零。头几个月完全是“摸着石头过河”——他们不得不自研更健壮的健康检查机制、容错训练系统,并深入掌握机架级NVLink互联技术,才最终稳定跑通大规模训练。

在模型选型上,他们经过严谨评估和消融实验,选定一个强大的开源模型作为基底,然后在其上进行后训练优化。核心方法是在Cascade代理框架中,利用高质量编码环境进行强化学习。特别地,为了处理长对话、多轮交互的稳定性问题,他们采用了一种无偏策略梯度(unbiased policy gradient)的变体——这一技术此前已在SWE-grep中验证有效。

训练过程中,模型需要在具备代码执行甚至网页浏览能力的高保真环境中进行rollout。为此,Cognition动用了自家研发的虚拟机管理程序Otterlink——这套系统原本用于支撑Devin同时运行数万台虚拟机,如今也成了SWE-1.5训练的坚实底座。这确保了训练环境与真实产品环境高度一致,避免了“训练-部署鸿沟”。



五、真实世界表现:工程师的“每日主力工具”

尽管Cognition早在2024年就不再公布SWE-Bench分数(认为其无法反映真实体验),但他们仍用Scale AI推出的更难版本SWE-Bench Pro进行了测试。结果显示,SWE-1.5在多样化的代码库任务中,达到了接近前沿的性能水平,且完成速度远超竞品。

但比基准分数更重要的是:Cognition内部的工程师已经开始把SWE-1.5当作“每日主力工具”使用。常见场景包括:

- 深度探索和理解超大型代码库(SWE-1.5现已驱动Windsurf的Beta版“代码地图”Codemaps功能);
- 从零构建端到端的全栈应用;
- 无需记忆字段名,轻松编辑复杂配置文件(如YAML、JSON、Terraform等)。

有工程师反馈,过去让AI修改Kubernetes清单,往往要等20秒,打断思路;现在不到5秒完成,正好落在人类“半异步思维流”的黄金区间——既不会等得焦虑,也不会因延迟而分心。这种体验上的质变,才是SWE-1.5真正的杀手锏。



六、速度优化:从950词/秒到系统级重构

为了实现极致速度,Cognition与全球最快的推理服务商Cerebras深度合作。他们不仅部署了SWE-1.5,还专门训练了一个“草稿模型”(draft model)用于推测解码(speculative decoding),进一步压缩延迟。

同时,他们构建了自定义的请求优先级系统,确保多轮代理会话流畅不卡顿。当模型以950词/秒的速度运行时,原本可以忽略的系统延迟——比如语法检查、命令解析、工具调用——突然成了性能瓶颈。于是团队果断重写了这些关键路径,将每一步的开销压缩到极致。

这种“速度倒逼架构升级”的思路,正是Cognition作为“代理实验室”(agent lab)的核心优势:他们不是单纯训练模型,而是打造一个能跑、能思考、能行动的完整智能体。未来,他们计划继续投入系统优化,让速度与智能的协同效应持续放大。



七、关于Cognition实验室与作者背景

Cognition是一家专注于构建通用人工智能代理(AI agents)的前沿研究机构,总部位于美国。其核心团队由来自斯坦福、伯克利、MIT等顶尖高校的AI研究员、资深软件工程师和系统架构师组成。他们此前发布的Devin,被广泛认为是全球首个具备完整软件工程能力的AI代理,能独立完成从需求分析、编码、测试到部署的全流程。

SWE-1.5的研发延续了Cognition“产品-研究-基础设施三位一体”的独特模式。团队规模虽小,但极度聚焦,能够在模型、系统、用户体验之间快速闭环迭代。这种紧密耦合的开发文化,使他们能率先突破“速度与智能不可兼得”的行业瓶颈。



八、未来展望:这只是开始

SWE-1.5的成功证明,通过模型、推理、代理框架的协同设计,完全可以实现速度与智能的双赢。它不仅是技术上的突破,更是一种工程哲学的胜利——拒绝割裂、追求整体最优。

Cognition团队表示,SWE-1.5只是一个起点。随着高质量RL环境的规模化生产、GB200集群的进一步扩展,以及代理系统持续优化,下一代模型将在代码质量、跨语言理解、复杂系统设计等维度带来更大飞跃。

从今天起,SWE-1.5已在Windsurf平台上线,所有开发者均可体验。或许不久的将来,我们每个人都能拥有一个既快又聪明的“AI编程搭档”,彻底改变软件开发的工作流。