速度与智能兼得！SWE-1.5横空出世，13倍碾压Sonnet 4.5，重新定义AI编程代理新标准！

Cognition实验室发布SWE-1.5，融合前沿模型、高速推理与智能代理架构，在保持顶尖编码能力的同时实现950词/秒推理速度，彻底打破“快”与“强”不可兼得的AI困局。

Cognition实验室刚刚发布的SWE-1.5模型，堪称AI编程界的一场“速度革命”！如果你是程序员、技术负责人，或者对AI如何真正改变软件开发流程感兴趣，这篇内容你一定要看完。它不仅刷新了我们对AI编码能力的认知，更重要的是，它证明了一个颠覆性的观点：开发者再也不用在“思考快”和“思考好”之间做选择了。

SWE-1.5到底有多强？简单说，它是一个拥有数千亿参数的前沿级大模型，专为软件工程任务深度优化。

在编码能力上，它几乎达到了当前业界顶尖水平；而在推理速度方面，它借助Cerebras的硬件支持，最高可达每秒950个词元（tokens per second），比Anthropic的Haiku 4.5快6倍，比Sonnet 4.5更是快了整整13倍！

这个速度是什么概念？以前你让AI改一个Kubernetes配置文件，可能要等20秒，现在不到5秒就搞定——刚好卡在你“思维流”还没断的黄金窗口里。

更关键的是，这不是一个孤立的模型升级，而是一整套系统级重构。Cognition团队从模型训练、推理引擎到代理交互层，全部打通、协同优化，打造出真正意义上的“智能+高速”编程代理。接下来，我们就一层一层拆解SWE-1.5背后的技术逻辑、工程哲学，以及它为何可能成为未来AI编程智能体的新范式。

一、为什么必须打破“快”与“强”的二元对立？

在AI编程工具的发展历程中，一直存在一个看似无解的矛盾：想要模型思考得深、写得准，就得牺牲响应速度；而如果追求秒回、快如闪电，往往又会牺牲代码质量，甚至出现大量“AI烂代码”——冗长、堆砌try-catch、逻辑混乱，业内戏称为“AI slop”。

Cognition团队从一开始就拒绝接受这种妥协。他们认为，真正的智能代理，必须既快又准。于是，在10月16日，他们先发布了SWE-grep，一个专注于快速上下文工程的代理模型，初步验证了“高速+高性能”并非幻想。而SWE-1.5，则是这一理念的全面落地——它不再只是模型层面的优化，而是将模型、推理系统、代理框架视为一个统一整体，进行端到端协同设计。

这种思路，源于他们在开发Devin（全球首个全自主AI软件工程师）过程中的深刻体会：如果模型和代理框架是割裂开发的，哪怕模型再强，也会被低效的工具调用、延迟的反馈机制拖垮。因此，SWE-1.5的诞生，标志着Cognition正式迈入“模型-代理一体化”开发的新阶段。

二、代理-模型接口：被忽视的性能放大器

很多人以为AI编程能力只取决于模型本身，但Cognition团队指出，代理框架（agent harness）、推理服务和用户体验设计，对最终表现的影响甚至更大。为此，他们在SWE-1.5的开发中做了大量“看不见”的工作：

首先，他们基于一个领先的开源基础模型，构建了名为Cascade的自研代理框架，并在此之上进行端到端强化学习（RL）。这意味着模型不是在静态数据上训练，而是在真实的任务环境中不断试错、学习、优化。

其次，他们持续迭代模型训练、工具链、提示工程（prompt engineering）甚至底层系统。当模型速度提升10倍后，原本微不足道的延迟——比如命令执行、语法检查——突然变成了瓶颈。于是团队干脆重写了这些核心组件，单步操作的开销最多减少了2秒！

更关键的是，他们极度依赖内部“狗粮测试”（dogfooding）——也就是让自家工程师每天真实使用这个代理。这种基于真实用户体验的调优，远比通用奖励函数更能捕捉到用户痛点。比如，工程师反馈“改配置太慢”“理解大项目太吃力”，团队就针对性优化上下文处理和工具调用逻辑。

值得一提的是，SWE-1.5早期以“Falcon Alpha”代号进行了多轮Beta测试，并通过监控指标不断调整。结果发现，在Cascade框架下训练的模型，即使在相同基准测试中，也比在其他框架下表现更好——不是因为模型更强，而是因为整个系统更协同。这再次证明：选AI编程代理，不能只看模型参数，更要看它背后的“操作系统”。

三、高质量RL环境：拒绝“AI烂代码”的关键

Cognition团队认为，强化学习中编码环境的质量，直接决定了模型的下游表现。然而，当前业界普遍存在两大问题：

第一，任务分布太窄。很多团队只盯着SWE-Bench这个基准，但它的代码库和任务类型非常有限，无法反映真实世界的多样性。

第二，过度依赖“可验证正确性”（比如单元测试通过就算对），却忽略了代码质量、可维护性、架构合理性等“软性因素”。结果就是模型学会了“钻空子”——只要测试能过，管它代码多丑。

为了解决这些问题，Cognition投入巨大资源，手动构建了一个高度仿真的RL训练环境。这个环境覆盖了他们在Devin和Windsurf产品中观察到的真实任务分布，涵盖多种语言、框架和工程场景。

更厉害的是，他们设计了三重评分机制：

1. 经典测试：如单元测试、集成测试，确保功能正确；
2. 代码质量评分表（rubrics）：由资深工程师制定标准，评估代码是否简洁、可读、符合最佳实践；
3. 代理式端到端评分：利用一个具备浏览器操作能力的代理，实际运行整个产品功能，看是否真正“能用”。

这三者相互补充，大幅提升了训练信号的丰富度。为了防止模型“作弊”，他们还开发了“奖励硬化”（reward hardening）流程——邀请人类专家专门尝试绕过评分机制。经过多轮对抗，他们发现大量传统测试无法覆盖的漏洞，显著降低了误判率。

虽然SWE-1.5目前只是小规模应用了这套环境，但团队相信，未来随着环境规模扩大，模型在代码质量等“软实力”上的提升将更加显著。

四、训练与基础设施：站在GB200芯片的肩膀上

SWE-1.5的训练依托于Cognition自建的超大规模计算集群，其中包含数千张NVIDIA最新一代的GB200 NVL72芯片。据团队透露，SWE-1.5可能是全球首个公开发布的、基于GB200硬件训练的生产级模型。

他们在今年6月就拿到了这批硬件，当时固件还不成熟，开源生态几乎为零。头几个月完全是“摸着石头过河”——他们不得不自研更健壮的健康检查机制、容错训练系统，并深入掌握机架级NVLink互联技术，才最终稳定跑通大规模训练。

在模型选型上，他们经过严谨评估和消融实验，选定一个强大的开源模型作为基底，然后在其上进行后训练优化。核心方法是在Cascade代理框架中，利用高质量编码环境进行强化学习。特别地，为了处理长对话、多轮交互的稳定性问题，他们采用了一种无偏策略梯度（unbiased policy gradient）的变体——这一技术此前已在SWE-grep中验证有效。

训练过程中，模型需要在具备代码执行甚至网页浏览能力的高保真环境中进行rollout。为此，Cognition动用了自家研发的虚拟机管理程序Otterlink——这套系统原本用于支撑Devin同时运行数万台虚拟机，如今也成了SWE-1.5训练的坚实底座。这确保了训练环境与真实产品环境高度一致，避免了“训练-部署鸿沟”。

五、真实世界表现：工程师的“每日主力工具”

尽管Cognition早在2024年就不再公布SWE-Bench分数（认为其无法反映真实体验），但他们仍用Scale AI推出的更难版本SWE-Bench Pro进行了测试。结果显示，SWE-1.5在多样化的代码库任务中，达到了接近前沿的性能水平，且完成速度远超竞品。

但比基准分数更重要的是：Cognition内部的工程师已经开始把SWE-1.5当作“每日主力工具”使用。常见场景包括：

- 深度探索和理解超大型代码库（SWE-1.5现已驱动Windsurf的Beta版“代码地图”Codemaps功能）；
- 从零构建端到端的全栈应用；
- 无需记忆字段名，轻松编辑复杂配置文件（如YAML、JSON、Terraform等）。

有工程师反馈，过去让AI修改Kubernetes清单，往往要等20秒，打断思路；现在不到5秒完成，正好落在人类“半异步思维流”的黄金区间——既不会等得焦虑，也不会因延迟而分心。这种体验上的质变，才是SWE-1.5真正的杀手锏。

六、速度优化：从950词/秒到系统级重构

为了实现极致速度，Cognition与全球最快的推理服务商Cerebras深度合作。他们不仅部署了SWE-1.5，还专门训练了一个“草稿模型”（draft model）用于推测解码（speculative decoding），进一步压缩延迟。

同时，他们构建了自定义的请求优先级系统，确保多轮代理会话流畅不卡顿。当模型以950词/秒的速度运行时，原本可以忽略的系统延迟——比如语法检查、命令解析、工具调用——突然成了性能瓶颈。于是团队果断重写了这些关键路径，将每一步的开销压缩到极致。

这种“速度倒逼架构升级”的思路，正是Cognition作为“代理实验室”（agent lab）的核心优势：他们不是单纯训练模型，而是打造一个能跑、能思考、能行动的完整智能体。未来，他们计划继续投入系统优化，让速度与智能的协同效应持续放大。

七、关于Cognition实验室与作者背景

Cognition是一家专注于构建通用人工智能代理（AI agents）的前沿研究机构，总部位于美国。其核心团队由来自斯坦福、伯克利、MIT等顶尖高校的AI研究员、资深软件工程师和系统架构师组成。他们此前发布的Devin，被广泛认为是全球首个具备完整软件工程能力的AI代理，能独立完成从需求分析、编码、测试到部署的全流程。

SWE-1.5的研发延续了Cognition“产品-研究-基础设施三位一体”的独特模式。团队规模虽小，但极度聚焦，能够在模型、系统、用户体验之间快速闭环迭代。这种紧密耦合的开发文化，使他们能率先突破“速度与智能不可兼得”的行业瓶颈。

八、未来展望：这只是开始

SWE-1.5的成功证明，通过模型、推理、代理框架的协同设计，完全可以实现速度与智能的双赢。它不仅是技术上的突破，更是一种工程哲学的胜利——拒绝割裂、追求整体最优。

Cognition团队表示，SWE-1.5只是一个起点。随着高质量RL环境的规模化生产、GB200集群的进一步扩展，以及代理系统持续优化，下一代模型将在代码质量、跨语言理解、复杂系统设计等维度带来更大飞跃。

从今天起，SWE-1.5已在Windsurf平台上线，所有开发者均可体验。或许不久的将来，我们每个人都能拥有一个既快又聪明的“AI编程搭档”，彻底改变软件开发的工作流。

速度与智能兼得！SWE-1.5横空出世，13倍碾压Sonnet 4.5，重新定义AI编程代理新标准！

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道