Cursor Composer 2.5发布：SpaceXAI算力+国产Kimi模型

#DeepSeek时刻 #vibe编程 #AI智能体Agent #AI基础设施

2026-05-19 2 6K banq

Cursor发布Composer 2.5，新模型更聪明、能干长活、听话。本文讲讲它怎么训练出来的、跟谁合作、为啥能比同类快10倍，全是技术事实和开发流程，不吹不黑。

Composer 2.5这个新模型，核心就三件事：更聪明、能干长活、听话。聪明说的是它理解复杂指令的能力提升了。能干长活指的是它能处理几十万个词那么长的任务，中间不会断片。听话是说它严格按照你给的规矩办事，不乱来。

这三个东西加一起，结果就是效率比同类产品高出10倍。这不是吹牛，是Cursor团队自己说的，而且他们给出了具体的技术路径来解释怎么做到的。

这个结论是怎么来的

要理解Composer 2.5为什么厉害，得先知道它爹是谁。Composer 2.5不是从零开始瞎搞出来的，它是基于Composer 2的基础继续往上盖楼。而Composer 2的底层是Moonshot公司做的Kimi K2.5，这是个开源模型。

所以Cursor的做法很实在：拿一个已经不错的开源模型，然后用自己的数据和训练方法给它升级。就像你买了一台基础款的车，然后自己改发动机、换轮胎、加涡轮，最后让它跑得比原厂性能版还快。

模型的根基是Kimi K2.5开源版

Kimi K2.5是Moonshot公司搞出来的一个模型。Moonshot这公司你可能听过，他们做的就是Kimi智能助手。Kimi K2.5这个模型本身是开源的，意思是谁都能拿去用、拿去改。

Cursor干的事就是拿这个开源模型当地基，然后往上盖自己的房子。这样做的好处是省了从头训练的钱和时间，坏处是你得在别人地基上做改造，有些东西不好动。但Cursor显然觉得这个买卖划算。

训练规模扩大是第一个升级手段

让模型变得更聪明，最直接的办法就是喂更多数据、算更多次。Cursor干的第一件事就是把训练规模扩大了。具体多大？他们跟SpaceXAI合作，从头训练了一个更大的模型，用的总计算能力是以前的10倍。

10倍是什么概念？假如你原来用一个GPU（图形处理器，专门用来算数学题的那种芯片）跑一个月，现在你用10个GPU跑一个月，或者用1个GPU跑十个月。不管哪种，花的钱和电都翻了十倍。

强化学习环境变得更复杂了

光扩大规模不够，还得改进学习方法。Cursor用的招之一是强化学习。强化学习简单说就是让模型自己试错，做对了给奖励，做错了扣分，慢慢它就学会怎么做对。

以前他们用的强化学习环境比较简单，现在搞了个更复杂的。复杂环境意味着模型遇到的难题更多样、更难缠。就像一个学生，天天做简单题永远成不了学霸，你得给他上奥数题。

文本反馈让学习速度加快

强化学习里有个麻烦事：怎么给奖励和扣分。以前常用的方法是做个打分器，模型出结果就自动打分。但这方法有个毛病，打分器本身不够聪明，经常打错分。

Cursor的新招是：在强化学习过程中用文本反馈。这不是让电脑自动打分，而是让人或者更聪明的模型写一段话告诉Composer哪里做对了哪里做错了。比如“你这段代码变量名写错了”或者“你这次没有按照顺序执行指令”。这种反馈比单纯一个分数有用得多，因为模型能直接知道问题在哪。

用长任务分配积分来加速学习

光有文本反馈还不够，还得解决一个更核心的问题：模型干长活的时候，到底哪一步该奖励哪一步该惩罚？比如模型处理一个跨越几十万个词的任务，前面做对了，后面搞砸了，你怎么给它打分？

Cursor的办法是在跨越数十万个词的推广活动中分配积分。推广活动这个词听着绕，其实就是一大串连续的指令和回复。他们把整个长任务拆成很多小步骤，每个步骤给一部分积分，最后汇总。这样模型就能知道具体是哪一步出了问题，而不是糊涂账。

开源基础决定了开发路线

Composer 2.5是基于Composer 2的相同开源基础构建的。这句话很重要，它说明Cursor没有换底子，还是在原来的框架上迭代。这样做的好处是稳定，兼容性好，以前写的那些插件、配置、工作流还能继续用。

换个说法就是：你的房子地基没动，只是把墙刷了、电路改了、水管换了。你不用搬家，甚至家具都不用挪，但住起来比以前舒服多了。

与SpaceXAI合作是最大的变量

Cursor这次最大的动作是跟SpaceXAI合作。SpaceXAI这家公司听着像马斯克搞的，实际上也是。他们搞了一个叫Colossus 2的系统，相当于百万个H100（一种高级GPU，专门用来训练大模型的芯片）的计算能力。

百万个H100是什么概念？H100是NVIDIA（英伟达）出的旗舰计算卡，一张就要几万美元。百万张就是几百亿美元的硬件投入。当然实际运作的时候不会真用百万张卡同时跑，但这个规模已经大到离谱了。

Colossus 2提供了十倍的计算资源

因为有Colossus 2，Cursor才能把总计算能力提升到以前的10倍。这事说白了就是用钱堆算力。但光堆钱没用，你还得会用。百万张卡怎么调度、怎么防止出错、怎么保证效率，这些都是技术活。

SpaceXAI既然敢叫Colossus 2（巨人2号），说明他们在这些技术问题上已经有解决方案了。Cursor就是借了这股东风，用别人的超算来训自己的模型。

新模型已经上线而且用量要翻倍

Composer 2.5已经发布了，而且Cursor说接下来一周要把这个模型的使用量增加一倍。这说明他们对自己新模型很有信心，觉得它扛得住更大的流量。

用量翻倍这事本身也是个技术挑战。你训一个模型是一回事，让它同时服务成千上万个用户是另一回事。推理（就是模型干活的时候）需要的计算资源和训练不一样，更讲究实时性。Cursor敢这么干，说明他们的工程能力也跟上了。

使用量翻倍意味着什么

用量翻倍不只是个营销口号，它背后有几个事实。第一，用户愿意用，说明新模型确实好用。第二，系统扛得住，说明基础架构靠谱。第三，成本可控，说明效率确实提升了10倍不是瞎吹的。

如果效率只提升了两倍，用量翻倍就意味着成本也要翻倍。但Cursor说效率高了10倍，那用量翻倍之后成本反而降低了80%。这笔账算下来，商业上完全走得通。

模型的智能程度体现在指令遵循上

用户最关心的问题其实就一个：这模型听话吗？Composer 2.5这次重点改进的就是指令遵循能力。以前模型经常看着你写了一大段规矩，然后转头就忘了一半。新模型在这方面好了很多。

用个比喻来说就是：以前的AI像个多动症小孩，你跟它说三件事，它记住两件，做对一件半。现在的Composer 2.5像个训练有素的助理，你跟它说十件事，它全记下来，而且按顺序一件件办完。

长期任务执行不再断片

程序员写代码经常遇到长任务。比如“重构整个登录模块，包括前端页面、后端接口、数据库表、单元测试，然后部署到测试环境，跑一遍集成测试，把失败的用例修好，最后给我发个报告”。

这种任务拆开来可能有几十个步骤，跨越几万个词的对话。以前的模型经常干到一半就开始胡扯，或者忘了最初的要求。Composer 2.5专门针对这个问题做了优化，能在几十万个词的长度里保持一致性。

复杂指令遵循靠强化学习解决

模型为什么能更听话？答案就在前面说的那些训练方法里。强化学习加上文本反馈，再加上长任务积分分配，这三招组合起来，专门治模型“不听指挥”的毛病。

简单说就是：以前的训练方法像用鞭子抽，模型只知道疼但不知道为啥疼。现在的方法像有个老师在旁边说“你这道题做错了，因为公式用反了，下次要先确认公式再代入数字”。模型学到的不是条件反射，而是真正的理解。

效率提升10倍的具体含义

Cursor说的“效率比同类产品高出10倍”到底指什么？大概率不是指速度，而是指单位算力能完成的有效工作量。比如别的模型需要10次对话才能写对一个函数，Composer 2.5一次就写对了，那效率就是10倍。

也可能是成本层面。同样一个任务，别的模型要花1块钱的电费，Composer 2.5只花1毛钱。考虑到他们训练的时候用了10倍的算力，但推理的时候效率高了10倍，长期来看总成本反而是下降的。

开源与否的问题还没答复

网友问了个很实际的问题：这模型会开源吗？Cursor目前没有正面回答。基于Kimi K2.5本身是开源的，但Cursor在上面做的改进不一定开源。

商业公司的常见操作是：基座模型开源，但微调后的版本闭源。这样既蹭了开源社区的好处，又保留了自己的商业壁垒。Composer 2.5大概率也是这个路子。

什么时候出Composer 3

有人问Composer 3什么时候出。这个问题挺逗的，2.5才刚发布，就有人问下一版。按Cursor的说法，他们跟SpaceXAI合作的那个更大规模的模型还在训练中，那个可能就是Composer 3的基础。

如果计算能力是以前的10倍，那Composer 3的能力应该比2.5又上一个台阶。但训练这么大模型需要时间，少说几个月，多则一年。所以短时间内别指望。

边际效益递减的问题存在但被缓解

有人提到了边际效益递减的问题。意思是说，模型越往后进步越难，以前翻倍算力能提升20%性能，现在可能只提升5%。这是个真实存在的问题，谁都没法完全解决。

但Cursor这次的做法是在多个维度同时改进：扩大规模、改进算法、换更好的反馈机制、用更强的算力集群。几个小进步加一起，可能就抵消了边际效益递减的影响。好比一个学生，光刷题进步慢，但如果同时换老师、改方法、加时间，总分还是能涨一截。

SpaceX和xAI的合并产物

有网友开玩笑说SpaceX加xAI等于SpaceXxAI，其实就是SpaceX的平方再乘以AI。这个梗背后的事实是：马斯克名下的公司确实在互相协作。SpaceX做火箭和卫星，xAI做大模型，两家合起来搞算力集群，逻辑上说得通。

Cursor找SpaceXAI合作而不是找AWS或者Azure，除了算力本身，可能还有成本和政治因素。马斯克旗下的公司之间合作，账比较好算。

用户的反应说明需求真实存在

看网友回复，有人说“终于有个能理解我那些破代码还不judge我的AI了”，有人说“太激动了”。这些反应说明程序员群体确实需要一个更靠谱的编程助手。

以前大家用Copilot、CodeWhisperer这些工具，经常遇到的问题就是模型看不懂屎山代码，或者看懂了但给的建议更屎。Composer 2.5如果能在这个问题上有所突破，市场反应好是应该的。

总结一下整个逻辑链

从Kimi K2.5开源模型开始，Cursor做了三件事：扩大训练规模、改进强化学习方法、引入文本反馈和积分分配机制。然后找SpaceXAI借了Colossus 2的百万级算力，把总计算能力提升10倍。最后训出来的Composer 2.5比同类产品效率高10倍，能处理几十万个词的长期任务，而且更听话。

这整个链条环环相扣：没有开源基座就省不了前期成本，没有扩大规模就提高不了上限，没有改进学习方法就解决不了指令遵循问题，没有Colossus 2就撑不起10倍算力。每一步都是下一步的前提。