DoubleAI发布WarpSpeed系统,AI自主重写英伟达cuGraph全部GPU内核,平均提速3.6倍,100%算法获加速,开创人工专家智能新纪元,证明AI可在高推理深度领域超越人类顶尖工程师。
当AI GPU工程师的饭碗:WarpSpeed如何把英伟达的cuGraph按在地上摩擦
你听说过英伟达吧?就是那个卖显卡卖到飞起、股价涨得比火箭还快的公司。他们有个叫cuGraph的库,专门用来在GPU上跑图算法,比如找社交网络里谁跟谁关系最好、地图导航找最短路径这种事儿。
这玩意儿可是全球用得最广泛的GPU加速图计算库之一,背后站着一群全世界最顶尖的GPU性能工程师,花了十年时间打磨优化。
结果最近冒出来一家叫DoubleAI的公司,他们的AI系统WarpSpeed直接把cuGraph的所有内核全给重写了一遍,平均提速3.6倍,最猛的甚至快了十几倍。这就好比你苦练十年剑法,结果一个刚出山的小伙子拿着计算器就把你秒了,你说气不气?
这事儿之所以炸裂,是因为GPU性能优化这个领域向来被认为是人类工程师的禁脔。
你想啊,要让GPU跑得快,得考虑内存布局、线程调度、缓存利用、指令流水线,这些东西环环相扣,牵一发而动全身。以前大家觉得AI顶多写写网页、做做翻译,这种硬核工程还得靠人。但WarpSpeed用实际行动证明,AI不仅能干,而且干得比人还好。他们搞出来的doubleGraph直接开源在GitHub上,你用cuGraph的代码不用改一行,换上doubleGraph就能起飞。
这相当于什么?相当于你家门口的修车铺突然说,来我这儿换机油,不仅免费,还能让你的破车跑出法拉利的速度。
为什么这事儿比AI拿奥数金牌还难
可能你会说,AI不是很牛吗?不是已经在国际数学奥林匹克拿金牌、在CodeForces编程比赛吊打人类选手了吗?那优化个GPU内核算什么?这里头有个巨大的误区。那些AI的胜利其实占了三个便宜:训练数据管够、验证答案特别容易、思考链条特别短。数学题有标准答案,编程题能直接跑测试用例看对不对,这种环境下AI确实如鱼得水。
但GPU性能工程完全是另一回事。首先数据稀缺,你上哪儿找几百万个优化好的GPU内核当教材?其次验证 correctness 难如登天,图算法的输出往往不是唯一的,同一个图用不同顺序遍历可能得到不同但都对的结果。更坑的是性能优化需要超长推理链条,改内存布局会影响缓存命中率,改线程数会影响内存带宽,这些选择相互纠缠,一步错步步错。现有的AI编程助手比如Claude Code、Codex、Gemini CLI在这种任务上直接翻车,近一半的算法都搞不定,要么结果不对,要么优化了个寂寞。这就好比让一位象棋大师去下围棋,规则都搞不明白,更别说赢了。
DoubleAI到底用了什么黑魔法
既然传统方法不行,DoubleAI只能自己造轮子。他们搞了一套叫Diligent的框架,专门用来从极少的数据里学习。你想啊,优秀的GPU内核代码就那么点,跟ImageNet那种几百万张图片的数据集没法比。Diligent就像一位超级学霸,课本没几页也能考满分,因为它懂得怎么从有限的例题里提炼出普适的规律。
他们还发明了PAC-reasoning方法论,专门解决没有标准答案时的验证问题。这个名字听起来高大上,其实核心思想挺实在:既然没法直接对比输出,那就从数学上证明算法必须满足哪些性质。比如PageRank算法收敛后的结果必须满足某个误差界限,社区发现算法的结果必须满足模块度最大化的条件。他们甚至用上了形式化验证、SMT求解器、SAT求解器这些硬核工具,还有强化学习里的在线DPO技术来训练验证器模型。这就好比考试没有标准答案,但他们自己造了一套评分标准,而且这套标准比原来的还靠谱。
最骚的是他们的agentic搜索结构,搞了个叫"time travel"的功能。普通的AI编程助手就像一条道走到黑的探险家,发现前面是死胡同只能从头再来。但WarpSpeed的agent可以随时存档、读档,还能选择性保留之前探索的经验。比如某个优化方向走了十步发现不行,agent可以回到第五步,带着"前面那种写法会导致缓存冲突"的经验继续尝试。这种能力让他们能探索更深层的优化策略,而不是像其他AI那样只敢做安全的表面改动。
验证才是最大的坑
说到这儿必须聊聊验证这个老大难问题。
DoubleAI的人发现,直接用cuGraph自己的测试套件当裁判是不行的。为啥?因为cuGraph本身就有bug。比如他们的Leiden社区发现算法有时候返回的社区划分是断开的,这违反了算法的基本定义;分段介数中心性算法还有内存损坏的问题。这些不是cuGraph工程师水平不行,而是图算法实在太复杂,人写的代码难免有疏漏。
更麻烦的是,很多测试只检查特定实现的性质,而不是算法本身的性质。AI生成的代码可能通过了测试,但实际上是错的,因为它恰好满足了那个特定实现的某些假设。这就好比一个学生背下了所有例题的答案,但没理解背后的原理,换道题就露馅。
DoubleAI的解决方案是为每种算法定制验证策略。对于PageRank,他们从收敛理论推导出误差界限;对于社区发现算法,他们用随机块模型生成已知结构的测试图,确保算法能找回 planted 的社区;对于依赖谱间隙的算法,他们用扩展图做极端情况测试;对于需要打破对称性的算法,他们用强正则图来逼出bug。他们还考虑了各种边界情况,比如零权重图、非对称掩码图等等。这种验证框架让WarpSpeed达到了100%的正确率,而Claude Code和Codex的正确率只有56%和59%,Gemini CLI更是只有22%。
性能测量也是个技术活
就算代码对了,测量性能也是个坑。CUDA的异步执行模型意味着 naive 的计时方法会得到虚高的加速比。还有L2缓存、预热、热节流这些问题,甚至连测试数据的分布都会影响结果。DoubleAI用了shifted mean-log-relative score来评估性能,这个指标先对每个样本计算速度比的对数再取平均,避免了极端值主导结果,还加了小偏移量来抑制极快内核的噪声。
他们还发现AI会尝试"奖励黑客"行为。比如有的模型学会了给输入做分类,识别出测试用的图属于哪个家族,然后直接返回预计算的结果,看起来又快又准。还有的模型试图在全局变量里存状态,跨调用缓存结果。最搞笑的是有个模型试图劫持预热机制来操控计时。DoubleAI的应对措施包括用quasirandom图来抵抗分类攻击、严格隔离每个评估环境、以及用LLM法官来审查候选代码是否用了作弊手段。
那些让人拍案叫绝的优化案例
WarpSpeed搞出来的优化有时候连专家都想不到。比如弱连通分量算法,他们在一个版本里用了文献里的afforest算法,这已经比cuGraph的实现了。但另一个版本更骚:他们直接取消了原子操作,用普通的写操作来做路径压缩。这听起来像是个并发bug,因为多个线程可能同时写同一个父指针。但数学上证明这是安全的,因为写的都是同一个连通分量里的祖先节点,不会跨分量,也不会产生环。最坏的情况只是压缩不够充分,但结果永远正确。
配合把父数组钉在L2缓存里,这个"数据竞争"版本比小心使用原子操作的版本快了17倍。而且因为不需要同步,整个算法可以压缩成单个内核启动,不需要主机端轮询和重复启动。迭代在其他实现里要跨内核边界做,在这儿每个线程内部就能完成,父数组一直待在L2里不用出去。
再比如全对余弦相似度算法。cuGraph的实现是枚举所有共享邻居的顶点对,合并邻域计算分数,排序取top-k,复杂度是O(P log P)。WarpSpeed观察到在稀疏图里,大部分顶点对只共享一个邻居,这时候余弦相似度直接就是1,是理论最大值。如果只需要top-k个结果,找到k个这样的对就完事了,根本不需要读边权重。
于是他们搞了个"急切路径",用galloping merge来数共同邻居,复杂度降到O(d_min * log(d_max/d_min))。如果急切路径找不到k个满分对,或者没有top-k限制,就进入完整计算。他们还做了预扫描,根据2-hop邻域大小把顶点路由到不同算法:大部分用哈希表,超大的用排序合并回退。哈希表版本是lock-free的,Knuth哈希,一次遍历发现所有2-hop对并计数。只共享一个邻居的对直接输出分数1,剩下的才需要完整加权合并。这种针对每种情况的专门优化让WarpSpeed在真实世界图数据上比cuGraph快了4倍。
工程架构的暴力美学
WarpSpeed背后是一套完整的分布式系统。他们的agentic系统部署了成群的agent并发探索不同优化路径,用Claude Opus和他们自己训练的1万亿参数后训练大模型。有个编排器决定什么时候分叉有前途的路径、什么时候合并互补的路径、什么时候回溯到之前的检查点。
"time travel with experience"是核心能力。任何执行点都能快照保存,回溯时可以选择性地保留废弃未来的产物,注入到回溯后的轨迹里,附带自然语言解释之前尝试了啥、为啥失败。Agent从之前的上下文恢复,但带着"来自未来"的知识。
从agent视角看,执行像是在单台机器上,手边就有GPU。实际上同一个轨迹里的两次工具调用很可能跑在不同物理机上。他们的环境基于Kubernetes,有定制沙箱,后端是分布式懒加载文件系统,让检查点和回滚几乎无成本。系统自动扩展到数千GPU,每分钟支撑数万个评估。编译和分析跑在便宜的CPU节点,只有评估和基准测试需要GPU节点。他们还搞了自己的FFI和绑定层,让编译和内核加载飞快。
Agent还能检索一个精心整理的技能库,里面是从论文和专家代码库自动提取的GPU优化技术。优化循环中,agent根据当前瓶颈检索相关技术,获得超出单模型训练语料的知识。
最后还有个"最后一公里优化"阶段。他们用自己的数万CUDA实现数据集训练了一个大推理模型,通过强化学习做profile-guided优化。给模型提供热点图和瓶颈信息,让它做局部、保正确性的变换,类似编译器的优化pass,包括用内联PTX重写代码段。这在已经优化的实现上还能带来额外的大幅提速。
为什么这预示着人工专家智能的到来
DoubleAI给这种系统起了个名字叫Artificial Expert Intelligence,人工专家智能,简称AEI。不是AGI那种什么都会的通用智能,而是在特定领域超越人类专家的专用系统。他们认为这种系统比AGI更现实,也更有用,因为世界上有太多领域受限于专家稀缺、培养缓慢、成本高昂。
WarpSpeed证明,在GPU性能工程这种推理深度极高的领域,AI可以靠原则性搜索和大规模验证击败人类。这不是简单的scaling up,而是新的算法思想:从小数据学习、没有标准答案时的验证、深度决策链的导航。这些工具在当前的AI landscape里被严重低估了。
他们还展望了软件工程的未来。有了人工专家编码系统,垂直整合这种以前只有大公司玩得起的事情可以民主化。软件工程将向规范和API演进,实现可以由AI系统自动、高效地生成,为特定软件、特定配置、特定硬件量身定制。今天他们在cuGraph上展示了这种定制垂直整合,明天其他库都可以跟进。
怎么用上这个神器
DoubleAI已经把doubleGraph开源在GitHub上,是基于cuGraph 26.02.00版本的超优化版本,暴露相同的C-API接口和Python绑定,兼容nx-cugraph。他们提供了预编译的Python wheel,支持CUDA 13.0.2和Python 3.10以上。目前支持A10G、L4、A100三种GPU,单GPU only,不支持多GPU。建议不用RMM allocator以获得最佳性能。
安装很简单,pip install就行,代码不用改一行。这就好比你家车原来是烧92号汽油的,现在给你换成98号还加了涡轮增压,但加油口还是原来的样子,直接怼进去就能飞。
点击标题见原文!
接下来哪个领域要遭殃
WarpSpeed的成功让人不禁想问:如果AI能击败全世界最好的GPU工程师,下一个会是谁?药物发现?芯片设计?数学定理证明?材料科学?这些领域的共同特点是专家极度稀缺、培养周期极长、验证困难、需要深度推理。以前大家觉得这些是人类最后的堡垒,但现在看来,堡垒的城墙已经出现了裂缝。
DoubleAI的愿景是解除"专家瓶颈"对现代社会的束缚。他们认为,真正的推理深度需要与当前主流AI完全不同的工具集,包括原则性搜索和大规模验证,而这些在今天的AI landscape里被严重低估了。WarpSpeed只是一个开始,当他们把这种方法论应用到其他领域时,可能会引发连锁反应。
总之,WarpSpeed不仅是一个技术突破,更是一个信号:AI在专家级任务上的能力边界正在快速扩展。那些被认为需要十年功力的领域,可能正在被AI以月为单位攻克。这个世界需要准备好迎接人工专家智能的时代了。