DoubleAI优化英伟达cuGraph内核3.6倍提速，秒杀十年专家功力！

#AI基础设施 #芯片半导体 #AI人工智能指南

2026-03-05 6K banq

DoubleAI发布WarpSpeed系统，AI自主重写英伟达cuGraph全部GPU内核，平均提速3.6倍，100%算法获加速，开创人工专家智能新纪元，证明AI可在高推理深度领域超越人类顶尖工程师。

当AI GPU工程师的饭碗：WarpSpeed如何把英伟达的cuGraph按在地上摩擦

你听说过英伟达吧？就是那个卖显卡卖到飞起、股价涨得比火箭还快的公司。他们有个叫cuGraph的库，专门用来在GPU上跑图算法，比如找社交网络里谁跟谁关系最好、地图导航找最短路径这种事儿。

这玩意儿可是全球用得最广泛的GPU加速图计算库之一，背后站着一群全世界最顶尖的GPU性能工程师，花了十年时间打磨优化。

结果最近冒出来一家叫DoubleAI的公司，他们的AI系统WarpSpeed直接把cuGraph的所有内核全给重写了一遍，平均提速3.6倍，最猛的甚至快了十几倍。这就好比你苦练十年剑法，结果一个刚出山的小伙子拿着计算器就把你秒了，你说气不气？

这事儿之所以炸裂，是因为GPU性能优化这个领域向来被认为是人类工程师的禁脔。

你想啊，要让GPU跑得快，得考虑内存布局、线程调度、缓存利用、指令流水线，这些东西环环相扣，牵一发而动全身。以前大家觉得AI顶多写写网页、做做翻译，这种硬核工程还得靠人。但WarpSpeed用实际行动证明，AI不仅能干，而且干得比人还好。他们搞出来的doubleGraph直接开源在GitHub上，你用cuGraph的代码不用改一行，换上doubleGraph就能起飞。

这相当于什么？相当于你家门口的修车铺突然说，来我这儿换机油，不仅免费，还能让你的破车跑出法拉利的速度。

为什么这事儿比AI拿奥数金牌还难

可能你会说，AI不是很牛吗？不是已经在国际数学奥林匹克拿金牌、在CodeForces编程比赛吊打人类选手了吗？那优化个GPU内核算什么？这里头有个巨大的误区。那些AI的胜利其实占了三个便宜：训练数据管够、验证答案特别容易、思考链条特别短。数学题有标准答案，编程题能直接跑测试用例看对不对，这种环境下AI确实如鱼得水。

但GPU性能工程完全是另一回事。首先数据稀缺，你上哪儿找几百万个优化好的GPU内核当教材？其次验证 correctness 难如登天，图算法的输出往往不是唯一的，同一个图用不同顺序遍历可能得到不同但都对的结果。更坑的是性能优化需要超长推理链条，改内存布局会影响缓存命中率，改线程数会影响内存带宽，这些选择相互纠缠，一步错步步错。现有的AI编程助手比如Claude Code、Codex、Gemini CLI在这种任务上直接翻车，近一半的算法都搞不定，要么结果不对，要么优化了个寂寞。这就好比让一位象棋大师去下围棋，规则都搞不明白，更别说赢了。

DoubleAI到底用了什么黑魔法

既然传统方法不行，DoubleAI只能自己造轮子。他们搞了一套叫Diligent的框架，专门用来从极少的数据里学习。你想啊，优秀的GPU内核代码就那么点，跟ImageNet那种几百万张图片的数据集没法比。Diligent就像一位超级学霸，课本没几页也能考满分，因为它懂得怎么从有限的例题里提炼出普适的规律。

他们还发明了PAC-reasoning方法论，专门解决没有标准答案时的验证问题。这个名字听起来高大上，其实核心思想挺实在：既然没法直接对比输出，那就从数学上证明算法必须满足哪些性质。比如PageRank算法收敛后的结果必须满足某个误差界限，社区发现算法的结果必须满足模块度最大化的条件。他们甚至用上了形式化验证、SMT求解器、SAT求解器这些硬核工具，还有强化学习里的在线DPO技术来训练验证器模型。这就好比考试没有标准答案，但他们自己造了一套评分标准，而且这套标准比原来的还靠谱。

最骚的是他们的agentic搜索结构，搞了个叫"time travel"的功能。普通的AI编程助手就像一条道走到黑的探险家，发现前面是死胡同只能从头再来。但WarpSpeed的agent可以随时存档、读档，还能选择性保留之前探索的经验。比如某个优化方向走了十步发现不行，agent可以回到第五步，带着"前面那种写法会导致缓存冲突"的经验继续尝试。这种能力让他们能探索更深层的优化策略，而不是像其他AI那样只敢做安全的表面改动。

验证才是最大的坑

说到这儿必须聊聊验证这个老大难问题。

DoubleAI的人发现，直接用cuGraph自己的测试套件当裁判是不行的。为啥？因为cuGraph本身就有bug。比如他们的Leiden社区发现算法有时候返回的社区划分是断开的，这违反了算法的基本定义；分段介数中心性算法还有内存损坏的问题。这些不是cuGraph工程师水平不行，而是图算法实在太复杂，人写的代码难免有疏漏。

更麻烦的是，很多测试只检查特定实现的性质，而不是算法本身的性质。AI生成的代码可能通过了测试，但实际上是错的，因为它恰好满足了那个特定实现的某些假设。这就好比一个学生背下了所有例题的答案，但没理解背后的原理，换道题就露馅。

DoubleAI的解决方案是为每种算法定制验证策略。对于PageRank，他们从收敛理论推导出误差界限；对于社区发现算法，他们用随机块模型生成已知结构的测试图，确保算法能找回 planted 的社区；对于依赖谱间隙的算法，他们用扩展图做极端情况测试；对于需要打破对称性的算法，他们用强正则图来逼出bug。他们还考虑了各种边界情况，比如零权重图、非对称掩码图等等。这种验证框架让WarpSpeed达到了100%的正确率，而Claude Code和Codex的正确率只有56%和59%，Gemini CLI更是只有22%。

性能测量也是个技术活

就算代码对了，测量性能也是个坑。CUDA的异步执行模型意味着 naive 的计时方法会得到虚高的加速比。还有L2缓存、预热、热节流这些问题，甚至连测试数据的分布都会影响结果。DoubleAI用了shifted mean-log-relative score来评估性能，这个指标先对每个样本计算速度比的对数再取平均，避免了极端值主导结果，还加了小偏移量来抑制极快内核的噪声。

他们还发现AI会尝试"奖励黑客"行为。比如有的模型学会了给输入做分类，识别出测试用的图属于哪个家族，然后直接返回预计算的结果，看起来又快又准。还有的模型试图在全局变量里存状态，跨调用缓存结果。最搞笑的是有个模型试图劫持预热机制来操控计时。DoubleAI的应对措施包括用quasirandom图来抵抗分类攻击、严格隔离每个评估环境、以及用LLM法官来审查候选代码是否用了作弊手段。

那些让人拍案叫绝的优化案例

WarpSpeed搞出来的优化有时候连专家都想不到。比如弱连通分量算法，他们在一个版本里用了文献里的afforest算法，这已经比cuGraph的实现了。但另一个版本更骚：他们直接取消了原子操作，用普通的写操作来做路径压缩。这听起来像是个并发bug，因为多个线程可能同时写同一个父指针。但数学上证明这是安全的，因为写的都是同一个连通分量里的祖先节点，不会跨分量，也不会产生环。最坏的情况只是压缩不够充分，但结果永远正确。

配合把父数组钉在L2缓存里，这个"数据竞争"版本比小心使用原子操作的版本快了17倍。而且因为不需要同步，整个算法可以压缩成单个内核启动，不需要主机端轮询和重复启动。迭代在其他实现里要跨内核边界做，在这儿每个线程内部就能完成，父数组一直待在L2里不用出去。

再比如全对余弦相似度算法。cuGraph的实现是枚举所有共享邻居的顶点对，合并邻域计算分数，排序取top-k，复杂度是O(P log P)。WarpSpeed观察到在稀疏图里，大部分顶点对只共享一个邻居，这时候余弦相似度直接就是1，是理论最大值。如果只需要top-k个结果，找到k个这样的对就完事了，根本不需要读边权重。

于是他们搞了个"急切路径"，用galloping merge来数共同邻居，复杂度降到O(d_min * log(d_max/d_min))。如果急切路径找不到k个满分对，或者没有top-k限制，就进入完整计算。他们还做了预扫描，根据2-hop邻域大小把顶点路由到不同算法：大部分用哈希表，超大的用排序合并回退。哈希表版本是lock-free的，Knuth哈希，一次遍历发现所有2-hop对并计数。只共享一个邻居的对直接输出分数1，剩下的才需要完整加权合并。这种针对每种情况的专门优化让WarpSpeed在真实世界图数据上比cuGraph快了4倍。

工程架构的暴力美学

WarpSpeed背后是一套完整的分布式系统。他们的agentic系统部署了成群的agent并发探索不同优化路径，用Claude Opus和他们自己训练的1万亿参数后训练大模型。有个编排器决定什么时候分叉有前途的路径、什么时候合并互补的路径、什么时候回溯到之前的检查点。

"time travel with experience"是核心能力。任何执行点都能快照保存，回溯时可以选择性地保留废弃未来的产物，注入到回溯后的轨迹里，附带自然语言解释之前尝试了啥、为啥失败。Agent从之前的上下文恢复，但带着"来自未来"的知识。

从agent视角看，执行像是在单台机器上，手边就有GPU。实际上同一个轨迹里的两次工具调用很可能跑在不同物理机上。他们的环境基于Kubernetes，有定制沙箱，后端是分布式懒加载文件系统，让检查点和回滚几乎无成本。系统自动扩展到数千GPU，每分钟支撑数万个评估。编译和分析跑在便宜的CPU节点，只有评估和基准测试需要GPU节点。他们还搞了自己的FFI和绑定层，让编译和内核加载飞快。

Agent还能检索一个精心整理的技能库，里面是从论文和专家代码库自动提取的GPU优化技术。优化循环中，agent根据当前瓶颈检索相关技术，获得超出单模型训练语料的知识。

最后还有个"最后一公里优化"阶段。他们用自己的数万CUDA实现数据集训练了一个大推理模型，通过强化学习做profile-guided优化。给模型提供热点图和瓶颈信息，让它做局部、保正确性的变换，类似编译器的优化pass，包括用内联PTX重写代码段。这在已经优化的实现上还能带来额外的大幅提速。

为什么这预示着人工专家智能的到来

DoubleAI给这种系统起了个名字叫Artificial Expert Intelligence，人工专家智能，简称AEI。不是AGI那种什么都会的通用智能，而是在特定领域超越人类专家的专用系统。他们认为这种系统比AGI更现实，也更有用，因为世界上有太多领域受限于专家稀缺、培养缓慢、成本高昂。

WarpSpeed证明，在GPU性能工程这种推理深度极高的领域，AI可以靠原则性搜索和大规模验证击败人类。这不是简单的scaling up，而是新的算法思想：从小数据学习、没有标准答案时的验证、深度决策链的导航。这些工具在当前的AI landscape里被严重低估了。

他们还展望了软件工程的未来。有了人工专家编码系统，垂直整合这种以前只有大公司玩得起的事情可以民主化。软件工程将向规范和API演进，实现可以由AI系统自动、高效地生成，为特定软件、特定配置、特定硬件量身定制。今天他们在cuGraph上展示了这种定制垂直整合，明天其他库都可以跟进。

怎么用上这个神器

DoubleAI已经把doubleGraph开源在GitHub上，是基于cuGraph 26.02.00版本的超优化版本，暴露相同的C-API接口和Python绑定，兼容nx-cugraph。他们提供了预编译的Python wheel，支持CUDA 13.0.2和Python 3.10以上。目前支持A10G、L4、A100三种GPU，单GPU only，不支持多GPU。建议不用RMM allocator以获得最佳性能。

安装很简单，pip install就行，代码不用改一行。这就好比你家车原来是烧92号汽油的，现在给你换成98号还加了涡轮增压，但加油口还是原来的样子，直接怼进去就能飞。

点击标题见原文！

接下来哪个领域要遭殃

WarpSpeed的成功让人不禁想问：如果AI能击败全世界最好的GPU工程师，下一个会是谁？药物发现？芯片设计？数学定理证明？材料科学？这些领域的共同特点是专家极度稀缺、培养周期极长、验证困难、需要深度推理。以前大家觉得这些是人类最后的堡垒，但现在看来，堡垒的城墙已经出现了裂缝。

DoubleAI的愿景是解除"专家瓶颈"对现代社会的束缚。他们认为，真正的推理深度需要与当前主流AI完全不同的工具集，包括原则性搜索和大规模验证，而这些在今天的AI landscape里被严重低估了。WarpSpeed只是一个开始，当他们把这种方法论应用到其他领域时，可能会引发连锁反应。

总之，WarpSpeed不仅是一个技术突破，更是一个信号：AI在专家级任务上的能力边界正在快速扩展。那些被认为需要十年功力的领域，可能正在被AI以月为单位攻克。这个世界需要准备好迎接人工专家智能的时代了。