阿里云发布Aegaeon调度系统:吞吐提9倍、推理GPU用量减82%

阿里云发布Aegaeon调度系统,通过GPU虚拟化与token级调度,实现推理GPU用量减少82%、有效吞吐提升9倍,为受限市场提供高效AI推理新路径。

阿里云放大招!新调度系统让英伟达GPU用量暴降82%,推理效率飙升9倍!

阿里云刚刚在国际顶级操作系统会议SOSP 2025上公布了一项黑科技,直接把AI推理的效率拉满!你没听错,他们用一套叫“Aegaeon”的新系统,在真实生产环境中,把跑大模型所需的英伟达GPU数量砍掉了整整82%!什么意思?原来要1192块GPU干的活,现在只要213块就能搞定,省下的979块GPU,够建好几座AI训练中心了!

这可不是实验室里的纸上谈兵,而是阿里云在自家“模型工坊”(Model Studio)里实打实跑了好几个月的成果。参与测试的模型多达几十个,参数规模最高飙到720亿,全是正儿八经要对外提供服务的大语言模型。而这一切,就发生在美国对华芯片出口管制越来越严、英伟达H20这种“特供版”GPU都一卡难求的背景下。阿里云这一招,简直是给中国AI行业打了一剂强心针!

那这个Aegaeon到底牛在哪?咱们得先搞明白传统AI推理是怎么玩的。以前啊,为了保证响应速度和稳定性,云服务商通常会把一块GPU“独占”给一个模型——哪怕这个模型一天只被调用几次,GPU也得24小时待命,白白浪费算力。这就跟开一辆法拉利送外卖一样,油门踩不到三成,油耗却一分不少。

但Aegaeon彻底颠覆了这个逻辑。它不搞“一卡一模”,而是把GPU虚拟化到“token级别”——也就是模型生成每一个字(token)的时候,系统都能动态调度最空闲的计算资源。想象一下,就像一个超级智能的调度员,把成百上千个模型的微小请求拆成碎片,见缝插针地塞进GPU的空闲周期里。这样一来,一块H20芯片可以同时为好几个不同模型服务,GPU利用率从原来的30%、40%,直接拉到80%甚至更高!

更夸张的是,整个系统的“有效吞吐量”(论文里叫goodput)提升了最高9倍!啥叫有效吞吐?就是真正对外输出有用结果的能力。不是光跑得快,而是跑得准、跑得稳、跑得多。这9倍的提升,意味着同样一批GPU,现在能服务9倍的用户请求,或者让响应速度提升9倍——这对企业来说,就是实打实的成本下降和体验升级。

这项成果可不是阿里云单打独斗。论文作者名单里,既有阿里云基础设施团队的核心成员,也包括北京大学的顶尖学者,连阿里云CTO周靖人(Jingren Zhou)都亲自挂名。要知道,SOSP(ACM Symposium on Operating Systems Principles)可是操作系统领域的“奥斯卡”,全球每年只收几十篇论文,含金量极高。能在这种顶级会议上发文章,说明Aegaeon的技术架构不仅实用,理论创新也得到了国际学术界的高度认可。

特别值得一提的是,这次测试用的全是英伟达H20芯片——就是那个被美国“阉割”后专门卖给中国市场的版本。在算力受限、高端芯片进不来的情况下,阿里云没有坐等“解禁”,而是通过软件调度的极致优化,硬生生从有限的硬件里榨出超额性能。这背后,是中国工程师在夹缝中求突破的真实写照。

当然,也有人会问:这效果能不能复制到其他公司?论文里没细说网络架构,但咱们知道,阿里云自家有eRDMA弹性RDMA网络,整个GPU服务栈也是深度自研、高度集成的。换句话说,Aegaeon可能不是随便装个软件就能跑起来的“通用插件”,而是和阿里云底层基础设施深度耦合的“系统级武器”。但这恰恰说明:在芯片被卡脖子的时代,软件和系统架构的创新,可能比买更多GPU更重要!

其实,阿里云这几年一直在憋大招。除了Aegaeon,他们还在自研AI芯片“含光”上持续投入,最近更是在国家支持的基准测试中,让含光芯片和英伟达H20正面PK推理性能。虽然硬件上暂时还追不上A100/H100,但在软件调度、系统整合、场景优化这些“软实力”上,中国企业正在快速补课,甚至局部反超。

回到现实,对咱们普通用户和开发者来说,这意味着什么?首先,未来在阿里云上跑大模型,成本可能会大幅下降——省下的GPU费用,平台很可能让利给客户。其次,模型响应速度更快、服务更稳,用户体验自然提升。更重要的是,这种“用软件突破硬件封锁”的思路,给整个中国AI产业指了一条新路:当别人卡你脖子时,与其干等,不如自己练内功!

最后划重点:阿里云的Aegaeon不是魔法,而是工程智慧的结晶。它证明了在AI推理这个战场,调度算法、系统架构、资源池化这些“看不见的软件”,同样能创造惊人的价值。尤其是在全球算力资源日益紧张、地缘政治加剧芯片割裂的今天,这种“少花钱多办事”的能力,比单纯堆硬件更可持续、更值得尊敬。