谷歌推出LAVA系统,通过持续重预测虚拟机寿命,结合NILAS、LAVA、LARS三大算法,显著提升数据中心资源利用率,减少浪费,实现AI驱动的智能调度。
在谷歌庞大的云算力中心里,每秒钟都在上演一场比俄罗斯方块还刺激的“虚拟机拼图大战”!想象一下,无数形状各异、大小不一的“方块”——也就是虚拟机(VM)——不断从天而降,有的只活几分钟,有的却要运行好几天。系统必须在眨眼之间决定:把它们塞进哪台物理服务器最合适?塞得好,资源利用率高、电费省、碳排放少;塞得差,服务器资源就“卡死”了,变成一堆没法再用的“边角料”。这可不是游戏,而是关乎全球云计算效率和环保的大事!
最近,谷歌发布了一项重磅研究成果,名字叫《解决虚拟机拼图难题:AI如何优化云计算》。这项研究由谷歌云、谷歌DeepMind、谷歌研究院以及系统研究团队联合打造,核心团队包括凌建恒、沃拉·普拉蒂克、王耀文、孔云川、卡普尔·安舒尔等数十位顶尖工程师与科学家。他们提出了一套名为“LAVA”(生命周期感知虚拟机分配)的全新系统,彻底改变了传统调度算法的思路,让AI不再只靠“出生时的一次预测”来安排虚拟机,而是像老中医把脉一样,持续观察、动态调整、越用越准!
那么,LAVA到底牛在哪里?它其实包含三大核心算法:NILAS、LAVA本体和LARS。
首先登场的是“非侵入式生命周期感知调度”(NILAS)。
这个名字听起来高大上,其实逻辑特别接地气。传统调度器在分配新虚拟机时,只看当前服务器还有多少CPU、内存空着。但NILAS不一样,它会偷偷“算命”:这台服务器上现有的虚拟机,大概啥时候会“寿终正寝”?如果几台虚拟机预计都在差不多时间退出,那这台服务器很快就能“清空”,变成宝贵的“空闲主机”——这对系统维护、大任务调度至关重要。
NILAS巧妙地把这种“集体退休预期”融入打分机制,优先把新虚拟机塞进那些“快清空”的服务器。
最关键的是,它用的是“持续重预测”技术,就算一开始猜错了,后面也能自动修正,不会一条道走到黑。
这套算法早在2024年初就已在谷歌全球数据中心全面上线,效果立竿见影:空闲主机比例提升了2.3到9.2个百分点!别小看这不到10%的数字——在谷歌这种规模下,1个百分点就等于省下整整1%的服务器集群容量,省下的电费和碳排放,够点亮一个小城市!
如果说NILAS是“温和改良派”,那真正的主角——“生命周期感知虚拟机分配”(LAVA)——就是“颠覆创新派”。
它的思路反其道而行之:不追求“同生共死”,反而故意“长短搭配”!具体来说,LAVA会把短命的虚拟机(比如只跑几分钟的批处理任务)塞进那些已经跑着长命虚拟机(比如持续数天的Web服务)的服务器里。
为什么?因为短命任务很快就会自己退出,不会拖累整台服务器的“退休时间”。这样一来,服务器的资源缝隙被高效填满,又不会因为塞了个“短命鬼”而被迫长期占用。
更聪明的是,如果某个虚拟机“超长待机”——比如预测活1小时,结果跑了5天还没停——LAVA会立刻更新这台服务器的“预期寿命”,动态调整策略,避免被一个“老赖”拖垮全局。
模拟结果显示,LAVA比NILAS还能再提升约0.4个百分点的效率,积少成多,威力惊人!
第三个算法叫“生命周期感知重调度”(LARS),专治“服务器碎片化”这个老大难问题。
当系统需要做维护或整理资源时,传统做法是把服务器上的虚拟机一个个迁走。但迁移本身有成本,会中断服务、消耗带宽。LARS的妙招是:先看“寿命”!它会把服务器上的虚拟机按“预计剩余寿命”排序,优先迁移那些“命长”的,而让“命短”的继续跑——反正它们很快自己就退出了,根本不用搬!这样一来,迁移次数大幅减少。
模拟数据显示,LARS能降低约4.5%的虚拟机迁移量。别小看这4.5%,在全球数百万台服务器的规模下,这意味着每年少做数亿次不必要的迁移,用户体验更稳,运维成本更低!
当然,光有算法还不够。要在谷歌这种级别的系统里落地,还得解决工程难题。比如,AI模型怎么部署?如果像常规做法那样,把模型放在独立的推理服务器上,就会形成“鸡生蛋蛋生鸡”的死循环:调度器依赖模型,模型服务器又依赖调度器!一旦模型服务崩了,整个调度系统可能瘫痪。
谷歌团队的解决方案堪称教科书级:直接把模型编译进Borg调度器的二进制文件里!这样一来,模型和调度器同生共死,部署、测试、回滚都走同一套流程,既安全又高效。更夸张的是,模型预测的中位延迟只有9微秒——比用独立服务器快了780倍!这意味着系统可以高频次地做“重预测”,实时响应变化。
此外,团队还设计了“主机寿命分数缓存”机制,避免在超大规模集群中因预测请求过多而拖慢系统。只有当主机上的虚拟机有增减,或者预测寿命到期时,才重新计算。这一招让LAVA系统能稳稳跑在谷歌全球最大的数据中心区域,毫无压力。
最终效果如何?数据不会说谎:除了空闲主机显著增加,资源“ stranded”(卡死浪费)现象也大幅缓解——CPU浪费减少约3%,内存浪费减少2%。这意味着更多资源能被新任务利用,集群整体“呼吸”更顺畅。而这一切,都建立在不牺牲系统可靠性、不增加延迟的前提下。谷歌团队证明了:AI不仅能用在应用层,更能深入基础设施底层,成为数据中心的“智能调度大脑”。
这项研究的意义远不止于虚拟机调度。它开创了一种“模型与系统协同设计”的新范式——AI不是外挂插件,而是系统内生的一部分;预测不是一次性动作,而是持续演化的动态过程。这种思路完全可以迁移到存储调度、网络流量管理、甚至芯片资源分配等领域。
总之,在AI时代,优化云计算不再是“堆硬件”或“调参数”的粗放游戏,而是靠智能预测、动态适应和系统级协同的精细艺术。