Liebreich:AI数据中心建设与能源需求

banq


彭博新能源财经的史诗级报告,介绍了生成式人工智能、AI能源使用和数据中心增长方面的现状。

要点:

  • 现有数据中心的电力容量通常不到 10MW,但新的专注于 AI 训练的数据中心往往在 75-150MW 范围内,因为需要将大量 GPU 共置以实现高效通信 - 这些 GPU 至少可以位于世界任何地方。推理的要求要低得多,因为 GPU 不需要以相同的方式协作,但它需要靠近人口密集中心才能提供低延迟响应。
  • 到 2030 年,全球电力需求将增加 45GW,他指出,这相当于“全球铝冶炼厂电力需求的三分之一”。但这些需求大部分需要本地化,这让事情变得更加具有挑战性,尤其是考虑到需要与现有电网整合。
  • 谷歌、微软、Meta 和亚马逊都制定了净零排放目标,并对此非常重视,这使它们成为“世界上最重要的可再生能源企业购买者之一”。这有助于解释为什么他们对核电非常感兴趣。

埃隆位于孟菲斯的拥有 10 万块 GPU 的数据中心目前依靠天然气运行:
当埃隆·马斯克急于以创纪录的速度启动并运行 x.AI 的孟菲斯超级集群时,他引入了 14 台移动天然气发电机,每台发电机的发电量为 2.5 兆瓦。看来它们不需要空气质量许可证,只要它们在同一位置停留的时间不超过 364 天即可。

2023 年全球新增发电容量的 91% 来自风能和太阳能。

新的数据中心
训练生成式 AI 模型需要强大的计算能力。非常强大的计算能力。它还需要将计算能力集中在一个地方,以便数万或数十万(最终可能是数百万)个 GPU 可以无延迟地相互通信。训练规模和最终 AI 模型性能之间存在着明显的关系——这是军备竞赛的完美配方。

风险非常大。去年,Meta 暂停了整个数据中心建设计划,甚至拆除了一个部分建成的数据中心,并重新开始使用新的、支持 AI 的设计。

普通数据中心的规模越来越大,数据中心也越来越多地聚集在园区内——这两种趋势给电网带来了极大的压力。

北弗吉尼亚数据中心集群是世界上最大的数据中心集群,容量约为 2.5 千兆瓦,吸收了该地区约 20% 的电力,并且每年的增长率约为 25%。2022年,当地能源供应商 Dominion Energy 不得不暂停新连接数月。

在爱尔兰,去年数据中心的电力消耗达到该国总电力消耗的 21%,高于2015 年的 5%,促使输电系统运营商 EirGrid 暂停在都柏林开发新的数据中心,直至 2028 年。

数据中心运营商必须将非延迟关键负载转移到城市范围之外的数百兆瓦数据中心。这些数据中心采用清洁电力供电,有望支持电网,而不是破坏电网。

大型数据中心的发展正在从城市地区转移到可以找到电力的地方。

用于训练 AI 模型的数据中心往往在 75 兆瓦至 150 兆瓦之间。大多数在建的数据中心在 100 兆瓦至 250 兆瓦之间,少数绿色巨人在 500 兆瓦至 1 千兆瓦之间。

然而,科技行业真正想要的是 1 千兆瓦至 2 千兆瓦之间的 AI 训练数据中心:

  • 微软和 OpenAI 正在讨论一个耗资 1000 亿美元、耗资 5 千兆瓦的超级计算机综合体,名为 Stargate
  • 亚马逊表示,计划在未来 15 年内投资 1500 亿美元建设数据中心上个月,
  • KKR 和能源投资者 Energy Capital Partners 达成协议,将向 AI 数据中心投资高达 500 亿美元。
  • 贝莱德已推出价值 300 亿美元的 AI 基础设施基金。

这些大型数据中心将像航空母舰或核潜艇一样复杂和昂贵。仅建造一个 1GW 数据中心就需要花费高达 120 亿美元——用于防震结构、电源、UPS 系统、冷却等。

100,000 个 GPU 可能还要花费40 亿美元,这还未安装基于芯片或沉浸式液体冷却,以及超高带宽、低延迟通信。

对于 AI 训练来说,延迟不是问题,因此数据中心可以位于世界任何地方,只要有光纤连接、建筑许可、技能、安全和数据隐私。
然而,当涉及到“推理”——使用模型回答问题时——结果必须无延迟地、快速地传递给用户,这意味着数据中心位于城市内或附近。

根据 EPRI 的数据,单个 ChatGPT 查询需要大约 2.9 瓦时相比之下,谷歌搜索仅需 0.3 瓦时,这可能会带来更多电力需求。即使是推理数据中心也需要 100MW 或以上。

GPT3 使用 10,000 个 GPU 集群进行训练;GPT4 需要 25,000 个 GPU;据传 GPT5需要 50,000 个。
埃隆·马斯克的 x.AI 刚刚建立了一个拥有 100,000 个 GPU 的数据中心,而且已经有传言称2030 年之前将建成第一个拥有 100 万个 GPU 的数据中心。

但问题不仅仅是 GPU 的数量,而且GPU本身也变得越来越耗能:

  • Nvidia 于 2020 年推出的 Ampere A100 GPU 功耗高达 400W。
  • 两年后推出的 Hopper H100 是目前的行业标准,功耗为 700W。
  • 预计于2024年底发货的 Nvidia Blackwell B100 功耗将高达 1,200W。

单个机架上有 72 个 Blackwell GPU,加上系统平衡装置,可产生高达 120kW 的电力,相当于 100 个美国家庭或 300 个欧洲家庭的用电量。

未来几年,大部分新的人工智能数据中心容量将建在美国。Semi Analysis 估计,到 2030 年,美国数据中心的电力需求将激增 250%,吸收近 15% 的总电力,并需要建设 76GW 的新可调度电源。

清洁可调度电力
当对可调度电力的大量集中新需求与极大的排放压力结合在一起时,超大规模企业或许不可避免地会考虑核电。

  • 2024年9 月,微软因披露已与 Constellation Energy 签署协议,将恢复三哩岛核电站(1979 年美国最严重核事故的发生地)的运行,并按照为期 20 年的固定价格购买其电力而登上头条新闻。
  • 亚马逊网络服务公司已于 2024年93 月宣布收购 Talen Energy 在宾夕法尼亚州核电站的数据中心园区。
  • 2024年910 月,谷歌披露了自己的核电计划,宣布与Kairos Power达成协议,购买七座小型模块化反应堆。

在建设新电厂方面,所谓的小型模块化反应堆 (SMR) 即将问世,而且建造成本低廉且容易。科技行业的乐观倾向在进步研究所 (IFP) 身上得到了完美体现,该研究所是一家专注于创新政策的无党派智库,它声称轻水 SMR 可以在六年内建成,首座 (FOAK) 电力成本为 109 美元/兆瓦时,第 n 座 (NOAK) 电力成本为 66 美元/兆瓦时。

美国能源部《先进核能商业化起飞之路》报告指出,目前核电的无补贴成本为 120 美元/兆瓦时。然而,美国或欧洲新建的 GW 级发电站的成本约为 180 美元/兆瓦时(更不用说晚了 5 到 15 年),很难想象 FOAK SMR 会更便宜。

从现有核电站购买电力:2024年10 月,美国联邦能源管理委员会 (FERC) 拒绝了亚马逊与 Talen Energy 达成的为 Susquehanna 数据中心综合体额外购买 180MW 电力的交易,理由是担心电费和可靠性。

核聚变:微软与核聚变初创公司 Helion 签署了一项承购协议,OpenAI 首席执行官 Sam Altman 向其投资 3.75 亿美元,该公司承诺在 2028 年前建成第一座发电厂。

简单地选择天然气:当埃隆·马斯克急于在创纪录的时间内启动并运行 x.AI 的孟菲斯超级集群时,他引入了 14 台移动天然气发电机, 每台发电机的发电量为 2.5 兆瓦。看来它们不需要空气质量许可证,只要它们在同一位置停留的时间不超过 364 天即可。在这种情况下,一个新的 150 兆瓦变电站将于年底完工,但田纳西州没有可再生能源组合标准或碳价,因此很容易看出该项目如何推高天然气甚至煤炭的使用量。

埃克森美孚和雪佛龙都计划建造燃气发电厂,直接为人工智能数据中心供电,从而绕过电网连接。埃克森美孚承诺捕获和封存 90% 以上的排放,但燃烧后 CCS 的历史意味着这种说法必须非常谨慎。如果 将产生的二氧化碳用于提高石油采收率,净排放量将是巨大的。

依赖纯化石燃料供电的成本将高于混合使用廉价可再生能源和电池以及少量天然气的供电。

事实证明,2023 年全球新增发电容量中 91% 来自风能和太阳能,只有 6% 来自天然气或煤炭,3% 来自核能,这是有原因的。

在葡萄牙,Start Campus Sines 正在建设一个 1.2GW 的数据中心综合体,预计在 2030 年全面投入使用时将成为欧洲最大的数据中心综合体,由风能和太阳能供电,由电池供电,并配有备用发电机以备不时之需。如果您的目标是 100% 清洁能源,还有其他备用选项,包括可再生天然气、更多电池、液态空气储存,或者可能是清洁氢气或其衍生物之一。

增强型地热(基于水力压裂)和闭环地热都极具吸引力,因为它们能够提供全天候清洁能源,同时又具有核能的复杂性。谷歌和 Meta分别与 Fervo Energy 和 Sage Geosystems签订了电力购买协议。

其他更激进的方法,例如麻省理工学院分拆出来的 Quaise 提出的毫米波钻探,面临着艰巨的技术挑战,而且看起来距离商业化还有几十年的时间,尽管 Quaise 承诺在 2026 年之前提供第一批电力

传统的水力发电总是有好处的。斯堪的纳维亚半岛和巴西等水力发电量丰富的国家一直是依赖廉价全天候清洁能源的行业的好去处,对数据中心运营商来说也颇具吸引力。但新建水电站既困难又缓慢,垄断现有水电站的发电量不会比核电站更受欢迎。


预测:
科技巨头们会发现,为人工智能数据中心供电的最佳方式是采用传统方式,即构建与其他用户相同的、被证明最具成本效益的发电技术,将它们连接到强大而有弹性的电网,并与当地社区合作。

例如,将发电厂与数据中心共建看似简单,但实际上并非如此。这将使建设数据中心的复杂性乘以建设和运行电厂的复杂性。

  • 如果你将电厂建在离网的地方,那么你节省的输电费用将用于处理供需之间可能出现的所有不匹配问题。
  • 如果你仍然与电网相连,那么共建电厂将一事无成,因为你仍然必须满足电网运营商和监管机构制定的所有规则。

美国电力研究所刚刚启动了DCFlex 计划,旨在探索数据中心如何支持和稳定电网。例如,当他们看到全天候全功率运行的成本时,数据中心所有者可能会发现提供一些需求响应能力或修改其上升和下降速率(否则可能会令人生畏)的好处。


说到新技术——无论是小型模块化反应堆、核聚变、新型可再生能源还是超导输电线路——拥有一些资金充裕、技术先进、风险承受能力强的参与者创造需求是一件幸事,而几十年来,低增长的发达国家电力市场一直缺乏这种需求。