分析英伟达Blackwell布莱克威尔节能技术

NVIDIA 的新 Blackwell架构引入了一些新技术,这些功能可以让电脑更省电,尤其是在笔记本电脑和轻度使用场景中。

这些新技术对 Blackwell 笔记本电脑特别有帮助,尤其是当电脑在闲置或者做一些简单任务的时候。虽然它对台式电脑的帮助没那么大,但仍然很重要,尤其是在电脑做一些轻松的工作、没有让 GPU(显卡)全力运行的时候,比如游戏帧数被限制、CPU 限制了性能,或者玩一些不太需要大量计算的游戏。

来自 Ada Lovelace 的坚实基础
NVIDIA 在它的官网上提到了这些新功能:

  1. 三速记忆控制
    • 这个功能可以让内存控制器在不同的省电模式之间切换。当内存系统没有太多任务时,它可以进入更省电的状态,这样就能降低耗电量。
  • 改进的 SRAM(缓存)时钟门控
    • SRAM 是 GPU 里的一种高速缓存。当它不使用时,可以进入待机模式,这样就能省电。
    NVIDIA 可能还加入了一些没有公开的省电功能。这些新功能的效果在 RTX 40 系列和 RTX 30 系列的一些游戏中已经可以看到。

    比如,Digital Foundry 在测试 RTX 4090 时发现,在游戏《Forza Horizon 5》中,4090 的耗电量比 3090 低很多。同样的现象也出现在 RTX 4080 的测试中。

    这些功能(1 和 2)以及其他可能的功能,让 GPU 芯片在轻松的游戏里可以进入待机或低功耗状态,从而大大降低耗电量。

    Blackwell 的新功能
    NVIDIA 在官网上还提到了一些新的 Max-Q 功能,我还参考了 TechPowerup、HotHardware 和 WCCFTech 的报道:

    1. 改进的时钟门控
      • 时钟门控是一种技术,可以通过关闭时钟信号让电路进入空闲状态,就像待机模式一样。在 Blackwell 中,即使 GPU 核心在工作,整个时钟树也可以被关闭。如果某些内存控制器或缓存处于空闲状态,它们的时钟信号就会被关闭,从而省电。
  • 改进电源门控
    • 电源门控可以完全切断某些组件的电源,减少漏电(即使不工作也会消耗的电量)。这就像拔掉插头一样。Blackwell 现在可以完全关闭 GPU 核心的某些部分,从而减少漏电。
    目前还不知道电源门控的精细程度,但如果它像 Blackwell 服务器那样精细,那么它可以针对每个核心进行控制。如果不是这样,我会很惊讶他们没有改进调度程序,让 SM、TPC 或 GPC(这些是 GPU 的不同部分)也能进行电源门控,而不是把任务分散到所有 SM 上。
  • 轨道门控
    • Blackwell 加入了第二条电压轨,把内存和核心系统的电压分开。这样可以根据不同的任务更精细地调整电压,让每个系统在同样的电量下表现更好。它还让核心的轨道门控速度提高了 15 倍,减少了漏电。
  • 低延迟睡眠
    • 在 Blackwell 中,GPU 可以以 10 倍的速度进入和退出省电状态。它可以让 GPU 从活动状态逐渐进入更深的省电状态,比如活动 -> 低功耗 1 -> 低功耗 2 -> 深度睡眠。这样 GPU 即使在工作时也能逐渐进入更省电的状态,既省电又不影响性能。当 GPU 空闲时,它可以快速切换时钟和电源门控状态,关闭不用的部分,而不会让电脑变慢。
  • 加速频率切换
    • 新的时钟控制器比旧的速度快了 1000 多倍(微秒而不是毫秒),可以根据任务动态调整时钟速度。对于轻松的任务,时钟速度可以增加;对于繁重的任务,时钟速度可以快速降低,从而省电。
    根据 NVIDIA 的幻灯片,新的时钟控制器比 Ada Lovelace 的更积极、更一致,即使在遇到繁重任务时也不会大幅降低频率。这让 GPU 的平均时钟速度从 2350MHz 提高了 300MHz,达到了 2650MHz,同时避免了任务完成时频率突然升高的现象。
  • 电压优化的 GDDR7
    • GDDR7 内存比 GDDR6 更省电,尤其是在超低电压状态下,待机时的耗电量更低。
    利用率、占用率和饱和度
    我不会详细分析什么时候占用率和饱和度会高或低。你只需要知道 GPU 并不完美,很多时候它的计算单元(比如 CUDA 核心和张量核心)是空闲的,没有在工作。

    通常,计算任务越多,GPU 的饱和度就越高,核心的扩展性也越好,对延迟的敏感度也越低。游戏的图形任务通常比像 Blender 这样的渲染软件的任务饱和度低,因为游戏的任务更小、更简单、对延迟更敏感,也更难并行处理。一般来说,如果没有 CPU 的限制,游戏的图形越简单,GPU 的计算单元就越难被充分利用。

    GPU 监控软件中的“利用率”是指 GPU 工作的时间百分比。比如,50% 的利用率意味着 GPU 有一半的时间在工作,另一半时间在等待任务。对于内存来说,利用率表示内存系统在工作的时间百分比。

    • “占用率”是指活动的线程组(Warp)与最大支持的线程组数的比例。它衡量 GPU 资源在调度和执行线程方面的效率。
    • “饱和率”是指 GPU 计算能力的充分利用程度。对于内存子系统来说,它表示总带宽的使用量。

    这些功能如何影响 Blackwell 的功耗?
    1 和 2 假设每个 SM(GPU 的一个小部分)都可以进行时钟门控和电源门控,虽然还没确认,但很有可能。

    当 GPU 核心不需要从 L2 缓存和内存中读取数据时,L2 和内存控制器的部分可以通过时钟门控来省电。当某些 SM 完成工作并处于空闲状态时,它们也可以通过时钟门控来省电。

    当任务无法扩展到很多 SM 或者很多着色器没有被充分利用时,可以通过电源门控完全关闭这些 SM,从而减少漏电。

    第二条电压轨可以根据不同的任务动态调整电压和频率,让性能最大化。

    低延迟睡眠确保当 SM 不使用时,它们可以进入低功耗状态,但不会进入深度睡眠。这有助于省电。

    加速频率切换确保当 GPU 核心空闲时,可以快速进行时钟门控,从而省电。

    GDDR7 更高效,可以增加 GPU 核心的功率预算。轨道门控内存控制器也可以降低功耗。

    不同情况下的耗电量
    简单来说:当游戏帧数被限制或者 CPU 限制了性能时,耗电量会大幅下降。在轻松的游戏里,耗电量也会大幅下降。在计算密集型或者光线追踪的游戏中,省电的效果没那么明显,但反而会提高性能。

    我们在 RTX 40 系列显卡上看到的广泛游戏耗电量范围,很可能在 RTX 50 系列(尤其是 RTX 5090)上会进一步扩大。

    • FPS 上限或 CPU 受限
      • 这会降低 GPU 的利用率,当芯片和逻辑空闲时,它可以快速进入低功耗状态,从而节省大量电量。
    • 轻松游戏
      • 在轻松的游戏里,GPU 的饱和度较低,很多核心处于空闲状态,一些 SM 甚至完全用不上。内存系统的压力也不大,很多时候它们都没被使用或者只用了部分。当这些部分不使用时,可以通过电源门控减少漏电。空闲的 SM 可以进入睡眠模式或者快速进行时钟门控,从而节省大量电量。缓存和内存控制器的使用也会减少,所以它们大部分时间都可以被时钟门控。在像《Forza Horizon 5》这样的轻松游戏里,Ada Lovelace 已经表现得很省电了,而 Blackwell 会让它更省电。
    • 计算密集型和光线追踪游戏
      • 在这些游戏中,线程较少的部分会消耗较少的电量,原因和轻松游戏一样。但是,计算、内存带宽和缓存繁重的任务省电效果就没那么明显了。缓存、内存和核心的饱和度更高,核心的扩展性也更好,这会限制省电效果。繁重的任务会利用大部分省电功能来保持核心时钟速度较高,减少降频。使用光线追踪和路径追踪的游戏耗电量会更高,就像 RTX 40 系列一样。
    GPU 越宽,计算单元越多,就越难被充分利用,尤其是对于很多游戏任务来说。不过,路径追踪的任务扩展性要好得多,虽然还远未达到完美。由于空闲和未使用的核心逻辑可以通过电源和时钟门控来省电,Blackwell 的效率技术会在轻松的任务中带来更多的省电效果,而在繁重的任务中效果会相对较小。

    总结
    Blackwell 架构的这些新技术主要在轻负载和闲置时发挥最大作用,显著降低功耗。对于笔记本电脑和轻度使用场景,这些改进尤为重要。虽然在高负载情况下节能效果有限,但它们仍然有助于提升整体性能和能效。