这些新技术对 Blackwell 笔记本电脑特别有帮助,尤其是当电脑在闲置或者做一些简单任务的时候。虽然它对台式电脑的帮助没那么大,但仍然很重要,尤其是在电脑做一些轻松的工作、没有让 GPU(显卡)全力运行的时候,比如游戏帧数被限制、CPU 限制了性能,或者玩一些不太需要大量计算的游戏。
来自 Ada Lovelace 的坚实基础
NVIDIA 在它的官网上提到了这些新功能:
- 三速记忆控制
- 这个功能可以让内存控制器在不同的省电模式之间切换。当内存系统没有太多任务时,它可以进入更省电的状态,这样就能降低耗电量。
- SRAM 是 GPU 里的一种高速缓存。当它不使用时,可以进入待机模式,这样就能省电。
比如,Digital Foundry 在测试 RTX 4090 时发现,在游戏《Forza Horizon 5》中,4090 的耗电量比 3090 低很多。同样的现象也出现在 RTX 4080 的测试中。
这些功能(1 和 2)以及其他可能的功能,让 GPU 芯片在轻松的游戏里可以进入待机或低功耗状态,从而大大降低耗电量。
Blackwell 的新功能
NVIDIA 在官网上还提到了一些新的 Max-Q 功能,我还参考了 TechPowerup、HotHardware 和 WCCFTech 的报道:
- 改进的时钟门控
- 时钟门控是一种技术,可以通过关闭时钟信号让电路进入空闲状态,就像待机模式一样。在 Blackwell 中,即使 GPU 核心在工作,整个时钟树也可以被关闭。如果某些内存控制器或缓存处于空闲状态,它们的时钟信号就会被关闭,从而省电。
- 电源门控可以完全切断某些组件的电源,减少漏电(即使不工作也会消耗的电量)。这就像拔掉插头一样。Blackwell 现在可以完全关闭 GPU 核心的某些部分,从而减少漏电。
- Blackwell 加入了第二条电压轨,把内存和核心系统的电压分开。这样可以根据不同的任务更精细地调整电压,让每个系统在同样的电量下表现更好。它还让核心的轨道门控速度提高了 15 倍,减少了漏电。
- 在 Blackwell 中,GPU 可以以 10 倍的速度进入和退出省电状态。它可以让 GPU 从活动状态逐渐进入更深的省电状态,比如活动 -> 低功耗 1 -> 低功耗 2 -> 深度睡眠。这样 GPU 即使在工作时也能逐渐进入更省电的状态,既省电又不影响性能。当 GPU 空闲时,它可以快速切换时钟和电源门控状态,关闭不用的部分,而不会让电脑变慢。
- 新的时钟控制器比旧的速度快了 1000 多倍(微秒而不是毫秒),可以根据任务动态调整时钟速度。对于轻松的任务,时钟速度可以增加;对于繁重的任务,时钟速度可以快速降低,从而省电。
- GDDR7 内存比 GDDR6 更省电,尤其是在超低电压状态下,待机时的耗电量更低。
我不会详细分析什么时候占用率和饱和度会高或低。你只需要知道 GPU 并不完美,很多时候它的计算单元(比如 CUDA 核心和张量核心)是空闲的,没有在工作。
通常,计算任务越多,GPU 的饱和度就越高,核心的扩展性也越好,对延迟的敏感度也越低。游戏的图形任务通常比像 Blender 这样的渲染软件的任务饱和度低,因为游戏的任务更小、更简单、对延迟更敏感,也更难并行处理。一般来说,如果没有 CPU 的限制,游戏的图形越简单,GPU 的计算单元就越难被充分利用。
GPU 监控软件中的“利用率”是指 GPU 工作的时间百分比。比如,50% 的利用率意味着 GPU 有一半的时间在工作,另一半时间在等待任务。对于内存来说,利用率表示内存系统在工作的时间百分比。
- “占用率”是指活动的线程组(Warp)与最大支持的线程组数的比例。它衡量 GPU 资源在调度和执行线程方面的效率。
- “饱和率”是指 GPU 计算能力的充分利用程度。对于内存子系统来说,它表示总带宽的使用量。
这些功能如何影响 Blackwell 的功耗?
1 和 2 假设每个 SM(GPU 的一个小部分)都可以进行时钟门控和电源门控,虽然还没确认,但很有可能。
当 GPU 核心不需要从 L2 缓存和内存中读取数据时,L2 和内存控制器的部分可以通过时钟门控来省电。当某些 SM 完成工作并处于空闲状态时,它们也可以通过时钟门控来省电。
当任务无法扩展到很多 SM 或者很多着色器没有被充分利用时,可以通过电源门控完全关闭这些 SM,从而减少漏电。
第二条电压轨可以根据不同的任务动态调整电压和频率,让性能最大化。
低延迟睡眠确保当 SM 不使用时,它们可以进入低功耗状态,但不会进入深度睡眠。这有助于省电。
加速频率切换确保当 GPU 核心空闲时,可以快速进行时钟门控,从而省电。
GDDR7 更高效,可以增加 GPU 核心的功率预算。轨道门控内存控制器也可以降低功耗。
不同情况下的耗电量
简单来说:当游戏帧数被限制或者 CPU 限制了性能时,耗电量会大幅下降。在轻松的游戏里,耗电量也会大幅下降。在计算密集型或者光线追踪的游戏中,省电的效果没那么明显,但反而会提高性能。
我们在 RTX 40 系列显卡上看到的广泛游戏耗电量范围,很可能在 RTX 50 系列(尤其是 RTX 5090)上会进一步扩大。
- FPS 上限或 CPU 受限
- 这会降低 GPU 的利用率,当芯片和逻辑空闲时,它可以快速进入低功耗状态,从而节省大量电量。
- 轻松游戏
- 在轻松的游戏里,GPU 的饱和度较低,很多核心处于空闲状态,一些 SM 甚至完全用不上。内存系统的压力也不大,很多时候它们都没被使用或者只用了部分。当这些部分不使用时,可以通过电源门控减少漏电。空闲的 SM 可以进入睡眠模式或者快速进行时钟门控,从而节省大量电量。缓存和内存控制器的使用也会减少,所以它们大部分时间都可以被时钟门控。在像《Forza Horizon 5》这样的轻松游戏里,Ada Lovelace 已经表现得很省电了,而 Blackwell 会让它更省电。
- 计算密集型和光线追踪游戏
- 在这些游戏中,线程较少的部分会消耗较少的电量,原因和轻松游戏一样。但是,计算、内存带宽和缓存繁重的任务省电效果就没那么明显了。缓存、内存和核心的饱和度更高,核心的扩展性也更好,这会限制省电效果。繁重的任务会利用大部分省电功能来保持核心时钟速度较高,减少降频。使用光线追踪和路径追踪的游戏耗电量会更高,就像 RTX 40 系列一样。
总结
Blackwell 架构的这些新技术主要在轻负载和闲置时发挥最大作用,显著降低功耗。对于笔记本电脑和轻度使用场景,这些改进尤为重要。虽然在高负载情况下节能效果有限,但它们仍然有助于提升整体性能和能效。