在开始用GeForce RTX 5090的计算性能做NVIDIA Blackwell Linux测试时,除了上周发布的所有CUDA/OpenCL/OptiX基准测试,很多读者还问了AI性能,特别是RTX 5090旗舰显卡在Llama.cpp里的表现。下面是一些初步的基准测试,比较了GeForce RTX 5090在Llama.cpp里的表现和之前的RTX 40、RTX 30显卡。
NVIDIA GeForce RTX 5090
周末,我对Llama.cpp做了一些初步测试,并且重新测试了高端的GeForce RTX 30和RTX 40显卡。所有测试都是在Ubuntu 24.10上,用了NVIDIA 570.86.10 Linux驱动和Linux 6.11内核。测试的显卡包括:
- GeForce RTX 3090
- GeForce RTX 4070
- GeForce RTX 4070 SUPER
- GeForce RTX 4080
- GeForce RTX 4080 SUPER
- GeForce RTX 4090
- GeForce RTX 5090
Llama.cpp NVIDIA GeForce RTX 5090
用Llama 3.1和Mistral 7B的Llama.cpp做了文本生成和提示处理的初步测试。更多关于NVIDIA GeForce RTX 50显卡的Llama.cpp基准测试可能会让很多读者感兴趣。现在我们来看看初步结果。在用Llama 3.1 8B的Llama.cpp生成128个令牌的文本时,GeForce RTX 5090表现非常出色……性能是GeForce RTX 4090的1.58倍。而且这个提升比从RTX 3090到RTX 4090的提升要大得多。
Llama.cpp基准测试的设置1是:
- 后端用NVIDIA CUDA,模型用Llama-3.1-Tulu-3-8B-Q8_0,测试内容是生成128个令牌的文本。
- 结果:RTX 5090是最快的。
GeForce RTX 5090的功耗比之前的NVIDIA显卡高很多,但按每瓦性能来算,它还是可以和GeForce RTX 4090、RTX 4080 SUPER媲美的。
Llama.cpp基准测试的设置2是:
- 后端用NVIDIA CUDA,模型用Llama-3.1-Tulu-3-8B-Q8_0,测试内容是处理2048个令牌的提示。
- 结果:RTX 5090是最快的。
在处理2048个令牌的提示时,RTX 5090比RTX 4090快了大约17%——这本身就已经比RTX 30和其他RTX 40显卡有了很大的提升。
按每瓦性能来算,RTX 5090的能效在RTX 4090和RTX 4080 SUPER之间。
即使GeForce RTX 5090的功耗增加了,这款Founders Edition显卡的散热表现还是相当不错。在用Mistral 7B生成128个令牌的文本时,它展示了非常明显的代际提升,提升幅度和Llama 3.1差不多……RTX 5090的性能是RTX 4090的1.58倍。
按每瓦性能来算,这款售价1999美元的显卡和RTX 4080/4090显卡差不多。
作为一款双槽显卡,尽管功耗更高,但NVIDIA GeForce RTX 5090 Founders Edition的GPU温度控制得非常好。
在用Mistral 7B处理2048个令牌的提示时,RTX 5090的性能是RTX 4090的1.17倍。
由于NVIDIA RTX 50 Linux驱动才刚出来几天,测试时间比较短,请大家理解。感谢NVIDIA为Phoronix提供了GeForce RTX 5090评测样品来做Linux测试。