用8片RTX 4090构建本地模型AI服务器


使用 8xRTX 4090 构建 GPU 服务器实现大模型本地部署和运行推理:Marco Mascorro 构建了一个非常酷的 8x4090 服务器用于本地推理,并编写了一个非常详细的操作指南,介绍了他使用了哪些部件以及如何将所有部件组合在一起。

希望这对任何正在寻找本地推理解决方案并且没有预算使用 A100 或 H100 的人来说都很有趣。该构建也应该适用于 5090。

预算:服务器(约 15,000 美元)和卡(8x 3,000 美元)构成了预算的主要部分。如果这在您的家庭设置预算之内,那就太好了。但我认为一般来说它是为实验室或小公司设计的。

详细点击标题:
现在满世界都在搞AI,如果能用自家电脑训练AI模型,还能用显卡快速跑结果,又省钱又高效,那可太重要了!比如装个带8张RTX4090或5090显卡的服务器(就像我们要做的这个),用上最新的PCIe5.0插槽,每张卡都能跑满速。别人家的配置因为用了老旧的PCIe4.0或者更差的延长线,速度根本比不上我们。

自己搭服务器好处多多:不用求着别人家的AI接口,不怕数据泄露,不会被限速。你的数据永远是你自己的,不用把聊天记录交给云服务商,敏感文件也不用往外传。搞科研或者注重隐私的程序员简直爽歪歪!

所以我们决定用市面上能买到的便宜配件攒个服务器。虽然不能当企业级产品用,但做实验完全够用。(声明:这纯属个人研究学习用途!)

手把手教你搭8卡AI服务器我们要装两台一模一样的"怪兽机",每台塞进8张RTX4090显卡。所有显卡都插在PCIe4.0x16满血接口上(注:我们实测过4090,5090应该也兼容,而且能用更快的PCIe5.0)

为什么要自己搭?现在AI模型更新比翻书还快,但总用云服务又贵又不自由。自己搭服务器搞研究、做实验、练技术不香吗?NVIDIA的RTX系列显卡性价比超高——4090有24GB显存和16384个CUDA核心,据说5090会有32GB显存和21760个核心,性能直逼企业级显卡,价格却便宜得多。买一张H100的钱够买4-8张4090了!

用RTX4090/5090装服务器,跑大语言模型(比如LLaMA、DeepSeek)、画图模型都轻轻松松。现在很多开源模型都做了优化,4090完全hold住。想搞个人智能助手?本地聊天机器人?自己训练模型?统统没问题!

用上vLLM、llama.cpp这些工具还能:

  • 把大模型拆开多卡并行计算
  • 用各种技巧节省显存
  • 自己控制服务器优化方案
配置清单主要零件:
  • 服务器:华硕ESC8000A-E12P
  • 显卡:8张RTX4090
  • CPU:2颗AMD EPYC 9254(24核)
  • 内存:24条16GB DDR5(共384GB)
  • 硬盘:1.92TB的NVMe固态
  • 系统:Ubuntu Linux 22.04

装机七步走
1️⃣ 拆机箱:给改装腾地方
2️⃣ 插内存:24条别插错位置
3️⃣ 装硬盘:M.2接口对准咯
4️⃣ 接扩展卡:把原装线分一半到新卡
5️⃣ 做电源分线:用"Y"型分线器供电
6️⃣ 装下层4张显卡:对准PCIe插槽
7️⃣ 搭架子装上层4张显卡:用机器人配件DIY支架

最后插网线装系统:

  • 接10G光纤网络
  • U盘安装Ubuntu系统
  • 记得装显卡驱动
小贴士:
  • 我们用了220V电源
  • 上层显卡架是定制的
  • 所有连接线都用原装的,避免降速
这样一套下来,你就拥有堪比科技公司的AI服务器啦!虽然装的时候要费点劲,但想想能随便跑各种AI模型还不怕隐私泄露,是不是很心动?

网友:
1、家用不合适,要使这个预算合理,您的房屋价值必须达到该金额的 100 倍,即 400 万美元。我的房屋价值不是。

2、一看我就明白我甚至买不起运行这个东西的电费,更不用说购买服务器了!

3、如果今天有人想用类似的预算构建某些东西,那么使用 2x RTX 6000 ADA PRO(总共 192GB VRAM)可以获得更好的投资回报率。

4、我认为,如果您使用 24 GB 卡并仅进行推理,那么基本上没有理由选择 4090 而不是 3090。事实上,在某些情况下,3090 会更好 - 您可以在 3090 之间使用 nvlink 获得额外的直接带宽,但它在 4000 系列及以后的版本中已停产。

5、几周前我参加了 Nvidia GTC 大会——他们以零售价(1999 美元)向参会者提供 5090。他们只为大约 25,000 名参会者提供了 1000 台。我听说人们每天早上 5:30 就开始排队,7 点开始销售(每位客户限购一台),到 7:05 就卖完了当天的配额。(“我听说”,因为我不可能在早上 5:30 排队!我是个夜猫子,一到早上 8 点的会议我就烦躁得要命。)

因此,至少目前,即使在有钱人看来,也没有人能买到 4x 5090!如果你有足够的钱,可以以某种方式买到它们,那么你可能会购买二手 A100,或者在 eBay 上购买较旧的工作站型号之一。(就我个人而言,我正在等着看他们如何为新的 96 GB“RTX PRO 6000 Blackwell Max-Q 工作站版”定价。我也在等着有人说服他们给他们的产品起一个更容易理解的名字,但我并不指望这一点。)