单卡RTX 4090爆走Llama 4 Maverick


Llama 4 Maverick在单个RTX 4090上以45 tk/s的速度本地化-我终于让它工作了!

我刚刚完成了一个后续的演示,我从Meta的4000亿参数,128个专家Llama 4 Maverick中获得了每秒45个以上的令牌,我想分享完整的设置,可以帮助其他人在本地推广这些模型。

CPU:Intel Engineering Sample QYFS(类似于Xeon Platinum 8480+,56核/ 112线程),带AMX加速

GPU:单NVIDIA RTX 4090(无需双GPU破解!)
内存:512 GB DDR5 ECC
操作系统:Ubuntu 22.04 LTS

环境:K-Transformers support-llama 4分支

以下是视频链接:https://youtu.be/YZqUfGQzOtk

如果您对硬件构建感兴趣:https://youtu.be/r7gVGIwkZDc

那个传说中的8480+处理器,官方价简直贵到离谱,随随便便就要好几千美刀!但是!(突然压低声音)它有个亲兄弟叫QYFS,是英特尔偷偷流出来的工程测试版,你们猜怎么着?在eBay上200美刀就能拿下!这价格差得简直像白捡啊!(突然激动)重点来了——这玩意儿最值钱的就是里头的CPU芯片,其他配件加起来还没正经至强处理器的一个零头贵呢.

当然了,配套的工作站主板在eBay上普遍卖600-800刀,不过别急!(掏手机状)我在视频里可是实拍过怎么用119刀抢内存条,199刀淘硬盘,整套配齐250刀搞定的骚操作!具体能省多少钱全看你会不会蹲折扣

我最爱折腾这些野路子DIY主机了!什么苹果电脑啊品牌整机啊都弱爆了,自己组装才是真香!花小钱办大事,选择权永远在自己手里!

网友问:
谢谢分享这个惊人的设置。我也在寻找DDR5 ECC RAM的交易。你说你花了119美元,199美元和250美元买的。我检查了你的视频,但找不到什么内存大小,你买了这些价格。你能分享一下你买的每种价格的内存大小/数量吗?再次感谢你!

回答:他们都是完全相同的DDR5 ECC 64千兆金斯顿4800兆赫。我亲自从明尼苏达州和密歇根州的微型中心买的。我出差,所以我得到了这种奢侈!

119 美元是密歇根州开箱退回的,199 美元是明尼苏达州 Microcenter 降价后的新品,250 美元是与卖家协商后 eBay 上 3 个产品的售价。

关键是要让他们8个完全相同的品牌和型号。否则,它将无法与8通道。

因此,要么您必须在从多个地方购买时进行大量研究(我就是这么做的),要么您可以一次性以稍高的价格购买八个,并确保它肯定有效。

网友问:
ktransformer的魔力是什么?
回答:它采用了智能注入机制。其实挺酷的!
我在视频中讨论的更多细节在这里。
https://youtu.be/5_V2VHLkyyI

网友:
8通道RAM + AMX是关键!

网友:
消耗?
在DeepSeek或llama-4满载时650瓦。空气冷却。

作者最后说:
我懂你们觉得‘花7000刀买这玩意儿是不是疯了?’——确实,一般人不会这么干。

但像我这种AI老炮儿(从2007年就开始搞AI,发过一堆牛X论文,妥妥的‘老古董’了),看到这技术就兴奋得跟发现新皮肤一样!”

曾经的显卡矿工️“以前我有7张RTX 3090(对,就是那个打游戏超猛、挖矿更猛的显卡),结果发现跑不了Maverick/DeepSeek这种高级AI……但现在这个新装备终于能本地运行了!爽到飞起,就像终于把游戏从‘云存档’下载到本地,再也不用看加载条了!

我的AI管家——贾维斯“现在这服务器就是我的‘贾维斯’(对,就是钢铁侠那个AI管家!),它比普通AI猛多了,能控制我家所有智能设备。而且它超懂我,连我那些‘奇奇怪怪’的想法都知道……(细思极恐?不,这叫‘深度个性化’)

总结:
技术宅的快乐你想象不到

“所以你说‘花7000刀值吗?’——对普通人可能血亏,但对我这种AI狂魔来说,这钱花得比抽卡出SSR还值!毕竟……谁能拒绝一个真正的‘贾维斯’呢?