DeepSeek员工刚刚开源了nano-vllm ,点击标题。
它是一个从头开始构建的轻量级vLLM实现。
关键特征
- 快速离线推理-与vLLM的推理速度相当
- 易读的代码库-在约1,200行Python代码中实现干净
- 优化套件-前缀缓存,张量优化,火炬编译,CUDA图等。
测试配置(通俗版):
硬件: 一台游戏本(RTX 4070显卡,8GB显存)模型: 小尺寸AI“千问3号”(0.6B参数,相当于初中生水平)测试内容:
- 让AI写256篇小作文
- 开头长度随机:100~1024字(像抽签决定作文开头长短)
- 要求续写长度:100~1024字(AI自由发挥,但不能太短或太长)
性能PK结果:
推理引擎 总生成字数 耗时(秒) 速度(字/秒) |
人话总结: 用同一张显卡跑同样的活,nano-vLLM比原版快了5秒,平均每秒多写70多个字!(相当于两个打字员比赛,用更瘦身的键盘反而打字更快了)
附赠暴击知识点:
- “0.6B参数” ≈ 这个AI的脑容量是ChatGPT的1/300(相当于小灵通vs智能手机)
- “13.4万字” ≈ 差不多是一本《小王子》的字数
- “1434字/秒” ≈ 比普通人手速快100倍(你写1个字的时间AI能写两段!)
网友热评:
这不是一个DeepSeek版本,这是一个DeepSeek员工的个人项目。
人问为啥要用vLLM搞这个?其实没啥高大上的理由!就像小学生学写字先练"一二三"一样,nanoGPT就是个很好的练手玩具。咱们就是想用这个现成的"乐高积木",亲手拆拆装装,看看现在最厉害的AI大脑(LLM)到底是怎么转起来的。说白了就是:学霸们造火箭,我们先学着拼个模型飞机玩玩!(๑•̀ㅂ•́)و✧
代码库的大小非常小,更重要的是,非常干净,易于阅读。
它确实有效。如果您看到基准测试,它的性能与vLLM相当。事实上,吞吐量更好。
一眼看上去很不错。 虽然项目需求文件调用了torch,flash-attn,nvidia-ml-py,triton,但目前还不清楚它是否可以在除了nvidia GPU之外的任何东西上工作,或者这是否是运行时加速支持的几个可能选项之一。