DeepSeek工程师刚开源nano-vllm:演示AI核心


DeepSeek员工刚刚开源了nano-vllm ,点击标题。

它是一个从头开始构建的轻量级vLLM实现。

关键特征

  • 快速离线推理-与vLLM的推理速度相当
  • 易读的代码库-在约1,200行Python代码中实现干净
  • 优化套件-前缀缓存,张量优化,火炬编译,CUDA图等。


测试配置(通俗版):
硬件: 一台游戏本(RTX 4070显卡,8GB显存)模型: 小尺寸AI“千问3号”(0.6B参数,相当于初中生水平)测试内容:

  • 让AI写256篇小作文
  • 开头长度随机:100~1024字(像抽签决定作文开头长短)
  • 要求续写长度:100~1024字(AI自由发挥,但不能太短或太长)

性能PK结果:

推理引擎    总生成字数    耗时(秒)    速度(字/秒)
原版vLLM    13.4万字    98.37    1361
nano-vLLM    13.4万字    93.41    1434


人话总结: 用同一张显卡跑同样的活,nano-vLLM比原版快了5秒,平均每秒多写70多个字!(相当于两个打字员比赛,用更瘦身的键盘反而打字更快了)
附赠暴击知识点:

  1. “0.6B参数” ≈ 这个AI的脑容量是ChatGPT的1/300(相当于小灵通vs智能手机)
  2. “13.4万字” ≈ 差不多是一本《小王子》的字数
  3. “1434字/秒” ≈ 比普通人手速快100倍(你写1个字的时间AI能写两段!)

网友热评:
这不是一个DeepSeek版本,这是一个DeepSeek员工的个人项目。


人问为啥要用vLLM搞这个?其实没啥高大上的理由!就像小学生学写字先练"一二三"一样,nanoGPT就是个很好的练手玩具。咱们就是想用这个现成的"乐高积木",亲手拆拆装装,看看现在最厉害的AI大脑(LLM)到底是怎么转起来的。说白了就是:学霸们造火箭,我们先学着拼个模型飞机玩玩!(๑•̀ㅂ•́)و✧

代码库的大小非常小,更重要的是,非常干净,易于阅读。
它确实有效。如果您看到基准测试,它的性能与vLLM相当。事实上,吞吐量更好。

一眼看上去很不错。 虽然项目需求文件调用了torch,flash-attn,nvidia-ml-py,triton,但目前还不清楚它是否可以在除了nvidia GPU之外的任何东西上工作,或者这是否是运行时加速支持的几个可能选项之一。