SGLang已经为DeepSeek R1实现了多令牌预测,速度提高了1.76倍,每秒77个Token
我们在Triton 后端(#3466)上,用 EAGLE 2 技术为 DeepSeek-V3/R1 搞了个叫 NextN(MTP)的推测解码功能,还用了 CUDA Graph 和 Torch.compile 这两个工具来帮忙,结果速度提升了 1.76 倍。现在测试下来,当一次处理一个任务时,我们能每秒输出 77 个 token。
我们只用了一个官方模型里的 MTP 模块(就是 NextN 层),发现它还能用在像 EAGLE 这样的自回归预测上。这个 MTP 模块的接受率特别高,比如预测 2 个 token 时,平均能接受 1.9 个。我们还试了预测更多 token,结果速度更快了。比如预测 4 个 token 时,平均能接受 2.5 到 3 个。
不过,预测更多 token 也会增加计算量,可能会影响速度,尤其是任务多的时候。
所以,我们还得做更多实验,找到在速度和效率之间最好的平衡点,看看预测多少个 token 最合适。
详细点击标题