大型语言模型的量化感知低阶适应算法


目前关于 Mistral 的讨论很多,这是新的 QA-LoRA 论文,点击标题
  • - LoRA(低秩适配)非常棒,因为它只适配了基础 LLM 的一小部分低秩参数子集。
  • - QLoRA 非常棒,因为它通过量化基础模型权重进一步降低了内存需求。
  • - QA-LoRA 更棒,因为它在 QLoRA 的基础上更进一步,还量化了 LoRA(适配器)权重,避免了在添加适配器权重时将量化的基础模型权重转换回 16 位的高成本转换。

近年来,大型语言模型(LLM)发展迅速。尽管大型语言模型在许多语言理解任务中都有很强的能力,但其沉重的计算负担在很大程度上限制了大型语言模型的应用,尤其是需要将其部署到边缘设备上时。

在本文中,我们提出了一种量化感知低秩适应(QA-LoRA)算法。该算法的动机在于量化和适配的自由度不平衡,其解决方案是使用分组算子,在增加量化自由度的同时降低适配的自由度。

QA-LoRA 只需几行代码就能轻松实现,它为原始的 LoRA 提供了两方面的能力:


    * 在微调期间,LLM 的权重被量化(例如量化为 INT4),以减少时间和内存的使用;
    * 在微调之后,LLM 和辅助权重被自然地集成到一个量化模型中,而不会损失精度。

我们将 QA-LoRA 应用于 LLaMA 和 LLaMA2 模型系列,并在不同的微调数据集和下游场景中验证了其有效性。

源代码:这里