大型语言模型的量化感知低阶适应算法

#大语言模型LLM #算法教程

2023-10-01 banq

目前关于 Mistral 的讨论很多，这是新的 QA-LoRA 论文，点击标题

- LoRA（低秩适配）非常棒，因为它只适配了基础 LLM 的一小部分低秩参数子集。
- QLoRA 非常棒，因为它通过量化基础模型权重进一步降低了内存需求。
- QA-LoRA 更棒，因为它在 QLoRA 的基础上更进一步，还量化了 LoRA（适配器）权重，避免了在添加适配器权重时将量化的基础模型权重转换回 16 位的高成本转换。

近年来，大型语言模型（LLM）发展迅速。尽管大型语言模型在许多语言理解任务中都有很强的能力，但其沉重的计算负担在很大程度上限制了大型语言模型的应用，尤其是需要将其部署到边缘设备上时。

在本文中，我们提出了一种量化感知低秩适应（QA-LoRA）算法。该算法的动机在于量化和适配的自由度不平衡，其解决方案是使用分组算子，在增加量化自由度的同时降低适配的自由度。

QA-LoRA 只需几行代码就能轻松实现，它为原始的 LoRA 提供了两方面的能力：

我们将 QA-LoRA 应用于 LLaMA 和 LLaMA2 模型系列，并在不同的微调数据集和下游场景中验证了其有效性。

源代码：这里