目前关于 Mistral 的讨论很多,这是新的 QA-LoRA 论文,点击标题
- - LoRA(低秩适配)非常棒,因为它只适配了基础 LLM 的一小部分低秩参数子集。
- - QLoRA 非常棒,因为它通过量化基础模型权重进一步降低了内存需求。
- - QA-LoRA 更棒,因为它在 QLoRA 的基础上更进一步,还量化了 LoRA(适配器)权重,避免了在添加适配器权重时将量化的基础模型权重转换回 16 位的高成本转换。
近年来,大型语言模型(LLM)发展迅速。尽管大型语言模型在许多语言理解任务中都有很强的能力,但其沉重的计算负担在很大程度上限制了大型语言模型的应用,尤其是需要将其部署到边缘设备上时。
在本文中,我们提出了一种量化感知低秩适应(QA-LoRA)算法。该算法的动机在于量化和适配的自由度不平衡,其解决方案是使用分组算子,在增加量化自由度的同时降低适配的自由度。
QA-LoRA 只需几行代码就能轻松实现,它为原始的 LoRA 提供了两方面的能力:
我们将 QA-LoRA 应用于 LLaMA 和 LLaMA2 模型系列,并在不同的微调数据集和下游场景中验证了其有效性。
源代码:这里
