MatMul:一种革命性的语言模型方法


一种革命性的语言模型方法,完全消除矩阵乘法 (MatMul),同时又不损失性能

论文《可扩展的无 MatMul 语言建模》讨论了如何开发可扩展且高效的语言模型,从而避免矩阵乘法(MatMul) 运算。

  • 在这项工作中,我们表明 MatMul 操作可以完全从 LLM 中消除,同时在十亿参数规模下保持强劲性能。

无 MatMul 模型:

  • 提出的无 MatMul 模型实现了与最先进的 Transformers 相当的性能,后者在推理期间需要更多的内存,规模至少达到 2.7B 参数。
  • 无 MatMul 模型与全精度 Transformer之间的性能差距,发现随着模型尺寸的增加,差距会缩小。

还提供了此模型的 GPU 高效实现:

  • 与未优化的基线相比,训练期间的内存使用量最多可减少 61%。
  • 通过在推理过程中使用优化的内核,与未优化的模型相比,我们的模型的内存消耗可减少 10 倍以上。

为了正确量化这个架构的效率,在 FPGA 上构建了一个自定义硬件解决方案,该解决方案利用了 GPU 无法处理的轻量级操作。

  • 以 13W 的功耗处理了十亿参数规模的模型,超出了人类可读的吞吐量,使 LLM 更接近类似大脑的效率

网友:
1、新的硬件部件和疯狂的优化数字听起来很可疑,但...如果这是真的,那就太疯狂了。英伟达也许应该开始紧张了?

2、Transformer 非常简单。对于推理,你基本上需要快速内存。这就是 Groq 所做的。但除此之外,它们的计算成本并不特别高或复杂。
英伟达的问题在于他们的晶圆厂产能有限。而现在每个人都想通过训练更大的模型来巩固自己的优势。因此,他们制造了性能极佳(且价格昂贵)的训练芯片,这些芯片还可以进行推理。

3、算法的积极发展以及突破性进展是理所当然的。为什么我们应该相信 Transformer 模型是 LLM 进化的最后阶段?

4、如果你读过这篇论文,你会发现他们从 bitnet 和其他一些来源中汲取了灵感。他们的主要成就是无需矩阵乘法的注意力机制。Bitnet 仍然使用需要矩阵乘法的常规注意力机制。

5、它们需要更长的时间才能收敛,因此训练成本更高,任何进行预训练的人主要关心的是这一点。