MatMul：一种革命性的语言模型方法

一种革命性的语言模型方法，完全消除矩阵乘法 (MatMul)，同时又不损失性能

论文《可扩展的无 MatMul 语言建模》讨论了如何开发可扩展且高效的语言模型，从而避免矩阵乘法(MatMul) 运算。

在这项工作中，我们表明 MatMul 操作可以完全从 LLM 中消除，同时在十亿参数规模下保持强劲性能。

无 MatMul 模型：

提出的无 MatMul 模型实现了与最先进的 Transformers 相当的性能，后者在推理期间需要更多的内存，规模至少达到 2.7B 参数。
无 MatMul 模型与全精度 Transformer之间的性能差距，发现随着模型尺寸的增加，差距会缩小。

还提供了此模型的 GPU 高效实现：

与未优化的基线相比，训练期间的内存使用量最多可减少 61%。
通过在推理过程中使用优化的内核，与未优化的模型相比，我们的模型的内存消耗可减少 10 倍以上。

为了正确量化这个架构的效率，在 FPGA 上构建了一个自定义硬件解决方案，该解决方案利用了 GPU 无法处理的轻量级操作。

以 13W 的功耗处理了十亿参数规模的模型，超出了人类可读的吞吐量，使 LLM 更接近类似大脑的效率。

网友：
1、新的硬件部件和疯狂的优化数字听起来很可疑，但...如果这是真的，那就太疯狂了。英伟达也许应该开始紧张了？

2、Transformer 非常简单。对于推理，你基本上需要快速内存。这就是 Groq 所做的。但除此之外，它们的计算成本并不特别高或复杂。
英伟达的问题在于他们的晶圆厂产能有限。而现在每个人都想通过训练更大的模型来巩固自己的优势。因此，他们制造了性能极佳（且价格昂贵）的训练芯片，这些芯片还可以进行推理。

3、算法的积极发展以及突破性进展是理所当然的。为什么我们应该相信 Transformer 模型是 LLM 进化的最后阶段？

4、如果你读过这篇论文，你会发现他们从 bitnet 和其他一些来源中汲取了灵感。他们的主要成就是无需矩阵乘法的注意力机制。Bitnet 仍然使用需要矩阵乘法的常规注意力机制。

5、它们需要更长的时间才能收敛，因此训练成本更高，任何进行预训练的人主要关心的是这一点。

MatMul：一种革命性的语言模型方法

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道