微软bitnet:可在CPU上运行的超高效AI

微软研究人员表示,他们已经开发出一种可在 CPU 上运行的超高效 AI 模型

微软的研究人员说,他们造出了目前为止最大的“1比特”人工智能模型,这个模型也叫“bitnet”。

这个模型叫 BitNet b1.58 2B4T,它是免费公开给大家用的(用的是MIT许可证),而且能在像苹果M2这样的电脑“大脑”(CPU)上跑。

位网络(bitnets)呢,其实就是一种“压缩”过的人工智能模型,专门设计出来让那些不是很厉害的电脑或者设备也能用。

在普通的人工智能模型里,那些决定模型怎么“思考”怎么工作的“权重”(你可以理解成模型里的一些重要数值)通常会被“量化”一下,也就是把它们变得更精简,这样模型就能在各种不同的电脑上都跑得不错。

把这些“权重”量化,就像是把它们“打包压缩”一下,这样电脑表示这些数值需要的“位数”(电脑处理信息的最小单位,就像组成数字的0和1)就变少了,所以模型就能在内存(像电脑的记性)没那么多的芯片上跑得更快。

而 Bitnets 这种模型更厉害,它把那些“权重”只压缩成了三种简单的数值:-1、0 和 1。

从理论上说,这样一来,它们比现在大多数人工智能模型都更省内存,也更快(计算效率更高)。

微软的研究人员说,BitNet b1.58 2B4T 是第一个拥有 20 亿个“参数”的 bitnet 模型,“参数”在这里跟前面说的“权重”差不多是一个意思。

研究人员说,BitNet b1.58 2B4T 是用海量的数据训练出来的,这些数据有 4 万亿个“标记”(“标记”你可以理解成文字单位,估计相当于大约 3300 万本书那么多),他们说这个模型比差不多大小的普通模型表现要好。

话说回来,BitNet b1.58 2B4T 也不是说就彻底打败了所有跟它一样有 20 亿个参数的竞争对手模型,但它好像有自己特别厉害的地方。

根据研究人员的测试,在一些像考试一样的“基准测试”里,包括像“GSM8K”(一套小学数学题)和“PIQA”(这是测试对物理世界的常识推理能力的)这样的测试中,这个模型表现得比 Meta 公司出的 Llama 3.2 1B、谷歌出的 Gemma 3 1B 和阿里巴巴出的 Qwen 2.5 1.5B 这些模型都要好。

可能更让人觉得厉害的是,BitNet b1.58 2B4T 比其他差不多大的模型跑得更快——有时候能快一倍!——而且它用的内存(电脑记性)只有其他模型的一点点。

但是呢,这里面有一个“但是”(一个问题)。

要让它跑出这么好的性能,需要用微软自己做的一个叫 bitnet.cpp 的“框架”(你可以理解成一个特殊的工具),但是现在这个工具只能在特定的电脑硬件上用。

像 GPU 这种用来跑人工智能特别厉害的芯片,现在还没在这个支持列表里,而现在大部分用来跑人工智能的设备用的都是 GPU。

总的来说,位网络(bitnet)可能非常有前途,特别是对于那些配置没那么高、资源没那么多的设备来说。

但现在它能不能在各种设备上都能用(兼容性),还是一个挺大的问题,而且以后可能还是这样。