微软发布了全新的 2B bitnet模型
BitNet b1.58 2B4T是微软研究院开发的第一个开源、纯1比特大语言模型(LLM),规模达到20亿参数。
它用4万亿个token训练而成,证明了纯1比特的大语言模型性能可以媲美同尺寸的主流开源全精度模型,同时在计算效率(内存占用、能耗、响应速度)上具有巨大优势。
HuggingFace (safetensors) BF16 (not published yet)
网友:
1、不错,我们一直缺少在更大的文本语料库上训练的比特网模型。
顺便说一句,我见过的最低相干位数模型是1.4bpw,turboderp制作了一个Mistral Large 2 quant,适合24GB的VRAM(20.8 GiB是模型文件的大小)。ExllamaV3将是一个游戏改变者。
2、我祈祷有一天deepseek能找到一种方法来训练一个只有1.58b的模型:(
https://www.reddit.com/r/LocalLLaMA/comments/1ibbloy/158bit_deepseek_r1_131gb_dynamic_gguf/
3、fp16b lora可以微调吗?它可能是低资源微调的游戏规则改变者
4、真希望他们能在未来的phi模型中集成它
5、看看他们的demo。它的表现不像正常的2b模型,更像1b模型。
6、计算效率缩放将战胜理论上的最优解决方案(不像密集模型那样考虑效率)(Scalable>标度律Scaling Laws)
大模型规模扩大的数学规律称为 “标度律”,其本质是 幂律依赖关系,与分形几何、统计力学中的标度理论同属一类范式。这一规律指导了AI领域对“模型规模-性能-算力”的量化权衡(如Chinchilla定律)。
计算效率缩放被认为是一种可伸缩Scalable架构,更好于标度法则,动态节能。