Meissonic:基于Transformer的阿里新型开源图像模型
一种名为 Meissonic 的新型开源 AI 模型仅使用十亿个参数即可生成高质量图像。这种紧凑的尺寸可以实现本地文本转图像应用程序,尤其是在移动设备上。
阿里巴巴集团、Skywork AI 和多所大学的研究人员利用独特的 Transformer 架构和新颖的训练技术开发了 Meissonic。该模型可在普通游戏 PC 上运行,最终可在手机上运行。
Meissonic 使用蒙版图像建模,即在训练过程中隐藏图像的某些部分。该模型会学习根据可见区域和文本描述重建缺失部分。这有助于它理解图像元素和文本之间的关系。
该模型的架构使其能够生成 1024 x 1024 像素的高分辨率图像:逼真的场景以及风格化的文本、模因或卡通贴纸,就像更大的模型一样。
与按顺序生成图像的典型自回归模型不同,Meissonic 通过并行迭代细化同时预测所有图像标记。研究人员表示,这种非自回归方法可将解码步骤减少约 99%,从而显著加快图像创建速度。
Meissonic 结合了多模态和单模态变换器层。多模态层捕获文本与图像的交互,而单模态层则细化视觉表示。研究人员发现,这些层类型之间的比例为 1:2 时效果最佳。
研究人员使用四步流程训练 Meissonic。首先,他们使用 2 亿张 256 x 256 像素分辨率的图像向模型传授基本概念。接下来,他们使用 1000 万张经过精心筛选的 512 x 512 分辨率图像文本对来提高其文本理解能力。
第三步,他们添加了特殊的压缩层,以实现 1024 x 1024 像素输出。最后,他们使用低学习率对模型进行微调,并结合人类偏好数据来改进其性能。
Meissonic 的表现可以超越更大的模型
尽管规模较小,Meissonic 在包括 Human Preference Score v2 在内的基准测试中表现优于 SDXL 和 DeepFloyd-XL 等大型模型。它在 HPSv2 上的得分为 28.83,高于其他模型。
该模型在具有 8GB VRAM 的消费级 GPU 上运行:
- Hugging Face 上提供了演示,
- GitHub上提供了代码。
概括
- 来自阿里巴巴、Skywork AI 和大学的研究人员开发了 Meissonic,这是一个开源模型,可以高效生成和处理高分辨率图像,并且足够紧凑,可以在普通游戏 PC 上运行,并且未来的手机也可以运行。
- Meissonic 采用非自回归、掩蔽图像建模方法,具有多模态和单模态变换层。与传统的自回归方法相比,这种方法显著加快了图像合成速度。
- 在基准测试中,尽管 Meissonic 的参数规模只有 10 亿个,但它的表现却优于其他领先的文本转图像模型。