VAR:自回归建模与缩放的视觉大模型


视觉自回归建模VAR:一种新的可视化生成方法将 GPT 式模型提升到了超越扩散模型。

视觉自回归建模(VAR)是一种新一代范式,它将图像上的自回归学习重新定义为从粗到细的 "下一尺度预测 "或 "下一分辨率预测",有别于标准的栅格扫描 "下一标记预测"。

VAR 已经初步模拟了 LLM 的两个重要特性:缩放定律和零点任务泛化。我们已经发布了所有模型和代码,以促进对视觉生成和统一学习的 AR/VAR 模型的探索。

  • GPT 式自回归模型首次超越扩散模型:VAR 在图像质量、推理速度、数据效率和可扩展性等多个方面都优于扩散变换器(DiT)
  • 发现 VAR transformers中的幂律缩放定律,VAR 模型的扩展表现出明显的幂律扩展规律,类似于在 LLM 中观察到的幂律扩展规律,线性相关系数接近 -0.998,这就是确凿的证据。
  • 零样本泛化能力:VAR 在下游任务(包括图像内绘、外绘和编辑)中进一步展示了零点泛化能力。

这些结果表明,VAR 已经初步模拟了 LLM 的两个重要特性:缩放定律和零点任务泛化。

提供一个演示网站供您使用 VAR 模型并交互式生成图像。享受视觉自回归建模的乐趣!