VAR：自回归建模与缩放的视觉大模型

视觉自回归建模VAR：一种新的可视化生成方法将 GPT 式模型提升到了超越扩散模型。

视觉自回归建模（VAR）是一种新一代范式，它将图像上的自回归学习重新定义为从粗到细的 "下一尺度预测 "或 "下一分辨率预测"，有别于标准的栅格扫描 "下一标记预测"。

VAR 已经初步模拟了 LLM 的两个重要特性：缩放定律和零点任务泛化。我们已经发布了所有模型和代码，以促进对视觉生成和统一学习的 AR/VAR 模型的探索。

GPT 式自回归模型首次超越扩散模型：VAR 在图像质量、推理速度、数据效率和可扩展性等多个方面都优于扩散变换器（DiT）
发现 VAR transformers中的幂律缩放定律，VAR 模型的扩展表现出明显的幂律扩展规律，类似于在 LLM 中观察到的幂律扩展规律，线性相关系数接近 -0.998，这就是确凿的证据。
零样本泛化能力：VAR 在下游任务（包括图像内绘、外绘和编辑）中进一步展示了零点泛化能力。

这些结果表明，VAR 已经初步模拟了 LLM 的两个重要特性：缩放定律和零点任务泛化。

提供一个演示网站供您使用 VAR 模型并交互式生成图像。享受视觉自回归建模的乐趣！