OpenAI Sora真的有自己的物理模型吗？

关于 OpenAI 的视频生成模型 Sora 是否具有 "物理引擎"（OAI 自己声称具有 "世界模拟 "功能），有很多猜测。就像关于 LLM 中世界模型的争论一样，这个问题既非常有趣，又有些定义不清。

当然，Sora 在推理过程中向 UE5 等外部物理引擎调用函数的可能性很小。请注意，LLM 以前也有过这种情况，谷歌的一篇论文：其中模型通过模拟物理引擎来回答问题。

但这并不是大多数人的猜测。相反，人们的想法是，Sora 在训练过程中会获得一个内部物理模型，并利用这个内部模型生成时间和空间上连贯的视频。

什么是内部物理模型？
这通常取决于如何解释。

大概没有人认为Sora 是从模拟牛顿运动定律、能量守恒定律或热力学入手，进而生成了有点连贯的一分钟长的 2D 视频。

如果存在一个内部物理模型，其假设是存在一种直观物理学模型，可以利用近似和概率模拟，对自然场景中的实体及其动态进行快速灵活的推断。

但 Sora 并不是通过模拟大量可能的场景来生成视频的。例如，为了制作水杯倒下的的视频，肯定不会对玻璃杯和桌子之间的碰撞进行 100 次内部模拟。这里实际上不存在传统意义上的 "直观物理引擎"。

当然，人类和动物是否具有这种强大意义上的物理模型还有待商榷。因为人类从小就能理解和预测物体的物理特性及其相互作用。

图像扩散模型
Sora 技术报告的细节不多，但我们知道它是一个扩散模型，以 ViT 为骨干，将帧补丁作为令牌处理。这种架构的表现力可能足以让复杂的内部结构随着规模的扩大和训练数据的多样化而涌现出来。

如果我们看一下更简单的图像扩散模型，就会知道线性探针可以从内部激活中解码有关场景几何、支撑关系、光照、阴影和深度的信息。

线性探针可以解码二进制突出物体/背景区分和连续深度维度，这在生成过程的早期就已出现。对内部深度表征的干预会对最终图像的深度产生因果影响！

当然，图像扩散模型也无法捕捉到自然图像结构的某些方面。例如，它们无法捕捉正确的投影几何。

视频生成模型
目前我们还缺乏此类研究。我们需要进行干预性研究，尝试解码和操纵这些模型中直观物理特性的内部表征，从而得出更可靠的结论。

鉴于早期关于图像差异模型和 ViT 的研究结果，如果Sora的这种机理研究能够找出我们在仅限于二维样本的（不完善的）直观物理模型中预期的因果效应变量代表，我也不会感到惊讶。

遗憾的是，在开源模式赶上 Sora 之前，这种情况不太可能发生，而这可能需要数年时间。

底线是，我们需要超越行为证据来解决这类争论，我们需要更具体地说明 "世界模拟 "的含义，而不是拗口的词汇。这是在 ML、cogsci 和哲学之间进行研究的沃土