DeepMind Veo3世界模型要取代所有视觉AI

DeepMind提出视频大模型Veo 3有望成为视觉领域的通用基础模型,具备零样本处理、物理模拟与视觉推理能力,或引发AI视觉范式革命。


谷歌DeepMind刚刚放出重磅观点:未来处理图像和视频也会有了自己的通用大模型,可能会像今天的大语言模型(LLM)一样,成为视觉领域的“万能钥匙”!
这个观点是基于他们最新发布的视频生成模型Veo 3的实际表现得出的结论。

DeepMind核心就一句话:视频模型将成为视觉任务的“基础模型”(foundation model),就像大语言模型之于文本任务一样。
什么意思?打个比方,现在你用ChatGPT,不管是写邮件、翻译、写代码还是分析数据,它都能干,不需要为每个任务单独训练一个模型。
而过去在计算机视觉领域,你要做图像分割就得用SAM,要做超分辨率就得用ESRGAN,要做目标检测又得换另一个模型——每个任务都得“量身定制”,效率低、成本高、维护难。

DeepMind认为,这个局面即将改变。他们推出的Veo 3,虽然名义上是个“视频生成模型”,但实际上已经展现出惊人的通用视觉能力。
你只需要给它一张图片,再配上一段文字指令(prompt),它就能生成一段8秒、720p、24帧的视频,而且在这个过程中,它能完成大量传统上需要专用模型才能处理的任务——而且完全不需要重新训练或微调

这太关键了!传统AI模型一旦训练完成,功能就固定了。想让它干点新活?得收集新数据、重新标注、再训练,费时费力。
但Veo 3走的是“提示驱动”路线——就像你跟人类说话一样,告诉它“把这张图里的狗去掉”“把背景换成绿色”“模拟水中的倒影”,它就能照做。
这种灵活性,正是LLM之所以强大的核心逻辑。

更让人惊讶的是,Veo 3在“零样本”(zero-shot)条件下,已经能搞定一大堆视觉任务。比如边缘检测、图像分割、超分辨率这些基础感知任务,它都能做。甚至面对像“达尔马提亚犬错觉图”(Dalmatian illusion)——就是那种乍看一团黑点,仔细看才发现是只狗的图——或者“罗夏墨迹测验”(Rorschach spots)这种高度依赖上下文理解的视觉谜题,Veo 3也能给出合理响应。

更厉害的是,它居然展现出初步的“物理常识”!研究人员测试发现,Veo 3能模拟浮力、空气阻力、镜面反射、颜色混合等物理现象。比如在一个类似“叠叠乐”(Jenga)的场景中,让它移除某个积木,它会按照物理上合理的顺序来操作,而不是随便乱抽——这说明它对物体间的力学关系有某种隐式的理解。

不仅如此,Veo 3还能做图像编辑:换背景、改颜色、切换视角、生成新视角……很多情况下,它保留的细节和纹理甚至比专业图像编辑工具还自然。当然,它也有短板,比如有时候会“过度发挥”,把静态图变成不必要的动画,这点还需要优化。

但最震撼的,是它的“视觉推理”能力:DeepMind团队发现,Veo 3能解迷宫、识别对称图形、给数字排序、推断规则,甚至能完成简单的数独!他们把这种能力称为“帧链推理”(chain-of-frames),类比语言模型里的“思维链”(chain-of-thought)。也就是说,它不是简单地“看图说话”,而是在多个生成的视频帧之间建立逻辑关联,一步步推理出答案。

不过,研究人员也坦诚:Veo 3现在还是个“黑箱”。他们不确定这些能力到底是模型自己学来的,还是背后调用了其他AI。比如在数独任务中,系统会先用一个大语言模型(比如Gemini 2.5 Pro)重写提示,再交给Veo 3执行。他们怀疑,有时候其实是LLM在解题,而不是视频模型。但经过严格测试,他们发现对于真正的视觉任务——比如机器人导航、迷宫求解、对称检测——单靠Gemini看图是解不出来的,必须依赖Veo 3的视觉生成与推理能力。这说明,Veo 3内部很可能正在涌现出一种全新的、基于时空连续性的视觉智能。

当然,Veo 3目前还没完全超越顶尖的专用模型。比如Meta的SAMv2在图像分割上依然更强。但进步速度惊人——仅仅半年,Veo 3就大幅超越了前代Veo 2。在某些不规则迷宫任务上,它甚至已经领先于专门设计的模型“Nano Banana”。DeepMind相信,只要引入指令微调(instruction tuning)和人类反馈强化学习(RLHF)——就像当年提升GPT系列的方法——Veo 3还能飞速进化。

更宏大的愿景是,这类视频模型可能成为“世界模型”(world models)!DeepMind CEO德米斯·哈萨比斯(Demis Hassabis)早就预言,未来的AI需要能在模拟环境中学习和试错。而他们的另一款模型Genie 3,已经能实时生成可交互的虚拟环境,供AI智能体训练。

Veo 3正是这条技术路线的关键一环——它不仅能“看”世界,还能“想象”世界如何演化。

不过,并非所有人都买账。Meta首席AI科学家杨立昆(Yann LeCun)就公开批评,认为像Sora、Veo这类“生成式世界模型”是条死胡同。他主张走“预测式架构”路线,比如他们自家的V-JEPA 2模型,强调通过预测未来状态来学习物理规律和控制策略,更适合机器人等真实场景。

但无论如何,DeepMind的实验已经证明:一个统一的视频大模型,确实有可能整合过去碎片化的视觉AI生态。未来,我们或许不再需要下载十几个图像处理APP,只要对着一个“视觉大模型”说话,它就能完成从识别、编辑到推理的全套操作。

这不仅是技术的跃迁,更是AI范式的转变——从“专用工具”走向“通用智能体”。就像GPT-3开启了大模型时代,Veo 3或许正站在视觉AI的“GPT-3时刻”门口,迈向具身智能的第一步。