随着大模型兴起,计算机视觉会消失吗?


计算机视觉领域取得了令人难以置信的进步,但一些人认为有迹象表明它正在停滞不前。在 2023 年计算机视觉国际会议研讨会“Quo Vadis,计算机视觉?”上,研究人员讨论了计算机视觉的下一步发展。

在这篇文章中,我们为您带来了在巴黎 ICCV23 期间聚集的计算机视觉领域一些最优秀人才的主要收获。

随着大型生成模型的出现,计算机视觉已经到了一个关键时刻。这一发展具有双重影响。一方面,它正在开辟新的研究途径,并吸引渴望利用这些创新的学者和企业。然而,快速的进步也给计算机视觉研究人员带来了下一步关注点的不确定性。

许多人感到矛盾,想知道与更成熟的计算机视觉问题相比,他们是否可以匹配生成模型的进展。

在接下来的章节中,我们将重点介绍计算机视觉应如何适应和利用生成模型,同时仍然应对视频和具体感知等领域的核心挑战。人们一致认为,深思熟虑地结合计算机视觉和生成模型的优势是关键,而不是将它们视为竞争方法。

计算机视觉现有问题

  1. 他们没有告诉我们视觉是如何运作的:简而言之,比尔·弗里曼认为基础模型能够解决视觉任务,但尽管取得了这一成就,但没有人能够解释视觉如何工作(即它们仍然是一个黑匣子)。
  2. 它们不是根本性的(因此不稳定):弗里曼教授暗示基础模型只是一种趋势。
  3. 将学术界与工业界分开:最后,弗里曼教授认为,基础模型在学术界(即创意团队但没有资源)与工业界(即缺乏想象力的团队但组织良好的资源)之间建立了界限。

数据胜于算法
伯克利大学教授Alexei (Alyosha) Efros分享了实现真正人工智能的两个要素:

  • 关注数据而非算法:GigaGAN [1] 表明,大型数据集使GAN 等旧架构能够扩展。
  • 自下而上的涌现:数据本身大多是噪音,关键是正确的(高质量)数据。

视频比文字更能描述世界
伯克利大学教授Jitendra Malik提出了一个大胆的观点,他认为视频是描述世界的更有效(也许是有效)的方式。

他的观点得到了论证,即任何书籍(参见图 4 中的一些示例)都可以使用视频(帧)比文本(标记)以更紧凑的方式表示:使用视频可以比使用文本更有效地传达相同的信息。

马利克教授相信,视频将有助于在未来几年内让计算机视觉再次崭露头角。

以数据为中心之后,用户将是核心
普林斯顿大学教授奥尔加·鲁萨科夫斯基 ( Olga Russakovsky ) 对以数据为中心的机器学习方法之后的下一步发展提出了令人着迷的见解。

回归基础
最后,麻省理工学院的教授Antonio Torralba发表了一场轻松的演讲,他坦率地分享了自己的观点,即为什么好奇心比表现更重要,尤其是在当今大模型驱动的世界中。

Torralba 教授认为,计算机视觉领域已经处于这样一种境地:(大多数)局外人自信地认为该领域已经停滞不前,但时间证明,有人通过专注于基础知识而不是随波逐流,提出了一些聪明的想法。

计算机视觉已经死了吗?
ICCV23 研讨会明确表示,计算机视觉并没有消亡,而是正在不断发展。正如权威专家所说,有希望的方向在于视觉和语言模型之间的相互作用。

虽然进步可能需要整合视觉和语言的优势,但关键的计算机视觉挑战仍然存在于纹理感知或周边视觉等领域,其中如何丢弃信息的问题仍然是一个挑战。随着新研究人员的涌入和行业兴趣的涌入,该领域已准备好解决其中一些问题。