评AI教母李飞飞对计算机视觉的看法


以下摘录IEEE的文章,原文点击标题:

1、为什么您的演讲题目是“攀登视觉智能的阶梯”?
李飞飞:我认为,直觉告诉我们,智能具有不同的复杂度和精密度。

在演讲中,我想传达这样一种感觉:

  • 在过去的几十年里,尤其是过去十多年的深度学习革命中,我们在视觉智能方面所取得的成就令人惊叹。
  • 我们越来越擅长使用这项技术。我还受到了 Judea Pearl 的“因果关系阶梯”的启发(收录于他 2020 年出版的《为什么之书》一书中)。

演讲还有一个副标题,"从看到做"。
人们对这一点还不够了解:无论是动物还是人工智能代理,"看 "都与互动和 "做 "密切相关。 这与语言是不同的
语言从根本上说是一种交流工具,用来传递思想(banq注:这个观点存疑,语言不只是传递思想,而是产生思想)
在我看来,这些都是非常互补但同样深刻的智力模式。

2、您的意思是我们会本能地对某些景象做出反应?(banq注:对视觉的反应是一种本能,这个定义已经变成西方人常识共识,因此提出这个问题)
李:我不仅仅谈论本能。(banq注:李教母试图颠覆这一常识,否定哲学上共识,这需要多大勇气和科学无畏精神?)

如果你观察感知的进化和动物智力的进化,就会发现它们紧密交织在一起。(此处没有论文引用)

  • 每当我们能够从环境中获取更多信息时,进化的力量就会推动能力和智力向前发展。
  • 如果你不感知环境,你与世界的关系就会非常被动;无论你是吃东西还是被吃掉,都是非常被动的行为。
  • 但一旦你能够通过感知从环境中获取线索,进化压力就会真正增强,从而推动智力向前发展。
(这三句好像还是从进化谈动物本能,对环境的反应)

3、你认为这就是我们创造越来越深层次的机器智能的方式吗?通过让机器更多地感知环境?
李:我不知道“深”是不是我会使用的形容词。

  • 我认为我们正在创造更多的能力。我认为它正变得更加复杂,更加强大。
  • 我认为解决空间智能问题是迈向全面智能的根本和关键的一步,这是绝对正确的。(向资本保证,这是绝对正确的投资)

4、我看过世界实验室的演示。你为什么想研究空间智能并构建这些 3D 世界?
李飞飞:我认为空间智能是视觉智能的发展方向。

如果我们认真对待解决视觉问题并将其与行动联系起来,那么有一个非常简单、显而易见的事实:世界是三维的。

我们不是生活在一个平面的世界里。我们的物理代理,无论是机器人还是设备,都将生活在三维世界中。
即使是虚拟世界也变得越来越三维。如果你和艺术家、游戏开发者、设计师、建筑师、医生交谈,即使他们在虚拟世界中工作,其中很多都是三维的。
如果你花一点时间认识到这个简单而深刻的事实,毫无疑问,解决三维智能问题是根本性的。
(物理认为四维的,还有时间一维,如果能从物理学来说明,西方人更觉得有说服力,因为他们只认同数学和物理两个角度:2024年诺贝尔物理奖获得颁给两位与物理学有关的AI专家。)

5、很好奇世界实验室的场景如何保持物体的永久性并遵守物理定律。这感觉像是一个令人兴奋的进步,因为像 Sora这样的视频生成工具仍然在处理这些事情。
李飞飞:一旦你尊重世界的三维性,很多事情就变得自然了。

例如,在我们发布到社交媒体上的一个视频中,篮球被扔进了一个场景中。因为它是三维的,所以它让你拥有这种能力。如果场景只是二维生成的像素,篮球就哪儿也去不了。

6、或者,就像在 Sora 中一样,它可能会去某个地方,然后消失。在尝试推动这项技术发展时,您面临的最大技术挑战是什么?
李:还没有人解决这个问题,对吧?这非常非常困难。

你可以在 World Labs 的演示视频中看到,我们以一幅梵高画作为基础,以一致的风格生成了整个场景:艺术风格、灯光,甚至街区的建筑类型。如果你转身,它就变成了摩天大楼,那就完全无法令人信服了,对吧?而且它必须是 3D 的。你必须在其中导航。所以它不仅仅是像素。

7、假设我们能够让人工智能系统真正理解三维世界,这会给我们带来什么呢?
李:它将释放出大量创造力和生产力。我希望以更高效的方式设计我的房子。

我知道许多医疗用途都涉及了解一个非常特殊的 3D 世界,即人体。我们总是谈论未来人类将创造机器人来帮助我们,但机器人在 3D 世界中导航,它们需要空间智能作为大脑的一部分。

我们还谈论虚拟世界,它允许人们参观地方、学习概念或获得娱乐。这些都使用 3D 技术,尤其是混合技术,我们称之为 AR [增强现实]。我很想戴着一副眼镜穿过国家公园,它可以让我了解树木、道路和云朵。

我也希望借助空间智能学习不同的技能。

我举个蹩脚的例子:
如果我在高速公路上爆胎了,我该怎么办?

  • 现在,我打开一个“如何换轮胎”的视频。
  • 但如果我能戴上眼镜,看看我的车发生了什么,然后得到指导,那就太酷了。

但这是一个蹩脚的例子。你可以考虑烹饪,你可以考虑雕刻——有趣的事情。

黑客新闻网友评论:
1、蹩脚的例子中 "戴上眼镜 "很奇怪,最好我口袋里有一部装有高分辨率摄像头的手机,如果能让它通过图像识别出我应该寻找的部件,并突出显示我下一步要拆卸的螺栓(如果我看错了,最好能提示并显示一个箭头),那就足够了。

尽管如此,我甚至不认为这才是关键的使用情况:关键的使用情况是让这些 YouTuber 在视频的右边部分加上图片标签,因为一半的好处是看到一个做过的人展示他们是如何做的,以及他们是如何移动和放置零件的(这通常可以避免一些 "购买制造商维修工具 3 和 19 以解开中间部分 81 "的情况)。


2、自从谷歌眼镜的第一个原型问世以来,我就一直在赞美轻型便携式人工智能在教育(和娱乐)方面的可能性。

  • 想象一下,低头看面包板时,它能叠加解释、图表、实时电流等。
  • 想象一下,把一个魔术放在你面前,然后放慢速度,让你清楚地看到变戏法。
任何不了解 AR 潜力的人都是缺乏远见的。 (无意双关)

3、我认为她显然是对的,汽车之所以会犯人类绝不会犯的愚蠢错误,是因为汽车接受的训练是对二维图像进行分类(并据此采取行动),而人类则有一个三维世界模型,了解什么是可能的,什么是不可能的,并接受训练将二维图像映射到三维空间。 世界是三维的,所以后一种方法显然更有效。

banq注:将三维图像也像文字那样,实现上下文化,如同导航一样,导航地图能自动定位你的二维位置,而新的图像识别能自动感知你的三维位置,定位你在三维中上下文情况,设定三维的上下文,李教母的工作试图在这方面开辟一条新的道路。

但是“上下文”环境是否只存在语言中?因为我们用语言产生思想,“上下文”这个思想可能只是产生于语言这个环境中,如何在三维物理世界寻找那个真的“上下文”环境,可能就不存在,因为“上下文”这个概念就是主观与客观结合,离开主观,就没有上下文概念。