评AI教母李飞飞对计算机视觉的看法

#AI人工智能指南 #虚拟现实VR #计算机视觉 #限定上下文BC

2024-12-13 1 3K banq

以下摘录IEEE的文章，原文点击标题：

1、为什么您的演讲题目是“攀登视觉智能的阶梯”？
李飞飞：我认为，直觉告诉我们，智能具有不同的复杂度和精密度。

在演讲中，我想传达这样一种感觉：

在过去的几十年里，尤其是过去十多年的深度学习革命中，我们在视觉智能方面所取得的成就令人惊叹。
我们越来越擅长使用这项技术。我还受到了 Judea Pearl 的“因果关系阶梯”的启发（收录于他 2020 年出版的《为什么之书》一书中）。

演讲还有一个副标题，"从看到做"。
人们对这一点还不够了解：无论是动物还是人工智能代理，"看 "都与互动和 "做 "密切相关。 这与语言是不同的。
语言从根本上说是一种交流工具，用来传递思想（banq注：这个观点存疑，语言不只是传递思想，而是产生思想）。
在我看来，这些都是非常互补但同样深刻的智力模式。

2、您的意思是我们会本能地对某些景象做出反应？（banq注：对视觉的反应是一种本能，这个定义已经变成西方人常识共识，因此提出这个问题）
李：我不仅仅谈论本能。（banq注：李教母试图颠覆这一常识，否定哲学上共识，这需要多大勇气和科学无畏精神？）

如果你观察感知的进化和动物智力的进化，就会发现它们紧密交织在一起。（此处没有论文引用）

每当我们能够从环境中获取更多信息时，进化的力量就会推动能力和智力向前发展。
如果你不感知环境，你与世界的关系就会非常被动；无论你是吃东西还是被吃掉，都是非常被动的行为。
但一旦你能够通过感知从环境中获取线索，进化压力就会真正增强，从而推动智力向前发展。

（这三句好像还是从进化谈动物本能，对环境的反应）

3、你认为这就是我们创造越来越深层次的机器智能的方式吗？通过让机器更多地感知环境？
李：我不知道“深”是不是我会使用的形容词。

我认为我们正在创造更多的能力。我认为它正变得更加复杂，更加强大。
我认为解决空间智能问题是迈向全面智能的根本和关键的一步，这是绝对正确的。（向资本保证，这是绝对正确的投资）

4、我看过世界实验室的演示。你为什么想研究空间智能并构建这些 3D 世界？
李飞飞：我认为空间智能是视觉智能的发展方向。

如果我们认真对待解决视觉问题并将其与行动联系起来，那么有一个非常简单、显而易见的事实：世界是三维的。

我们不是生活在一个平面的世界里。我们的物理代理，无论是机器人还是设备，都将生活在三维世界中。
即使是虚拟世界也变得越来越三维。如果你和艺术家、游戏开发者、设计师、建筑师、医生交谈，即使他们在虚拟世界中工作，其中很多都是三维的。
如果你花一点时间认识到这个简单而深刻的事实，毫无疑问，解决三维智能问题是根本性的。
（物理认为四维的，还有时间一维，如果能从物理学来说明，西方人更觉得有说服力，因为他们只认同数学和物理两个角度：2024年诺贝尔物理奖获得颁给两位与物理学有关的AI专家。）

5、很好奇世界实验室的场景如何保持物体的永久性并遵守物理定律。这感觉像是一个令人兴奋的进步，因为像 Sora这样的视频生成工具仍然在处理这些事情。
李飞飞：一旦你尊重世界的三维性，很多事情就变得自然了。

例如，在我们发布到社交媒体上的一个视频中，篮球被扔进了一个场景中。因为它是三维的，所以它让你拥有这种能力。如果场景只是二维生成的像素，篮球就哪儿也去不了。

6、或者，就像在 Sora 中一样，它可能会去某个地方，然后消失。在尝试推动这项技术发展时，您面临的最大技术挑战是什么？
李：还没有人解决这个问题，对吧？这非常非常困难。

你可以在 World Labs 的演示视频中看到，我们以一幅梵高画作为基础，以一致的风格生成了整个场景：艺术风格、灯光，甚至街区的建筑类型。如果你转身，它就变成了摩天大楼，那就完全无法令人信服了，对吧？而且它必须是 3D 的。你必须在其中导航。所以它不仅仅是像素。

7、假设我们能够让人工智能系统真正理解三维世界，这会给我们带来什么呢？
李：它将释放出大量创造力和生产力。我希望以更高效的方式设计我的房子。

我知道许多医疗用途都涉及了解一个非常特殊的 3D 世界，即人体。我们总是谈论未来人类将创造机器人来帮助我们，但机器人在 3D 世界中导航，它们需要空间智能作为大脑的一部分。

我们还谈论虚拟世界，它允许人们参观地方、学习概念或获得娱乐。这些都使用 3D 技术，尤其是混合技术，我们称之为 AR [增强现实]。我很想戴着一副眼镜穿过国家公园，它可以让我了解树木、道路和云朵。

我也希望借助空间智能学习不同的技能。

我举个蹩脚的例子：
如果我在高速公路上爆胎了，我该怎么办？

现在，我打开一个“如何换轮胎”的视频。
但如果我能戴上眼镜，看看我的车发生了什么，然后得到指导，那就太酷了。

但这是一个蹩脚的例子。你可以考虑烹饪，你可以考虑雕刻——有趣的事情。

黑客新闻网友评论：
1、蹩脚的例子中 "戴上眼镜 "很奇怪，最好我口袋里有一部装有高分辨率摄像头的手机，如果能让它通过图像识别出我应该寻找的部件，并突出显示我下一步要拆卸的螺栓（如果我看错了，最好能提示并显示一个箭头），那就足够了。

尽管如此，我甚至不认为这才是关键的使用情况：关键的使用情况是让这些 YouTuber 在视频的右边部分加上图片标签，因为一半的好处是看到一个做过的人展示他们是如何做的，以及他们是如何移动和放置零件的（这通常可以避免一些 "购买制造商维修工具 3 和 19 以解开中间部分 81 "的情况）。

2、自从谷歌眼镜的第一个原型问世以来，我就一直在赞美轻型便携式人工智能在教育（和娱乐）方面的可能性。

想象一下，低头看面包板时，它能叠加解释、图表、实时电流等。
想象一下，把一个魔术放在你面前，然后放慢速度，让你清楚地看到变戏法。

任何不了解 AR 潜力的人都是缺乏远见的。 (无意双关）

3、我认为她显然是对的，汽车之所以会犯人类绝不会犯的愚蠢错误，是因为汽车接受的训练是对二维图像进行分类（并据此采取行动），而人类则有一个三维世界模型，了解什么是可能的，什么是不可能的，并接受训练将二维图像映射到三维空间。世界是三维的，所以后一种方法显然更有效。

banq注：将三维图像也像文字那样，实现上下文化，如同导航一样，导航地图能自动定位你的二维位置，而新的图像识别能自动感知你的三维位置，定位你在三维中上下文情况，设定三维的上下文，李教母的工作试图在这方面开辟一条新的道路。

但是“上下文”环境是否只存在语言中？因为我们用语言产生思想，“上下文”这个思想可能只是产生于语言这个环境中，如何在三维物理世界寻找那个真的“上下文”环境，可能就不存在，因为“上下文”这个概念就是主观与客观结合，离开主观，就没有上下文概念。