AGI来了?特拉斯用大模型帮助自动驾驶


Grok-1.5V能将“像素->动作”映射提升为“像素->语言->动作”。

Tesla FSD v13可能会是Grokking语言令牌。Grok-1.5V最让人兴奋的是解决自动驾驶中边缘情况的潜力。使用语言进行“思维链”将有助于汽车分解复杂的场景,用规则和反事实进行推理,并解释其决定。

网友讨论:
1、这听起来像是通往AGI的最可行的道路。具有显式语言推理的多模态模型一致地推断出世界模型。

2、特斯拉视觉系统基于虚拟视频训练,它从记录和神经网络训练中编译,基于视频到标记数据的实时转换。语言从何而来?

3、我真的不明白这是怎么回事。Grok是X,FSD是Tesla。我知道马斯克拥有这两个部门,但这是如何发生的,他们不能只是合并人工智能部门。

4、我不知道你说的思想链是什么意思。不同的国家和地区在每个驾驶决策背后都有不同的逻辑。 你如何产生正确的推理?

5、你能通过语言标记获得时间敏感的驾驶决策所需的响应时间吗?

6、Grok还应该接受人类驾驶员的输入(设置),这些驾驶员对汽车操控的偏好有很大的不同。复杂的设置,如直线加速有多快,转弯有多快,离路缘有多近等。

7、有趣的想法,但是你认为在像素和动作之间引入语言层会导致延迟吗?

8、自动驾驶系统很快就能让用户与它交谈吗?它将允许人类帮助处理具有挑战性的边缘情况。(人类说“这看起来像是一个死胡同,我认为我们需要做一个3点转弯”)

9、特斯拉汽车内的芯片有多强大?他们能处理好吗?我认为之前的30万行C代码堆栈更容易,但现在越来越大的神经网络可以在真实的时间内快速执行推理吗?

10、假设FSD需要三个关键组成部分:感知、规划和控制,而Grok是实现这一目标的途径,这是否意味着我们解决了一个具有挑战性的物理世界问题,或者我们将进入AGI时代?

11、他们一直在使用一个LLM训练的“车道语言”的车道预测-可以说是最困难的问题之一。他们说,这个问题是棘手的。特斯拉发明了一种用于车道预测的“车道语言”。