AGI来了？特拉斯用大模型帮助自动驾驶

Grok-1.5V能将“像素->动作”映射提升为“像素->语言->动作”。

Tesla FSD v13可能会是Grokking语言令牌。Grok-1.5V最让人兴奋的是解决自动驾驶中边缘情况的潜力。使用语言进行“思维链”将有助于汽车分解复杂的场景，用规则和反事实进行推理，并解释其决定。

网友讨论：
1、这听起来像是通往AGI的最可行的道路。具有显式语言推理的多模态模型一致地推断出世界模型。

2、特斯拉视觉系统基于虚拟视频训练，它从记录和神经网络训练中编译，基于视频到标记数据的实时转换。语言从何而来？

3、我真的不明白这是怎么回事。Grok是X，FSD是Tesla。我知道马斯克拥有这两个部门，但这是如何发生的，他们不能只是合并人工智能部门。

4、我不知道你说的思想链是什么意思。不同的国家和地区在每个驾驶决策背后都有不同的逻辑。你如何产生正确的推理？

5、你能通过语言标记获得时间敏感的驾驶决策所需的响应时间吗？

6、Grok还应该接受人类驾驶员的输入（设置），这些驾驶员对汽车操控的偏好有很大的不同。复杂的设置，如直线加速有多快，转弯有多快，离路缘有多近等。

7、有趣的想法，但是你认为在像素和动作之间引入语言层会导致延迟吗？

8、自动驾驶系统很快就能让用户与它交谈吗？它将允许人类帮助处理具有挑战性的边缘情况。(人类说“这看起来像是一个死胡同，我认为我们需要做一个3点转弯”）

9、特斯拉汽车内的芯片有多强大？他们能处理好吗？我认为之前的30万行C代码堆栈更容易，但现在越来越大的神经网络可以在真实的时间内快速执行推理吗？

10、假设FSD需要三个关键组成部分：感知、规划和控制，而Grok是实现这一目标的途径，这是否意味着我们解决了一个具有挑战性的物理世界问题，或者我们将进入AGI时代？

11、他们一直在使用一个LLM训练的“车道语言”的车道预测-可以说是最困难的问题之一。他们说，这个问题是棘手的。特斯拉发明了一种用于车道预测的“车道语言”。