Gemini Pro 1.5杀手级应用是视频

上周谷歌推出了 Gemini Pro 1.5，这是对其 Gemini 系列人工智能模型的巨大升级。

Gemini Pro 1.5 的上下文大小为 1,000,000 个标记。这是巨大的进步：之前该项记录是由 Claude 2.1（200,000 个标记）和 gpt-4-turbo（128,000 个标记）保持的。当然模型之间标记生成器实现的差异意味着这不是完全直接的比较。

我已经玩了 Gemini Pro 1.5 几天了，我认为最令人兴奋的功能并不是标记数……而是使用视频作为输入的能力。

我一直在通过Google AI Studio界面访问模型- 我还没有 API 访问权限。

我尝试用博客中的内容填充上下文，并得到了一些不错的结果。但当我开始尝试视频上传时，事情变得非常令人兴奋。

我为我的一个书架拍摄了一段七秒的视频。然后我上传了，输入提示词如下：
该视频中书籍的 JSON 数组

这段 7 秒的视频仅消耗了 1,841 个标记

Gemini Pro 1.5 没有返回 JSON，但它确实回复了以下内容：
我们不可能完全识别视频中的所有书籍。不过，以下是可以看到的部分书籍：

托尔金的《指环王》
哈罗德-阿贝尔森和杰拉尔德-杰伊-苏斯曼著的《计算机程序的结构与解释》
杰森-弗里德和戴维-海因迈尔-汉森的《Rework 》
....

老实说，我对此感到非常惊讶。视频时长 7 秒，平移速度相当快（视频中存在一些运动模糊），部分书籍被物品遮挡。

让我印象特别深刻的是，视频中有卢克·弗罗布莱夫斯基 (Luke Wroblewski) 撰写的《站点查看：网络可用性的视觉方法》，其中这本书本身几乎完全被松鼠玩具遮盖，只留下“站点查看”四个字可见。

我确实发现了一个幻觉：它列出了“乔什·考夫曼（Josh Kaufman）的个人MBA”，但我没有那本书——视频中最接近的东西是一本名为“Beermat Entrepreneur”的书的模糊的几帧。

我决定用不同的视频再试一次，希望能得到更好的提示。这次我拍摄了一个书架上大部分都是烹饪书的视频——这次是纵向拍摄，时间稍长一些（22 秒），并且可以向下和横向平移。

这个视频花费了我 6,049 个标记——仍然是一个很小的分配。

我的新提示是：

输出该视频中书籍的 {“title”: “...”, “authors”: “...”} 对象的 JSON 数组

它列出全部书籍结果！
我再一次发现这些结果非常令人震惊。

意味着什么？
从文本中提取结构化内容的能力已经成为 LLM 最令人兴奋的用例之一。

像这样分析视频的能力感觉非常强大。能够拍摄 20 秒的书架视频并返回这些书籍的 JSON 数组，这只是我想尝试的第一件事。

通常的 LLM 注意事项也适用。它可能会漏掉一些东西，也可能会幻化出不正确的细节。要充分利用这一类技术，一半的工作就是要弄清楚如何绕过这些限制，但我觉得我们在这方面取得了不错的进展。

还有安全过滤器的问题。随着输入到这些模型中的信息越来越长，触发过滤器（如 "鸡尾酒 "一词的前四个字母）的几率也会增加。

关于图像与视频的注释
最初，我认为视频的处理方式与图像不同，部分原因是（对我来说）处理视频所涉及的标记数量出人意料地低。

Gemini 1.5 Pro 还可以推理长达 1 小时的视频。当您附加视频时，Google AI Studio 会将其分解为数千个帧（无音频），然后您可以执行高度复杂的推理和解决问题的任务，因为 Gemini 模型是多模式的。

然后在Gemini 1.5技术报告中：
当提示播放 45 分钟的巴斯特基顿电影《小夏洛克》（1924 年）（1FPS 2,674 帧，684k 标记）时，Gemini 1.5 Pro 会从特定帧中检索并提取文本信息，并提供相应的时间戳。

我进行了自己的实验：我从视频中抓取了一帧，然后在新的提示中将其上传到 Gemini。

单个图像有 258 个标记。

使用巴斯特·基顿示例中的数字，684,000 个标记/2,674 帧 = 每帧 256 个标记。因此，通过将视频分解为单独的帧并将每个帧处理为图像，它看起来确实有效。

对于我自己的视频：1,841 / 258 = 7.13（7 秒视频）和 6,049 / 258 = 23.45（22 秒视频）

这让我相信视频被分成每秒一帧，每帧花费约 258 个标记。