Gemini Pro 1.5杀手级应用是视频


上周谷歌推出了 Gemini Pro 1.5,这是对其 Gemini 系列人工智能模型的巨大升级。

Gemini Pro 1.5 的上下文大小为 1,000,000 个标记。这是巨大的进步:之前该项记录是由 Claude 2.1(200,000 个标记)和 gpt-4-turbo(128,000 个标记)保持的。当然模型之间标记生成器实现的差异意味着这不是完全直接的比较。

我已经玩了 Gemini Pro 1.5 几天了,我认为最令人兴奋的功能并不是标记数……而是使用视频作为输入的能力。

我一直在通过Google AI Studio界面访问模型- 我还没有 API 访问权限。

我尝试用博客中的内容填充上下文,并得到了一些不错的结果。但当我开始尝试视频上传时,事情变得非常令人兴奋。

我为我的一个书架拍摄了一段七秒的视频。然后我上传了,输入提示词如下:
该视频中书籍的 JSON 数组

这段 7 秒的视频仅消耗了 1,841 个标记

Gemini Pro 1.5 没有返回 JSON,但它确实回复了以下内容:
我们不可能完全识别视频中的所有书籍。不过,以下是可以看到的部分书籍:

托尔金的《指环王》
哈罗德-阿贝尔森和杰拉尔德-杰伊-苏斯曼著的《计算机程序的结构与解释》
杰森-弗里德和戴维-海因迈尔-汉森的《Rework 》
....


老实说,我对此感到非常惊讶。视频时长 7 秒,平移速度相当快(视频中存在一些运动模糊),部分书籍被物品遮挡。

让我印象特别深刻的是,视频中有卢克·弗罗布莱夫斯基 (Luke Wroblewski) 撰写的《站点查看:网络可用性的视觉方法》,其中这本书本身几乎完全被松鼠玩具遮盖,只留下“站点查看”四个字可见。

我确实发现了一个幻觉:它列出了“乔什·考夫曼(Josh Kaufman)的个人MBA”,但我没有那本书——视频中最接近的东西是一本名为“Beermat Entrepreneur”的书的模糊的几帧。

我决定用不同的视频再试一次,希望能得到更好的提示。这次我拍摄了一个书架上大部分都是烹饪书的视频——这次是纵向拍摄,时间稍长一些(22 秒),并且可以向下和横向平移。

这个视频花费了我 6,049 个标记——仍然是一个很小的分配。

我的新提示是:

输出该视频中书籍的 {“title”: “...”, “authors”: “...”} 对象的 JSON 数组

它列出全部书籍结果!
我再一次发现这些结果非常令人震惊。

意味着什么?
从文本中提取结构化内容的能力已经成为 LLM 最令人兴奋的用例之一。

  • GPT-4 Vision 和 LLaVA 将这一功能扩展到了图像。
  • 现在,Gemini Pro 1.5 将这一功能扩展到了视频。

像这样分析视频的能力感觉非常强大。能够拍摄 20 秒的书架视频并返回这些书籍的 JSON 数组,这只是我想尝试的第一件事。

通常的 LLM 注意事项也适用。它可能会漏掉一些东西,也可能会幻化出不正确的细节。要充分利用这一类技术,一半的工作就是要弄清楚如何绕过这些限制,但我觉得我们在这方面取得了不错的进展。

还有安全过滤器的问题。随着输入到这些模型中的信息越来越长,触发过滤器(如 "鸡尾酒 "一词的前四个字母)的几率也会增加。

关于图像与视频的注释
最初,我认为视频的处理方式与图像不同,部分原因是(对我来说)处理视频所涉及的标记数量出人意料地低。

黑客新闻上的这篇文章让我相信了事实并非如此

Gemini 1.5 Pro 还可以推理长达 1 小时的视频。当您附加视频时,Google AI Studio 会将其分解为数千个帧(无音频),然后您可以执行高度复杂的推理和解决问题的任务,因为 Gemini 模型是多模式的。

然后在Gemini 1.5技术报告中:
当提示播放 45 分钟的巴斯特基顿电影《小夏洛克》(1924 年)(1FPS 2,674 帧,684k 标记)时,Gemini 1.5 Pro 会从特定帧中检索并提取文本信息,并提供相应的时间戳。

我进行了自己的实验:我从视频中抓取了一帧,然后在新的提示中将其上传到 Gemini。

单个图像有 258 个标记。

使用巴斯特·基顿示例中的数字,684,000 个标记/2,674 帧 = 每帧 256 个标记。因此,通过将视频分解为单独的帧并将每个帧处理为图像,它看起来确实有效。

对于我自己的视频:1,841 / 258 = 7.13(7 秒视频)和 6,049 / 258 = 23.45(22 秒视频)

这让我相信视频被分成每秒一帧,每帧花费约 258 个标记