谷歌Gemini 1.5:长上下文窗口意味着什么?


Google DeepMind 团队如何创建迄今为止任何大型基础模型中最长的上下文窗口。

  • Gemini 1.5 模型的创新之一是其长上下文窗口,可以处理多达 100 万个令牌的原始数据。
  • 长上下文窗口的突破性实验功能使模型可以接收和处理更多的文本、图像、音频、代码或视频。
  • 通过长上下文窗口,Gemini 1.5 Pro 可以进行诸如总结数千页长文档、分析数万行代码以及回答关于电影内容的问题等任务。

Gemini 1.5 Pro 的创新使其能够处理大规模的文本、图像、音频、代码或视频数据,为开发人员提供了更多创新和应用的可能性。

比较GPT-4 和 Gemini 1.5
将复杂的代码库放入单个 120K 令牌提示中,并提出了 7 个问题 GPT-4 和 Gemini 1.5

背景:我是HVM1 的作者,目前正在更新为HVM2。这是两个实现并行 inet 运行时的复杂代码库;基本上,硬编译器的东西。X 上的用户@SullyOmarr获得了 Gemini 1.5 的访问权限,他善意地向我提供了提示。因此,我将两个 HVM 代码库连接到一个120K 令牌文件中,并向 Gemini 和 GPT-4 提出了 7 个问题。这是完整的结果。

结果分析:
在理解 HVM 的 120K 代币代码库的任务中,Gemini 1.5 彻底摧毁了 GPT-4-Turbo-128K。

  • GPT-4 做错的大多数问题都是在较小的提示中可以做对的问题,因此,巨大的上下文显然压倒了它,而 Gemini 1.5 根本不在乎。
  • Gemini 仍然无法创建系统的完整心智模型,并回答需要其自身更深层推理的问题,因此,目前还没有 AGI;
  • 但Gemini 非常擅长定位现有信息、建立远程连接并在此基础上进行一些有限的推理。

网友讨论:
欢迎来到深度学习的新时代。深厚的专有魔法。我开始尽可能地睡个好觉,因为神经科学意义上的记忆和注意力的良好模型可能会帮助未来的 GPU 贫穷的研究人员在万亿参数网络中运行智能模型,而无需数十亿令牌上下文

有人声称 Gemini 能够为输入其中的代码库编写文档。“在一项测试中,我们放入了整个代码库,并为其编写了文档,这真的很酷,”Google DeepMind 研究科学家 Machel Reid 说:
链接 - https://blog.google/technology/ai/long-context-window-ai-models/

Gemini 能够记住并在不同的事物之间建立链接来回答问题,而 gpt-4 则不太擅长

长上下文本身也有点疯狂:作为人类,我们大部分时间都以非常抽象的概括术语存储代码库的大部分知识,然后直接查看文件/方法以将微妙之处加载到工作内存中。更不用说 IDE 来帮助导航、重构等。
令我惊讶的是,目前的模型在这方面还没有进行更多的工作。对代码进行各种遍历以建立知识,将其存储在向量数据库中,然后根据需要查看代码的特定位置,进行 TDD 风格测试、编译、测试运行等。
立即加载整个代码库并给出正确答案更像是 ASI,而不是 AGI,甚至在我看来也是如此。 

这就是山姆奥特曼所担心的:谷歌使用他们庞大的服务器基础设施和一个不错的模型……这就是为什么他疯狂地寻找芯片并谈论 7万亿美金的融资;因为他知道谷歌使用他们的算力资源最终会到达那里。

10M上下文+上下文学习意味着,在推理时,它可以被训练来完成你的整个工作。甚至不需要对每个客户端进行微调。谷歌已经拥有如此疯狂的技术(在选定的用户手中得到验证)将在核心业务上全力以赴 - 将其交到企业手中。