谷歌Gemini 1.5：长上下文窗口意味着什么？

Google DeepMind 团队如何创建迄今为止任何大型基础模型中最长的上下文窗口。

Gemini 1.5 模型的创新之一是其长上下文窗口，可以处理多达 100 万个令牌的原始数据。
长上下文窗口的突破性实验功能使模型可以接收和处理更多的文本、图像、音频、代码或视频。
通过长上下文窗口，Gemini 1.5 Pro 可以进行诸如总结数千页长文档、分析数万行代码以及回答关于电影内容的问题等任务。

Gemini 1.5 Pro 的创新使其能够处理大规模的文本、图像、音频、代码或视频数据，为开发人员提供了更多创新和应用的可能性。

比较GPT-4 和 Gemini 1.5
将复杂的代码库放入单个 120K 令牌提示中，并提出了 7 个问题 GPT-4 和 Gemini 1.5

背景：我是HVM1 的作者，目前正在更新为HVM2。这是两个实现并行 inet 运行时的复杂代码库；基本上，硬编译器的东西。X 上的用户@SullyOmarr获得了 Gemini 1.5 的访问权限，他善意地向我提供了提示。因此，我将两个 HVM 代码库连接到一个120K 令牌文件中，并向 Gemini 和 GPT-4 提出了 7 个问题。这是完整的结果。

结果分析：
在理解 HVM 的 120K 代币代码库的任务中，Gemini 1.5 彻底摧毁了 GPT-4-Turbo-128K。

GPT-4 做错的大多数问题都是在较小的提示中可以做对的问题，因此，巨大的上下文显然压倒了它，而 Gemini 1.5 根本不在乎。
Gemini 仍然无法创建系统的完整心智模型，并回答需要其自身更深层推理的问题，因此，目前还没有 AGI；
但Gemini 非常擅长定位现有信息、建立远程连接并在此基础上进行一些有限的推理。

网友讨论：
欢迎来到深度学习的新时代。深厚的专有魔法。我开始尽可能地睡个好觉，因为神经科学意义上的记忆和注意力的良好模型可能会帮助未来的 GPU 贫穷的研究人员在万亿参数网络中运行智能模型，而无需数十亿令牌上下文

有人声称 Gemini 能够为输入其中的代码库编写文档。“在一项测试中，我们放入了整个代码库，并为其编写了文档，这真的很酷，”Google DeepMind 研究科学家 Machel Reid 说：
链接 - https://blog.google/technology/ai/long-context-window-ai-models/

Gemini 能够记住并在不同的事物之间建立链接来回答问题，而 gpt-4 则不太擅长

长上下文本身也有点疯狂：作为人类，我们大部分时间都以非常抽象的概括术语存储代码库的大部分知识，然后直接查看文件/方法以将微妙之处加载到工作内存中。更不用说 IDE 来帮助导航、重构等。
令我惊讶的是，目前的模型在这方面还没有进行更多的工作。对代码进行各种遍历以建立知识，将其存储在向量数据库中，然后根据需要查看代码的特定位置，进行 TDD 风格测试、编译、测试运行等。
立即加载整个代码库并给出正确答案更像是 ASI，而不是 AGI，甚至在我看来也是如此。

这就是山姆奥特曼所担心的：谷歌使用他们庞大的服务器基础设施和一个不错的模型……这就是为什么他疯狂地寻找芯片并谈论 7万亿美金的融资；因为他知道谷歌使用他们的算力资源最终会到达那里。

10M上下文+上下文学习意味着，在推理时，它可以被训练来完成你的整个工作。甚至不需要对每个客户端进行微调。谷歌已经拥有如此疯狂的技术（在选定的用户手中得到验证）将在核心业务上全力以赴 - 将其交到企业手中。

谷歌Gemini 1.5：长上下文窗口意味着什么？

新研究：大脑语言有形式和功能两种，前者更像大模型

谷歌AI在数学奥林匹克竞赛中获得银牌

历史上第一次：聪明AI能愚弄人类

Llama 3.1发布：开源AI是未来吗？

最难逻辑考题：来自IOL国际语言学奥林匹克