谷歌推出 Gemini 2.0:专注于人工智能代理和多模式功能

Google DeepMind 今天宣布了其 Gemini 模型的下一个版本:Gemini 2.0 Flash Experimental。 现已在网络聊天应用程序中可用,并通过 Google AI Studio 和 Vertex AI 中的 Gemini API 供开发人员和选定的测试人员使用,并计划于 2025 年初发布更广泛的版本。

新版本对其多模态功能进行了重大改进,可以处理文本、图像、视频和音频,同时原生生成图像和多语言语音。谷歌计划将 Gemini 2.0 集成到其以混合准确性而闻名的AI 概览中,以处理更复杂的主题和多步骤问题,包括高级数学方程式、多模态查询和编码挑战。

据 Google 称,Gemini Flash 2.0 的运行速度是其前身 Gemini 1.5 Pro 的两倍。虽然它在基准测试中几乎与Anthropic 的 Sonnet“3.6”相当,但考虑到 Google 的 Flash 1.5 定价,它可能要便宜得多。请记住,基准测试性能通常与实际性能不同。

Google 正在通过桌面和移动网络浏览器向所有 Gemini 用户推出聊天优化版 Gemini 2.0 Flash Experimental。该公司计划在不久的将来添加移动应用程序集成。

对于开发者,谷歌计划将 Gemini 2.0 集成到各种平台,包括 Android Studio、Chrome DevTools 和 Firebase。增强的编码支持(称为 Gemini Code Assist)将在流行的集成开发环境中提供,例如 Visual Studio Code、IntelliJ 和 PyCharm。

三个专门的人工智能代理/智能体
除了 Gemini 2.0,谷歌还推出了两个新的研究原型,展示 Gemini 2.0 的代理功能。

Project Mariner 是一款实验性的 Chrome 扩展程序,专为基于 Web 的任务而设计。该原型表现出色,在实际测试场景中成功率达到 83.5%。为了保证安全性,该代理只能在活动浏览器选项卡内运行,并且需要用户明确确认购买等敏感操作。

第二个代理 Jules 专注于通过 GitHub 工作流集成为开发人员提供支持。此代理可以异步工作、制定多阶段故障排除计划并准备拉取请求。目前,Jules 仅适用于一组选定的测试人员。

谷歌此前宣布的 Project Astra将充分利用 Flash 的速度和多模式功能。这款通用 AI 助手可以进行多语言对话,并具有长达十分钟的上下文记忆。该系统与 Google 搜索、Lens 和地图集成,提供全面的帮助。

谷歌还在升级其现有的 Google Colab 数据科学代理,以使用 Gemini 2.0。该代理可以根据用户描述自动生成分析。在劳伦斯伯克利国家实验室最近的一个项目中,谷歌声称该系统将分析时间从一周缩短到几分钟。有兴趣测试该代理的开发人员可以提交访问请求。

游戏和机器人实验
此外,谷歌 DeepMind 正在视频游戏中测试 Gemini 2.0,其中代理通过分析屏幕内容为玩家提供实时战略建议。Flash 模型的速度使这些实时应用成为可能。该公司还计划在机器人应用中测试该模型增强的空间推理能力。

谷歌启动 Gemini Advanced 的“深度研究”
Google 还为 Gemini Advanced 订阅用户推出了深度研究。这项基于代理的新功能可自动执行复杂搜索并快速生成综合报告。

该公司表示,该系统旨在模仿人类的研究方法:搜索、分析信息并根据发现发起新的查询。结果以结构化报告的形式显示,其来源可以导出到 Google Docs。该功能将 Google 的搜索技术与 Gemini 的分析功能相结合,并使用了 100 万个标记的大型上下文窗口。