谷歌推出 Gemini 2.0：专注于人工智能代理和多模式功能

#大语言模型LLM #AI智能体Agent

2024-12-12 banq

Google DeepMind 今天宣布了其 Gemini 模型的下一个版本：Gemini 2.0 Flash Experimental。现已在网络聊天应用程序中可用，并通过 Google AI Studio 和 Vertex AI 中的 Gemini API 供开发人员和选定的测试人员使用，并计划于 2025 年初发布更广泛的版本。

新版本对其多模态功能进行了重大改进，可以处理文本、图像、视频和音频，同时原生生成图像和多语言语音。谷歌计划将 Gemini 2.0 集成到其以混合准确性而闻名的AI 概览中，以处理更复杂的主题和多步骤问题，包括高级数学方程式、多模态查询和编码挑战。

据 Google 称，Gemini Flash 2.0 的运行速度是其前身 Gemini 1.5 Pro 的两倍。虽然它在基准测试中几乎与Anthropic 的 Sonnet“3.6”相当，但考虑到 Google 的 Flash 1.5 定价，它可能要便宜得多。请记住，基准测试性能通常与实际性能不同。

Google 正在通过桌面和移动网络浏览器向所有 Gemini 用户推出聊天优化版 Gemini 2.0 Flash Experimental。该公司计划在不久的将来添加移动应用程序集成。

对于开发者，谷歌计划将 Gemini 2.0 集成到各种平台，包括 Android Studio、Chrome DevTools 和 Firebase。增强的编码支持（称为 Gemini Code Assist）将在流行的集成开发环境中提供，例如 Visual Studio Code、IntelliJ 和 PyCharm。

三个专门的人工智能代理/智能体
除了 Gemini 2.0，谷歌还推出了两个新的研究原型，展示 Gemini 2.0 的代理功能。

Project Mariner 是一款实验性的 Chrome 扩展程序，专为基于 Web 的任务而设计。该原型表现出色，在实际测试场景中成功率达到 83.5%。为了保证安全性，该代理只能在活动浏览器选项卡内运行，并且需要用户明确确认购买等敏感操作。

第二个代理 Jules 专注于通过 GitHub 工作流集成为开发人员提供支持。此代理可以异步工作、制定多阶段故障排除计划并准备拉取请求。目前，Jules 仅适用于一组选定的测试人员。

谷歌此前宣布的 Project Astra将充分利用 Flash 的速度和多模式功能。这款通用 AI 助手可以进行多语言对话，并具有长达十分钟的上下文记忆。该系统与 Google 搜索、Lens 和地图集成，提供全面的帮助。

谷歌还在升级其现有的 Google Colab 数据科学代理，以使用 Gemini 2.0。该代理可以根据用户描述自动生成分析。在劳伦斯伯克利国家实验室最近的一个项目中，谷歌声称该系统将分析时间从一周缩短到几分钟。有兴趣测试该代理的开发人员可以提交访问请求。

游戏和机器人实验
此外，谷歌 DeepMind 正在视频游戏中测试 Gemini 2.0，其中代理通过分析屏幕内容为玩家提供实时战略建议。Flash 模型的速度使这些实时应用成为可能。该公司还计划在机器人应用中测试该模型增强的空间推理能力。

谷歌启动 Gemini Advanced 的“深度研究”
Google 还为 Gemini Advanced 订阅用户推出了深度研究。这项基于代理的新功能可自动执行复杂搜索并快速生成综合报告。

该公司表示，该系统旨在模仿人类的研究方法：搜索、分析信息并根据发现发起新的查询。结果以结构化报告的形式显示，其来源可以导出到 Google Docs。该功能将 Google 的搜索技术与 Gemini 的分析功能相结合，并使用了 100 万个标记的大型上下文窗口。