升级后的 Claude 3.5 Sonnet 在编程任务方面表现出了显著的改进。它在 SWE Bench Verified Test 上的表现从 33.4% 提高到了 49.0%,Anthropic 声称其性能优于所有公开可用的模型,包括专门的编程系统。
Sonnet 在 TAU Bench(代理工具使用测试)中也取得了长足进步。在零售领域,其表现从 62.6% 上升至 69.2%,而在更具挑战性的航空领域,其表现从 36.0% 提高至 46.0%。
新款 Haiku 机型性能优于上一代旗舰机型
Anthropic 还推出了一款新的 Claude 3.5 Haiku 型号。该公司声称,这款型号在许多基准测试中都优于之前的顶级 Claude 3 Opus,同时保持与之前的 Claude 3 Haiku 类似的速度和成本。值得注意的是,Anthropic 并未在此次公告中提及任何有关新 Opus 型号的计划。
新的 Claude 3.5 Haiku 在编程任务中展现了相对于其速度和成本的令人印象深刻的能力。它在 SWE-bench Verified 测试中的得分为 40.6%,Anthropic 表示,这一得分超过了许多基于“公开可用的最先进模型”的代理的性能,包括 GPT-4o。
关于数据截止日期,Sonnet 3.5 的有效期至 2024 年 4 月,而新 Haiku 版本的数据截至 2024 年 7 月。Anthropic 计划在本月晚些时候发布 Haiku。
人工智能驱动的计算机交互
Anthropic 将其新的“计算机使用”功能描述为一项重大创新。该公司没有为单个任务开发特定工具,而是采取了更广泛的方法,教授 Claude 通用计算机技能。这使得人工智能能够使用最初为人类使用而设计的各种标准工具和软件程序。
Anthropic 开发了一种 API,使 Claude 能够感知计算机界面并与之交互。开发人员可以集成此 API,让 Claude 将“使用我的计算机和互联网上的数据填写此表格”等指令转换为实际的计算机命令。
该系统可以移动鼠标指针、点击屏幕元素并使用虚拟键盘输入信息。在 OSWorld 基准测试中,该基准测试评估了 AI 模型以类似人类的方式使用计算机的能力,Claude 3.5 Sonnet 在“仅屏幕截图”类别中的得分为 14.9%。虽然这比排名第二的 AI 系统的 7.8% 得分高出很多,但与人类的能力相比仍相差甚远。
Anthropic 承认 Claude 目前的计算机交互技能并不完美。一些人类认为毫不费力的操作,例如滚动、拖动或缩放,对 Claude 来说仍然具有挑战性。该公司建议开发人员在实现此功能时从低风险任务开始。
概括
- Anthropic 推出了其 AI 模型 Claude 3.5 Sonnet 和 Claude 3.5 Haiku 的改进版本。这两个模型都实现了显著的性能提升,特别是在编程任务方面。
- 新款 Claude 3.5 Haiku 型号预计将在多项智能基准测试中超越上一代顶级 Claude 3 Opus 型号,而成本和速度则与上一代 Claude 3 Haiku 相同。
- Anthropic 引入了一项人工智能驱动计算的新功能。API 使 Claude 能够感知计算机表面、与其交互并将指令转化为具体的计算机命令。然而,该系统距离人类的能力还相去甚远。