Agent S AI 系统自动执行复杂的计算机任务

研究人员开发了一个名为 Agent S 的人工智能系统，该系统通过观察人类行为来学习独立执行日常计算机任务。这项技术可能为新一代数字助理铺平道路。

许多办公室职员将宝贵的时间花在简单的计算机任务上，例如数据输入、日程安排和文档创建。一个研究团队现在推出了一个名为 Agent S 的人工智能系统，旨在使用类似于人类的方法解决此类任务。论文“Agent S：像人类一样使用计算机的开放式代理框架”描述了该系统的基础。

Agent S 将现代语言模型的功能与控制鼠标、键盘和屏幕的特殊界面相结合。研究人员根据人类行为模拟了系统的计算机交互：点击按钮、输入文本以及浏览菜单和文件夹。

无论使用哪种特定软件，这都为个人用户和企业带来了广泛的自动化可能性。该技术还可以为残疾人创造新的机会。

学习能力是关键
之前的方法也追求过类似的目标。微软今年早些时候也展示了实验性的UFO框架。Agent S 的特殊优势在于其学习能力。该系统利用互联网上的信息，例如特定计算机程序的指令，使其能够灵活地适应不断变化的应用程序。

此外，Agent S 会将自己在之前任务中的经验存储在一种记忆中。当面对新任务时，系统会在这个知识库中搜索类似案例，并将问题分解为可管理的子任务。

在执行过程中，它会不断监控进度并优化方法。完成任务后，新的经验会回流到知识库中 - 因此，人工智能会随着每个任务的解决而扩展其能力。

专门开发的“代理-计算机接口”构成了人工智能系统与计算机之间的桥梁。它在两个世界之间进行转换，并确保命令的安全可靠执行。为此，它会评估视觉信息以检测屏幕上的变化。

它还创建了所有控件及其排列的数字孪生。Agent S 不使用绝对鼠标坐标，而是使用“单击 42 号按钮”之类的指令。根据该论文，这种方法使控制更加稳健，并降低了出错的可能性。

Claude 3.5 和 GPT-4o 之间的细微差别
在开发人员进行的初步实际测试中，Agent S 经历了典型计算机任务的性能比较。在 Linux 下的任务基准测试中，与纯语言模型相比，Agent S 的成功率提高了近 90% - 但仍然只有 20% 左右。

该系统也很慢：在演示视频中，Agent S 花了大约六分钟来删除 Thunderbird 电子邮件客户端中的帐户，并花了整整三分钟来停用 VS Code 中的自动保存功能。

Agent S 可以通过 API 链接到各种语言模型：
根据任务领域，Claude 3.5或GPT-4o与框架的结合会取得领先，但总体而言，差距仍然很小，仅为 0.1 个百分点。针对此类用例优化的语言模型可以保证更好的性能。

在Windows下的测试环境中，该系统也无需特殊改造就取得了良好的效果。因此，基本原理似乎是跨操作系统可行的。

研究人员看到了改进的空间。详细的错误分析将观察到的问题中约 40% 归因于任务规划或将控制命令分配给屏幕元素的缺陷。开发人员还希望进一步优化处理速度。

一般来说，科学家们有各种各样的方法可以通过自然语言输入来操作用户界面——例如，人工智能初创公司 Rabbit也曾做出过这一承诺，但尽管发布了 Large Action Model Playground，但这一承诺尚未实现。这类系统可能需要一段时间才能成熟到足以节省日常使用中花费的时间。

Agent S 的 Python 代码可在GitHub上免费获取。