OpenAI发布了智能体Operator
OpenAI今天发布了一个叫Operator的新东西,你可以把它想象成一个在云上帮你自动完成浏览器任务的机器人。这个新玩具现在只给那些每个月花200美元订阅ChatGPT Pro的用户玩。
他们把这个Operator叫做他们的第一个“Agent智能体”。在介绍Operator的视频里,Sam Altman(OpenAI的老板)解释说,这个“智能体”就是一个可以自己帮你做事的人工智能系统。你只要告诉它要做什么,它就会自己去完成。
山姆奥特曼Sam Altman还说,他们觉得这种人工智能助手会变得很重要,能帮助人们更好地工作,提高效率,激发创造力,还能帮助人们达成目标。
Operator是什么样?
Operator 能用 GPT-4o 的视觉功能“看”网站,并且通过看屏幕截图来和网站互动——比如点击、滚动网页,而不需要网站做任何特别的设置。它是由一个叫“计算机使用代理”(CUA)的新 AI 模型驱动的。
你只要告诉 Operator 你想做什么,它就会在 ChatGPT 的一个单独的浏览器窗口里帮你完成任务。OpenAI 说,它能处理很多常见的浏览器任务,比如填表格、在线买 groceries 等等。
这个系统还允许用户根据自己的需要添加自定义指令,不管是针对某个特定页面还是所有网站。这些指令可以保存在主页上方便以后用,而且用户可以在不同的聊天窗口里同时运行多个任务。
在技术层面,Operator 运行在 CUA 这个新 AI 模型上。这个模型通过把屏幕内容处理成原始数据,并控制虚拟光标和键盘来工作。它结合了 GPT-4o 处理图像的能力和通过强化学习发展出来的高级推理技能。
Operator 的工作分为三步:首先,它会截取屏幕上的画面。然后,它会用思维链推理来决定下一步该做什么,同时考虑当前看到的内容和之前做过的事情。这些“内心独白”帮助它减少错误,提高准确性。最后,它会通过点击、滚动或输入来采取行动,直到完成任务或需要你帮忙。
OpenAI 说,CUA 在标准测试中表现不错。在 WebArena 测试中,它得了 58.1% 的分数,这个测试是看它能不能处理模拟网站上的任务,比如在线购物和管理内容。
在真实网站上,它的表现更好:
- 在 WebVoyager 测试中,它在亚马逊和谷歌地图等网站上的成功率达到了 87%。
- 不过,在 OSWorld 测试中,当任务变得更复杂时,比如合并邮件里的 PDF,它的成功率降到了 38.1%。
Operator的界面看起来和Anthropic公司10月份展示的Claude Computer Use很像
Claude Computer Use 要求您在自己的硬件上运行自己的 Docker 容器。Operator 更像是一个产品 - OpenAI 在云中为您托管 Chrome 实例,并通过其网站提供对该工具的访问。
Operator 是基于 OpenAI 新推出的一个叫 CUA(Computer-Using Agent,计算机使用代理)的模型运行的。这个新模型是他们专门为这种任务设计的,而且他们计划在未来几周内通过他们的 API 向更多人开放这个模型。
Operator 的演示版本非常小心谨慎,这是可以理解的:它经常会要求用户确认才能继续操作。它还提供了一个“接管”选项,OpenAI 的演示团队就用这个选项来输入信用卡信息完成购买。
安全问题
这里的关键问题是他们怎么处理安全问题:Claude Computer Use 在第一次测试时就遇到了快速注入攻击的问题。所以,大家都在关注 OpenAI 会怎么解决类似的安全问题。
OpenAI 对此的看法如下:
一个特别重要的模型错误类别是对网站的对抗性攻击,这些攻击会导致 CUA 模型通过提示注入、越狱和网络钓鱼尝试采取意外操作。除了上述针对模型错误的缓解措施外,我们还开发了几层额外的防御措施来防范这些风险:
- 谨慎导航: CUA 模型旨在识别和忽略网站上的提示注入,识别早期内部红队会话中除一个案例之外的所有案例。
- 监控:在 Operator 中,我们实现了一个额外的模型来监控,如果检测到屏幕上的可疑内容,则暂停执行。
- 检测管道:我们同时应用自动检测和人工审查管道来识别可以标记并快速添加到监视器(数小时内)的可疑访问模式。
一旦其他国家开始使用这个模型,我们可能会看到各种新的、成功的即时注入攻击。
最佳实践是:每次让 Operator 帮你完成任务时,都开启一个新的会话。这样可以确保它无法访问你之前通过这个工具用过的任何网站的登录信息。如果你让它帮你花钱买东西,可以让它帮你完成到结账那一步,然后你自己输入付款信息,并在完成后立即清除会话。这样可以更好地保护你的隐私和安全。
Operator 系统卡 PDF包含一些有趣的附加详细信息。摘自“限制”部分:
虽然我们做了很多测试和准备,但因为现实世界太复杂了,坏人也会想出新办法来搞破坏,所以我们还是会遇到一些麻烦和危险。比如,我们的系统在正式使用后,可能会遇到一些没见过的任务,或者出现一些新的错误。而且,坏人还会想出新的办法来攻击我们的系统。虽然我们已经准备了好几层防护措施,但这些防护措施也靠机器学习的模型来工作。可是,机器学习的模型在面对新的攻击时,可能还不够强大,所以我们要一直努力研究怎么更好地保护系统。
另外还有关于 CUA 模型局限性的有趣注释:
CUA 模型仍处于早期阶段。它在短小、可重复的任务上表现最佳,但在幻灯片和日历等更复杂的任务和环境中面临挑战。
总结:
- OpenAI 推出了 Operator,这是一款能够通过视觉功能以及点击、单击和滚动等操作自主导航和与网站交互的 AI 代理。目前,Operator 仅供美国 ChatGPT Pro 用户使用。
- 用户可以描述一项任务,例如填写表格或订购食物,Operator 将独立完成,这标志着向更自主的 AI 助手迈出了一步。
- Operator采用新的计算机使用代理 (CUA) 模型,该模型结合了图像处理和高级推理,并包含三级安全系统,包括用户确认、监视模式和监控以防止滥用。