苹果新推出Ferret-UI 2 AI:可控制其所有终端上应用

2 周前  苹果发布了 Ferret-UI : 专为 iPhone/IOS 屏幕打造的全新多模态 LLM !!

现在,苹果开发了一种名为 Ferret-UI 2 的全新 AI 系统,可以读取和控制 iPhone、iPad、Android 设备、网络浏览器和 Apple TV 上的应用程序。

该系统在 UI 元素识别测试中得分为 89.73,明显高于 GPT-4o 的 77.73 分。在文本和按钮识别等基本任务以及更复杂的操作方面,它也比其前代产品有显著改进。

  • 苹果用几种语言模型测试了该系统。虽然 Llama-3 表现最佳,但较小的 Gemma-2B 也表现良好。

了解用户意图
Ferret-UI 2 不依赖特定的点击坐标,而是旨在了解用户意图。当给出“请确认您的输入”之类的命令时,系统可以识别适当的按钮,而无需精确的位置数据。苹果的研究团队利用 GPT-4o 的视觉功能生成高质量的训练数据,帮助系统更好地理解 UI 元素在空间上的关系。

Ferret-UI 2 采用自适应架构,可跨平台识别 UI 元素。它包含一种算法,可自动平衡每个平台的图像分辨率和处理要求。研究人员表示,这种方法“既能保留信息,又能高效地进行本地编码”。

测试表明,该系统具有强大的跨平台性能,使用 iPhone 数据训练的模型在 iPad 上的准确率达到 68%,在 Android 设备上的准确率达到 71%。然而,该系统在移动设备和电视或网络界面之间转换时遇到了更多困难,研究人员将其归因于屏幕布局的差异。

微软开源 UI 理解工具
苹果的行动正值其他公司推进自己的 UI 理解 AI 系统之际。Anthropic最近发布了具有 UI 交互功能的 Claude 3.5 Sonnet 更新版,而微软则发布了 OmniParser,这是一款将屏幕内容转换为结构化数据的开源工具,目的也是一样的。

苹果最近还推出了 CAMPHOR,这是一个使用由主推理代理协调的专用 AI 代理来处理复杂任务的框架。结合 Ferret-UI 2,这项技术可以让 Siri 等语音助手分析和执行复杂任务,例如查找和预订特定餐厅,这些任务涉及仅使用语音命令浏览应用程序或网络。

概括

  • 苹果开发了 Ferret UI 2,这是一种新的 AI 系统,可以跨设备理解屏幕内容并与之交互。目标是创建能够与为人类设计的 UI 自然交互的 AI 系统。
  • 在测试中,Ferret-UI 2 在类似设备之间转移技能方面表现出色——在 iPhone 数据上训练的模型在 iPad(准确率为 68%)和 Android 设备(准确率为 71%)上运行良好。
  • 然而,由于布局和格式不同,在移动设备和电视或网络界面之间移动时系统会遇到更多困难。