亮点:Apple设备和服务器基础模型


以下是苹果官方刚刚发布的《Apple设备和服务器基础模型》白皮书中的4个亮点:

1、我们利用适配器,可以插入预训练模型各个层的小型神经网络模块,来针对特定任务对模型进行微调。

  • 通过仅对适配器层进行微调,基础预训练模型的原始参数保持不变,保留模型的通用知识,同时定制适配器层以支持特定任务。

本地+私有 ML 的难点之一是:

  • 我不希望每次下载GB级别权重的应用
  • 也不想在打开新应用时出现延迟缓慢。
作为应用开发者,我希望每个硬件模型上运行的最佳模型,而不是我支持的最慢硬件的最小公分母模型。

Apple 有机会让这一切变得顺利:

  • 针对每个芯片调整的优秀模型、
  • 针对每个用例的适配器、新用例只有几 MB 的权重(对于一组当前基础模型),
  • 并且基础模型可以随着时间的推移变得更好(新硬件和改进的模型)。
  • 基本上是针对模型的应用程序精简。


2、将我们的模型与开源模型(Phi-3、Gemma、Mistral、DBRX)和同等规模的商业模型(GPT-3.5-Turbo、GPT-4-Turbo)1进行了比较。

  • 与大多数同类竞争模型相比,我们的模型更受人类评分者的青睐。
  • “人类对输出危害的评估”,比其他模型“好”得多。无论是在设备上还是在服务器端。

3、我们的基础模型是在 Apple 的 AXLearn 框架上进行训练的,这是我们于 2023 年发布的开源项目。它建立在 JAX 和 XLA 之上,使我们能够在各种训练硬件和云平台上以高效率和可扩展性训练模型,包括 TPU 以及云端和本地 GPU。

  • 除了 GPU 之外,他们还使用 TPU 进行训练。这既是技术决策(JAX 和 XLA),也是对 英伟达 的对冲吗?

4、我们利用授权数据训练基础模型,包括为增强特定功能而选择的数据,以及我们的网络爬虫 AppleBot 收集的公开数据。网络出版商可以通过数据使用控制选择不将其网络内容用于 Apple Intelligence 训练。

  • 苹果比其他任何人都更努力地将这一功能打造为注重隐私的功能,而不仅仅是一个数据挖掘功能
  • 除了遵守所有 robots.txt 规则和指令之外,Apple 还有一个二级用户代理 Applebot-Extended,它使网络发布商可以额外控制 Apple 如何使用其网站内容。
  • 借助 Applebot-Extended,网络出版商可以选择不将其网站内容用于训练 Apple 的基础模型,该模型为 Apple 产品(包括 Apple Intelligence、服务和开发者工具)的生成式 AI 功能提供支持。
  • 网页抓取是合法的。如果您运营一个网站并希望退出,那么只需添加 robots.txt。30 年来防范机器人的标准方法。