吴恩达：以数据为中心的人工智能？

吴恩达在 2000 年代后期，率先使用图形处理单元 (GPU) 与斯坦福大学的学生一起训练深度学习模型，并于 2011 年共同创立了Google Brain ，然后在百度担任了三年的首席科学家，在那里他帮助建立了中国科技巨头的人工智能集团。因此，当他说他已经确定了人工智能的下一个重大转变时，人们会倾听。这就是他在IEEE Spectrum独家采访中告诉的内容摘要：

在过去十年左右的时间里，深度学习的巨大进步是由越来越大的模型处理越来越多的数据推动的，这是不可持续的。我们已经在 NLP [自然语言处理] 中看到了这种巨大基础模型。（banq注：GPT-3 之类巨大模型，吴恩达委婉解释了自己错过这十年巨大模型技术的领导者角色），它仍然有动力。话虽如此，它只适用于某些问题，还有一系列其他问题需要小数据解决方案。

计算机视觉的基础模型是什么意思？
这是Percy Liang和我在斯坦福的一些朋友创造的一个术语，指的是非常大的模型，在非常大的数据集上训练，可以针对特定应用进行调整。例如，GPT-3是 [用于 NLP] 的基础模型的一个示例。基础模型作为开发机器学习应用程序的新范式提供了很多希望，但在确保它们合理公平且没有偏见方面也面临挑战，特别是如果我们中的许多人将在它们之上构建。

建立视频基础模型需要做什么？？
我认为存在可扩展性问题。处理大量视频图像所需的计算能力非常重要，我认为这就是为什么基础模型首先出现在 NLP 中的原因。
话虽如此，过去十年发生的很多事情是深度学习发生在面向消费者的公司中，这些公司拥有庞大的用户群，有时是数十亿用户，因此数据集非常大。虽然机器学习的范式在消费软件中推动了很多经济价值，但我发现这种规模化的方法不适用于其他行业。

如何定义以数据为中心的人工智能，你为什么认为它是一种运动？
以数据为中心的人工智能是系统地设计成功构建人工智能系统所需的数据的学科。对于人工智能系统，你必须在代码中实现一些算法，比如神经网络，然后在你的数据集上对其进行训练。
过去十年的主要范例是下载数据集，而您则专注于改进代码。
多亏了这种范式，在过去十年中，深度学习网络得到了显着改进，以至于对于许多应用程序来说，代码——神经网络架构——基本上是一个已解决的问题。因此，对于许多实际应用而言，现在将神经网络架构保持固定，并寻找改进数据的方法会更有效率。
以数据为中心的人工智能运动比一家公司或一组研究人员要大得多。
我认为重点必须从大数据转向优质数据。拥有 50 个精心设计的示例足以向神经网络解释您希望它学习什么。

当您谈论仅使用 50 张图像来训练模型时，这是否真的意味着您正在采用在非常大的数据集上训练的现有模型并对其进行微调？或者你的意思是一个全新的模型，它的设计目的是只从那个小数据集中学习？
如果您可以开发工具来标记数据不一致的地方，并为您提供一种非常有针对性的方法来提高数据的一致性，那么这将是获得高性能系统的更有效方法。
收集更多数据通常会有所帮助，但如果你试图为所有事情收集更多数据，那可能是一项非常昂贵的活动。
例如，如果您有 10,000 张图像，其中 30 张图像属于一个类别，而这 30 张图像的标签不一致，那么我们要做的一件事就是构建工具来吸引您注意不一致的数据子集。因此，您可以非常快速地重新标记这些图像以使其更加一致，从而提高性能。

当您谈论工程数据时，您的确切意思是什么？
在 AI 中，数据清洗很重要，但数据清洗的方式通常是非常手动的方式。例如，我曾经发现当背景中有汽车噪音时，语音识别系统的性能很差。知道这一点让我能够在后台收集更多有汽车噪音的数据，而不是试图为所有事情收集更多数据，这将是昂贵且缓慢的。

使用合成数据怎么样，这通常是一个好的解决方案吗？
我认为合成数据是以数据为中心的人工智能工具箱中的一个重要工具。在 NeurIPS 研讨会上，Anima Anandkumar做了一个关于合成数据的精彩演讲。我认为合成数据的重要用途不仅仅是作为增加学习算法数据集的预处理步骤。我希望看到更多工具让开发人员使用合成数据生成作为迭代机器学习开发闭环的一部分。

合成数据可以让您在更多数据集上尝试模型吗？
并非如此。这里有一个例子。比方说，你试图检测智能手机外壳的缺陷。智能手机上有许多不同类型的缺陷。它可能是划痕、凹痕、坑痕、材料变色、其他类型的瑕疵。如果你训练了模型，然后通过误差分析发现它总体上做得很好，但在坑痕上表现得很差，那么合成数据的生成可以让你以更有针对性的方式解决这个问题。你可以只为坑痕类别生成更多的数据。
合成数据生成是一个非常强大的工具，但有很多更简单的工具我会经常先尝试。例如数据增强、提高标签一致性，或者只是要求工厂收集更多数据。

你认为人们了解你正在做的工作或以数据为中心的人工智能运动还有什么重要的吗？
在过去十年中，人工智能的最大转变是向深度学习的转变。我认为在这十年中，最大的转变很可能是转向以数据为中心的人工智能。随着当今神经网络架构的成熟，我认为对于许多实际应用来说，瓶颈将是我们能否有效地获取开发运行良好系统所需的数据。以数据为中心的人工智能运动在整个社区拥有巨大的能量和动力。我希望更多的研究人员和开发人员能够加入并致力于它。

banq：随着数据隐私增强，无论是人类数据或工程数据都以安全保密为主，这就限制了以数据为中心的AI发展天花板，再见大数据。