机器学习无法解决自然语言理解问题 - thegradient


这是经验和数据驱动的革命,在 1990 年代初期,一场统计革命席卷了人工智能 (AI)——这场革命在 2000 年代达到高潮,神经网络以其现代深度学习 (DL) 的转世而凯旋归来。这一经验主义转向席卷了人工智能的所有子领域,尽管这项技术最具争议的应用是自然语言处理 (NLP)——一个人工智能的子领域已被证明比任何人工智能先驱者想象的要困难得多。
数据驱动的经验方法在 NLP 中的广泛使用具有以下起源:在三年的霸权之后,符号和逻辑方法无法产生可扩展的 NLP 系统,导致了所谓的 NLP 经验方法(EMNLP)的兴起——我在这里使用的一个短语统称为数据驱动的、基于语料库的、
这种向经验主义转变背后的动机非常简单:直到我们对语言如何运作以及语言如何与我们在日常口语中谈论的世界的知识有一些了解之前,经验和数据驱动的方法可能有助于构建一些实用的文本处理应用程序。正如 EMNLP 的先驱之一 Kenneth Church 解释的那样,NLP 数据驱动和统计方法的倡导者对解决简单的语言任务很感兴趣——动机从来不是暗示这就是语言的工作方式,而是“它是做一些简单的事情总比什么都不做要好”。
后代误解了这一经验趋势,其动机是通过假设这一点来寻找简单任务的实际解决方案可能近似正确(PAC) 范式将扩展到完全自然语言理解 (NLU)。
种被误导的趋势导致了一种不幸的情况:坚持使用需要大量计算能力的“大型语言模型”(LLM)来构建 NLP 系统,但徒劳地尝试近似通过尝试记住大量数据,我们称之为自然语言的无限对象。在我们看来,这种伪科学的方法不仅浪费时间和资源,而且还通过诱使一代年轻科学家认为语言只是数据。
这条道路只会导致失望,更糟的是, 阻碍自然语言理解 (NLU) 的任何真正进步。相反,我们认为是时候重新考虑我们的 NLU 工作方法了,因为我们相信 NLU 的“大数据”方法不仅在心理上、认知上,甚至在计算上都是不可信的,而且正如我们将在这里展示的,这种盲目的数据驱动的 NLU 方法在理论上和技术上也存在缺陷。
  
语言处理与语言理解
虽然 NLP(自然语言处理)和 NLU(自然语言理解)经常互换使用,但两者之间存在实质性差异,突出这种差异至关重要。事实上,认识到语言理解和单纯的语言处理之间的技术差异将使我们意识到数据驱动和机器学习方法虽然可能适用于某些 NLP 任务,但它们甚至与 NLU 无关。考虑最常见的“下游 NLP”任务:

  • 总结
  • 话题抽取
  • 命名实体识别(NER)
  • (语义)搜索
  • 自动标记
  • 聚类

上述所有任务都与作为所有机器学习方法基础的可能近似正确(PAC) 范式一致。具体来说,评估某些 NLP 系统关于上述任务的输出是主观的:没有客观标准来判断一个总结是否优于另一个;或者某个系统提取的(关键)主题/短语是否比另一个系统提取的更好,等等。但是,语言理解不允许任何自由度。

...点击标题