机器学习的文本摘要方法概述 - kdnuggets


本文将介绍当前采用的文本摘要的主要方法,并讨论它们的一些特性。
文本摘要是自然语言处理的一个令人兴奋的子学科。尽管每天都在使用各种提取摘要的方法,并且每天都在研究这些方法,但是了解以上概念的基础应该可以使您至少在30,000英尺的高水平上对其中任何一种的操作方式有所了解。您还应该可以选择最近的论文或阅读最近的实施博客文章,并确信自己具备进行此项工作所需的基本知识。
 
自动文本摘要技术
 明确地说,当我们说“自动文本摘要”时,我们正在谈论使用机器通过某种形式的试探法或统计方法对一个或多个文档进行摘要。在这种情况下,摘要是一段简短的文本,可以准确地捕获并传达我们要摘要的一个或多个文档中包含的最重要和最相关的信息。如上面所暗示的,当前正在使用许多这些不同的尝试和真正的自动文本摘要技术。
有几种方法可以对自动文本摘要技术进行分类。本文将从摘要输出类型的角度探讨这些技术。在这方面,有两种技术:提取技术和抽象技术。

  1. 提取性文本摘要方法,作用是,从文本中识别出重要的句子或摘录,并逐字复制它们作为摘要的一部分。没有新的文本生成;摘要过程中仅使用现有文本。
  2. 抽象文本摘要方法,采用更强大的自然语言处理技术来解释文本并生成新的摘要文本,这与选择最具代表性的现有摘录来执行摘要相反。

尽管两种方法都是有效的文本摘要方法,但应该不难说服您抽象技术的实现要困难得多。实际上,当今大多数汇总过程都是基于提取的。这并不意味着抽象方法应该被轻视或忽略。相反,研究它们的实现以及对人类语言的真正语义理解是一项值得追求的工作,在我们可以自信地说我们已经在这一努力中立足之前,还需要做大量工作。
出于这个原因,本文的其余部分将重点介绍提取文本摘要的具体内容及其不同的实现技术。
 
提取摘要
 提取摘要技术各不相同,但它们共有相同的基本任务:
  1. 构造输入文本(要汇总的文本)的中间表示
  2. 根据构造的中间表示对句子评分
  3. 选择一个由前k个最重要的句子 组成的摘要

任务2和3非常简单;在句子评分中,我们要确定每个句子在汇总摘要文本的重要方面时的表现如何,同时使用某些特定的优化方法来执行句子选择。这两个步骤中每个步骤的算法可能会有所不同,但是从概念上讲它们非常简单:使用某种度量为每个句子分配分数,然后通过定义明确的句子选择方法从得分最高的句子中进行选择。
第一项任务是中间表示,可以使用进一步的阐述。
 
Intermediate表示法
在对自然语言进行句子评分和选择之前,需要先对自然语言有所了解,并且为每个句子创建一些中间表示可达到此目的。中间表示法,主题表示法和指示符表示法这两个主要类别及其子类别在下面简要定义。
  • 主题表示

重点关注文本主题识别的文本转换;此方法的主要子类别为:
  1. 频率驱动的方法
  2. 主题词法
  3. 潜在语义分析(LSA)
  4. 贝叶斯主题模型-例如潜在的Dirichlet分配(LDA)

两种最流行的词频方法是词概率和TF-IDF
在主题词方法中,有两种方法可以计算句子的重要性:通过其包含的主题签名数(句子讨论的主题数),或者通过句子包含的主题数与主题中包含的主题数的比例文本。这样,第一个倾向于奖励较长的句子,而第二个则衡量主题词的密度。
潜在语义分析和贝叶斯主题模型方法(例如LDA)的说明不在本文讨论范围之内,但可以在上面的链接中进行阅读。
  • 指标表示

将文本中的每个句子转换为重要特征列表;可能的功能包括:
  1. 句子长度
  2. 句子位置
  3. 句子中是否包含特定单词(有关这种特征提取方法的示例)
  4. 句子是否包含特定短语

可以使用以下两种总体指标表示方法之一来使用一组功能来表示文本数据并对其进行排名:图形方法和机器学习方法。
 
使用图形表示:
  • 我们发现子图最终代表了文本中涵盖的主题
  • 我们可以隔离文本中的重要句子,因为这些重要句子将与更多其他句子联系在一起(如果您将句子视为顶点,并且由边表示的句子相似性)
  • 我们不需要考虑特定于语言的处理,并且相同的方法可以应用于多种语言
  • 我们经常可以发现,通过与图暴露句相似性获得的语义信息可以提高摘要性能,而不仅仅是更简单的频率方法

使用机器学习表示形式:
  • 摘要问题被建模为分类问题
  • 我们需要带标签的训练数据来构建分类器,以将句子分类为摘要或非摘要句子
  • 为了解决标签数据难题,半监督学习等替代方案有望实现
  • 我们发现某些假设句子之间具有依赖性的方法通常胜过其他技术