使用TensorFlow可实现文章自动摘要

16-08-25 banq
         

每天人们都依靠各种各样的信息来源来获得信息--从新闻报道到社会媒体报道,到搜索结果等等。能够开发一种机器学习模型,可以自动提供准确的、对较长的文本能够自动总结,提炼文章摘要的功能因此变得更加实际和有用,以一种压缩的形式来消化这些大量的信息,是谷歌大脑团队的一个长期目标。

为了实现对信息的总结,机器学习模型需要能够理解文件和提取重要信息,这对于计算机来说是一项非常具有挑战性的任务,尤其是当信息文件的长度增加时。

总结的一个方法是提取有趣的能够度量的部分(例如,逆文档频率),合并它们形成对一个文档的总结和摘要。比如:

原文:爱丽丝和鲍伯乘火车去参观动物园。他们看见了一只小长颈鹿、一只狮子和一只五颜六色的热带鸟。

摘要:爱丽丝和鲍伯参观动物园。看见一群鸟。

上面我们提字方法是粗糙的,直接连结起来形成一个总结。我们可以看到,有时这种提取约束的总结是令人尴尬或语法奇怪的。

另一种方法是如同人类一样进行简单概括,这是没有使用提取约束,而是实现改述;。这就是所谓的抽象概括。

抽象的总结:爱丽丝和鲍伯去动物园看动物和鸟类。

在这个例子中,我们使用的单词不再是来自原来的文本,以同样的词量保持更多的信息。很明显,我们希望这种比较好的抽象概括,但一个算法开始可能做这个吗?

对于短文本,文章总结能够使用一种深度技术称为序列学习的方式解决,类似来信自动回复

我们能够培养这样的模型,以产生非常好的新闻文章头条。在这种情况下,该模型读取文章与文本并会创建编写一个合适的标题。

要知道模型产生的想法,你可以看看下面的一些例子。第一行显示了一个新闻文章的第一句,作为模型输入,第二行显示了模型所写的标题。

原文:米高梅报道三分之一季度净亏损1600万美元主要是由于会计规则的影响。

机器标题:米高梅公司报告净亏损1600万高收益

原文:

从7月1日起,中国南部的海南省将实施严格的市场准入控制所有传入的牲畜和动物产品,以防止传染病可能传播

机器标题:海南遏制疾病传播

原文“据政府统计局星期一公布的数据显示,澳大利亚葡萄酒九月出口创下5210万升,价值2亿6000万澳元(1亿4300万美元),政府统计局星期一报道。

机器标题:澳大利亚葡萄酒出口创历史新高九月。

Research Blog: Text summarization with TensorFlow