机器学习对于语言类比的理解与识别

当我们听到机器变得“更聪明”了,已经学会“理解”人类语言,但有些担忧,他们真的会理解我们说的一切吗? 他们会比我们聪明吗? 我们会失去对他们的控制吗?

当机器变得“聪明”时,他们也就是对大量数据执行花哨的数学运算来回答非常具体的问题。

你可能认为理解类比是一个非常人性化的东西,但它有一个数学模拟,它可以被用来产生巨大的效果。 这里指的是一种称为词嵌入的技术。

词嵌入,也称为词向量(或分布式词表示)是机器学习中相对较新的技术,正在推进机器如何处理自然语言,如英语。 谷歌的研究人员发布了自己的版本,这种技术被称为word2vec。该技术背后的数学有可能回答诸如“谁是乡村音乐的迈尔斯·戴维斯”或“兰姆酒的Pappy Van Winkle是什么?”这样的问题,但该技术的有用性不止在类比方面 -这个普通的想法甚至是最新机器翻译的巨大进步的关键因素 。

它是如何工作的? 词嵌入表示在几何空间中语言的词,即,作为数字向量,使用向量之间的数学关系来捕获词之间的语义关系。 假设一个向量只是一个数字列表 - 不是每个单词一个数字,而是一个或许有100个数字的列表。 并且列表上的每个地方用于表示单词的意义的一个特定方面,例如,它是一个名词还是它代表女性化这样程度用词。 经典的案例中,捕获关系“国王是男人,女王是女人”这样关系,所捕获的各个向量之间的特定数学关系表示是:国王 - 男人+女人=女王。

词嵌入的美丽在于它们通过关系来捕捉意义。 考虑单词“女王”与“君主”,“公主”,“女人”,“拖”,“王”,“蜜蜂”之间的不同关系。使用足够例子,捕获所有这些关系。 这是机器学习的突破!

谷歌的word2vec项目采用神经网络来学习单词的矢量表示,从大量的示例文本中,例如,数百万谷歌新闻文章。 除了word2vec,现在还有也doc2vec,用于表示整个文档作为向量、tweet2vec甚至emoji2vec 。

包括国王和皇后等具体对象的类比不是这些表示所学到的唯一功能。 他们也可以告诉你,“ran”是“run”,因为“spoke”是“speak”,或者“short”是“shorter”,因为“far”是“farther",这里没有规则,仅仅是向量空间中的维度,例如,从时态到过去时态的时态的维度,从形容词到其比较的程度的维度。 当然,有一个规则,是在形容词后面加"er",这对于理解如“awesomer”之类有用,但它对于普通的单词“good”(“gooder”)是完全无用的。

Word嵌入可以非常有效地部署在广泛的任务中。 内容推荐是一个例子。 如果您的网站的访问者正在查看描述“切碎蔬菜是好的”,就可以推荐类似的产品,标识为“理想切片胡萝卜”的描述与其类似,即使这些词是不同。 在向量空间中,单词“切碎”和“切片”是接近的,“蔬菜”和“胡萝卜”也是如此。这种识别文本相似、即使单词不相同的能力也有助于识别重复的论坛帖子。

词嵌入是人工智能中最前沿的技术之一,但整体上也只是将智能数学应用于大量数据上。不要担心,机器实际上没有理解任何东西! 他们只是连接我们的语言使用中的隐藏点。

For Machines, Analogies Are Just Math - DZone Big