自然语言处理NLP七种术语的教程入门资源


在解决任何NLP问题之前,需要深入了解7个术语:
 
1.标记化Tokenization
这是将整个文本分成小标记的过程,切分是基于两个基础,即句子和单词。最佳教程:什么是自然语言处理(NLP)中的标记化?
 
2.停用词Stopwords
通常,这些词是一组不会给句子增加太多含义的词。在NLP中,我们删除所有停用词,因为它们对于分析数据并不重要。最佳学习停用词的教程:删除常用术语:停用词
 
3. 标记PoS
这是将句子转换为元组列表的过程。每个元组都有一个形式(单词,标记)。此处的标记表示单词是名词,形容词,动词等。最佳教程:词性标注和隐马尔可夫模型简介
 
4.词干Stemming
这是通过删除后缀和前缀将单词还原为其根词(摘录)的过程。如英文:Scrapping的根词是Scrap, history根词是histori,最好的词干学习的教程:NLP:摘录词干快速指南
 
5.词法化Lemmatizing
它的作用与词干法相同,但主要区别在于它返回了一个有意义的词。它主要用于开发聊天机器人,问答机器人,文本预测等。要学习有关合法化的最佳教程:词干和词条去除
 
 6.单词袋Bag of Words
简称BoW,这是将文本转换为某种数字表示形式的过程,是一种从文本中提取特征以用于建模的方法。机器学习算法无法直接处理原始文本;文本必须转换为数字。具体来说,是数字向量。了解单词袋的最佳教程:语言袋模型的温和介绍
 
7. WordNet
它是英语名词,动词,形容词和副词的词汇数据库或词典,被分组为专门为自然语言处理设计的集合。WordNet表面上类似于一个同义词库,它根据单词的含义将单词分组在一起。但是,有一些重要的区别。了解WordNet的最佳教程:什么是WordNet? 
 
自然语言处理NLP管道:

  • - 输入文本
  • - 将文本分割为组件
  • - 删除不必要的元素
  • - 文本矢量化和特征工程
  • - 合并单词的变体
  • - 用ML算法和方法训练模型
  • -结果解释