机器学习术语通俗易懂的解释

人工智能是基于数据做出判断和预测，机器学习能够让计算机实现数据驱动的决策，但是目前机器学习很多算法名词非常复杂，本文试图用浅显易懂的语言解释机器学习领域的相关术语.

监督学习Supervised Learning
让程序首先基于预先定义的数据集进行训练，离开这些训练数据以后，这个程序还能基于新的数据进行精确判断。

非监督学习Unsupervised Learning
程序自己能够窄一段数据集中自己自动发现模式和关系。比如，分析Email数据集，能够自动根据主题进行分类归组，在这之前无需任何事先的相关知识数据的训练。(先天的判断力，无需后天培养)。

分类Classification
这是监督学习的子目录，分类是对某种数据输入，能够为他们分配标签进行分类（比如将人分为男人和女人，不过出于对人的尊重，尽量不要对人标签化）。分类通常是用在预测结果是离散的，要么是肯定，要么是否定的情况下。比如，将一张人的图片分类为男人或女人。

回归Regression
监督学习的另外一个子目录，当预测结果不是简单的的"是"或"否"时，也就是说，预测结果是一段连续的范围，比如"多少钱"或"多少东西"等。

决策树
使用类似树形结构的图模型进行决策判断和可能后果的判断，比如下面：

生成模型Generative Model
在概率和数理统计中，生成模型是在一些参数被隐藏时用于产生数据值。生成模型既可以直接用来建模数据，也可以作为中间步骤用来形成条件概率密度函数，比如你建模p(x,y)是为进行预测，
它能使用贝叶斯规则转为p(x|y)，也能够生成像(x,y)数据对，能够广泛应用在非监督学习中。生成模型包括：Naive Bayes, Latent Dirichlet Allocation 和 Gaussian Mixture Model.

判别模型Discriminative Model
判别模型或条件化模型是用来建模基于变量x的依赖变量y，因为这个模型需要计算条件概率，如p(y|x)，经常用在监督学习中，具体有： Logistic Regression, SVMs 和 Neural Networks.

深度学习
使用人工神经网络产生模型，能够解决图片辨识问题，因为它有能力获得识别事物的特征。

神经网络和人工神经网络
被定义为为统计学习模型,用于实现依赖大量的输入的估算或近似函数。神经网络通常用于有大量输入数据，这些数据对于标准的机器学习太大了。

Text Analysis blog | Aylien — 10 Machine Learning