AI中有关概率统计的直观且通俗易懂的图片介绍


一幅图片胜过1000个单词。有关概率和统计信息的直观介绍,请查看“ Seeing Theory”。这个交互式网站将带您了解机器学习中所需的许多概念。适合菜鸟入门学习,捷径学习路线,有中文,点击标题。
为帮助无法访问原网址用户了解,转载基本概念如下:
 
第一章 基础概率论
本章将介绍概率论的一些基本概念

  • 概率事件

生活中充满了随机性。概率论是一门用数学语言来刻画这些随机事件的学科。一个随机事件的概率是一个介于0与1之间的实数,这个实数的大小反映了这个事件发生的可能性。因此,概率为0意味着这个事件不可能发生(不可能事件),概率为1意味着这个事件必然发生(必然事件)。
以一个投掷一枚公平的硬币(出现正面和反面的概率相等,均为1/2)的经典的概率实验为例:。在现实中,如果我们重复抛一枚硬币,出现正面的频率可能不会恰好是50%。但是当抛硬币的次数增加时,出现正面的概率会越来越接近50%。
如果硬币两面的重量不一样, 出现正面的概率就和出现反面的概率不一样了。
  • 期望

一个随机变量的期望刻画的是这个随机变量的概率分布的“中心”。简而言之,当有无穷多来自同一个概率分布的独立样本时,它们的平均值就是期望。数学上对期望的定义是以概率(或密度)为权重的加权平均值。
现在以另一个经典的概率实验为例:扔一枚公平的骰子,每一面出现的概率相等,均为1/6。当试验的次数越来越多时,扔出的结果的平均值慢慢趋向于它的期望3.5。
  • 方差

如果说随机变量的期望刻画了它的概率分布的“中心”,那么方差则刻画了概率分布的分散度。方差的定义是一个随机变量与它的期望之间的差的平方的加权平均值。这里的权重仍然是概率(或者密度)。
Var(X)=E[(X−E[X])2]
随机从下面十张牌中抽牌。当抽取的次数越来越多时,可以观察到样本平方差的平均值(绿色)逐渐趋向于它的方差(蓝色)。
 
第二章 进阶概率论
本章将进一步介绍概率论中的一些核心知识。
  • 集合论

广而言之,一个集合指的是一些物体的总体。在概率论中,我们用一个集合来表示一些事件的组合。比如,我们可以用集合{2,4,6}来表示“投骰子投出偶数”这个事件。因此我们有必要掌握一些基本的集合的运算。
  • 古典概型

古典概型本质上就是数数。但是在概率论中,数数有时候比想象中要困难的多。因为我们有时要数清楚符合一些性质的事件或者轨道个数的,而这些性质往往比较复杂,因此数数的任务也变得困难起来。假设我们有一袋珠子,每个珠子的颜色都不相同。如果我们无放回地从袋子里抽取珠子,一共有多少种可能出现的颜色序列(排列)呢?有多少种可能出现的没有顺序的序列(组合)呢?
  • 条件概率

条件概率让我们可以利用已有的信息。举个例子,在今天多云 的情况下,我们会估计“明天下雨”的概率小于“今天下雨”。这种基于已有的相关信息得出的概率称为条件概率。
数学上,条件概率的计算一般会把的样本空间缩小到一个我们已知信息的事件。再以之前举的下雨为例,我们现在只考虑所有前一天多云的日子,而不是考虑所有的日子。然后我们确定在这些天中有多少天下雨,这些下雨天数在所有我们考虑的天数中的比例即为条件概率。
 
第三章 概率分布
概率分布描述了随机变量取值的规律。
  • 随机变量

随机变量是一个函数,它用数字来表示一个可能出现的事件。你可以定义你自己的随机变量,然后生成一些样本来观察它的经验分布。
  • 离散型和连续型随机变量

常见的随机变量两种类型。一个离散型随机变量可能的取值范围只有有限个或可列个值。离散型随机变量的定义是:如果XX是一个随机变量,存在非负函数f(x)f(x)和F(X)F(X),使得
P(X=x)=f(x)
P(X<x)=F(x)

则称XX是一个离散型随机变量。
  • 中心极限定理

中心极限定理告诉我们,对于一个(性质比较好的)分布,如果我们有足够大的独立同分布的样本,其样本均值会(近似地)呈正态分布。样本数量越大,其分布与正态越接近。
 
第四章 统计推断:频率学派
频率学派通过观察数据来确定背后的概率分布。
  • 点估计

统计学中一个主要的问题是估计参数。我们用一个取值为样本的函数来估计我们感兴趣的参数,并称这个函数为估计量。这里我们用一个估计圆周率ππ的例子来具体说明这个想法。
  • 置信区间

与点估计不同,置信区间用估计的是一个参数的范围。一个置信区间对应着一个置信水平:一个置信水平为95%95%的置信区间表示这个置信区间包含了真实参数的概率为95%95%。
  • Bootstrap方法

许多频率学派的统计推断侧重于使用一些“性质比较良好”的估计量。但是我们知道这些统计量本身是样本的函数,因此往往比较难分析它们自己的概率分布。而Bootstrap方法则给我们提供了一种方便的近似确定估计量性质的方法。
 
第五章 统计推断:贝叶斯学派
贝叶斯学派的思想是用数据来更新特定假设的概率。
  • 贝叶斯公式

假设你最近去看了医生,并决定检查一下自己有没有得一种罕见的疾病。如果你很不幸地收到了阳性的结果,你可能最想知道的是“已知这个检查结果,我真的得了这种病的概率是多少?”(毕竟医疗检查并不是100%准确的。)有了贝叶斯公式,我们就可以准确地计算出上述事件的概率:

P(患病|阳性)=P(阳性|患病)P(患病)/P(阳性)

从上述公式我们可以看出,已知检查结果阳性患病的后验还依赖于概率患病的先验概率P(患病)。我们可以把这个患病的先验概率理解为人群中患有这个疾病的概率。
另一方面,后验概率还依赖于检查的准确程度:一个健康的人收到阴性结果的概率是多少?一个患者收到阳性结果的概率是多少?
最后,我们还需要知道这个检查给出阳性结果的总概率。
  • 似然函数

在统计学中, 似然函数 的定义是:
L(θ|x)=P(x|θ)

似然函数的概念在频率学派和贝叶斯学派中都有重要的作用。
  • 从先验概率到后验概率

贝叶斯统计的核心思想是利用观察到的数据来更新先验信息。
 
第六章 回归分析
回归分析是一种建立两个变量之间线性模型的方法
  • 最小二乘法

最小二乘法是一个估计线性模型参数的方法。这个方法的目标是找到一组线性模型参数,使得这个模型预测的数据和实际数据间的平方误差达到最小。这是四个让让统计学家一度十分头疼的数据集:安斯库姆四重奏,你可以通过这四个数据集进一步探索最小二乘法。
  • 相关性

相关性是一种刻画两个变量之间线性关系的度量。
  • 方差分析

方差分析(ANONA,Analysis of Variace)是一种检验各组数据是否有相同均值的统计学方法。方差分析将t检验从检验两组数据均值推广到检验多组数据均值,其主要方法是比较组内和组间平方误差。