机器学习中贝叶斯建模和概率编程简介

贝叶斯（Bayesian）模型直接对不确定性进行建模，并提供了将专家知识纳入模型的框架。

背景
传统的机器学习 (ML) 模型和人工智能技术通常存在一个严重缺陷：缺乏不确定性的量化。

概率编程：应对这些挑战的解决方案
概率编程提供了一个解决这些挑战的建模框架。其核心是贝叶斯统计，它背离了统计的频率论解释。

贝叶斯统计
在频率统计中：

频率论者相信概率存在并且是固定的，无限的实验会收敛到该固定值。
频率论方法不会将概率分布分配给参数，它们对不确定性的解释植根于估计量的长期频率特性，而不是关于参数值的明确概率陈述。

在贝叶斯统计中：

贝叶斯方法捕获参数本身的不确定性，因此为不确定性量化提供了更直观和灵活的方法。

概率机器学习
在频率机器学习中，模型参数被视为固定的，并通过最大似然估计 (MLE) 进行估计，其中似然函数量化了给定统计模型观察数据的概率。 MLE 寻求参数的点估计以最大化该概率。实施 MLE：

因此，包括深度学习在内的频率论模型依赖于优化（通常基于梯度）作为其基本工具。

相反，贝叶斯方法对未知参数及其与概率分布的关系进行建模，并在我们获得新数据时使用贝叶斯定理来计算和更新这些概率。

贝叶斯定理： “贝叶斯规则告诉我们如何从联合joint中导出条件概率，条件告诉我们如何合理地更新我们的信念，而更新信念就是学习和推理的全部内容”

后验P(B|A) = 可能性P(A|B) * 先验P(B) / 边际似然P(A)

简单但强大的方程式。

在贝叶斯机器学习中，推理是基本工具：利用后验分布所代表的参数分布进行推理，提供对不确定性的更全面的理解。

如何对后验分布建模
大多数情况下看似简单的后验分布很难计算。

特别是，分母（即边际似然积分）往往是可交互的，尤其是在使用更高维度的参数空间时。

在大多数情况下，没有封闭式解决方案，数值积分方法的计算量也很大。

为了应对这一挑战，我们依靠一类特殊的算法（称为马尔可夫链蒙特卡罗模拟）来对后验分布进行建模。

这里的想法是从后验分布中采样，而不是对其进行显式建模并使用这些样本来表示模型参数的分布。

马尔可夫链蒙特卡罗 (MCMC)
MCMC 方法包含一类从概率分布中进行采样的算法。通过构造一个将所需分布作为其平衡分布的马尔可夫链，人们可以通过记录链中的状态来获得所需分布的样本”。

一些常用的 MCMC 采样器是：

概率编程
概率编程（Probabilistic Programming）是贝叶斯统计的一个编程框架，即开发用于表示条件推理问题的语言的语法和语义，并为这些推理问题开发 "求解器"。从本质上讲，概率编程对于贝叶斯建模的意义就如同自动区分工具对于经典机器学习和深度学习模型的意义。

概率编程语言的生态系统多种多样，每种语言都有自己的语法、语义和功能。

概率编程语言有一个共同的工作流程，概述如下：