概率基础 - webdancer's Blog

概率基础

webdancer posted @ 2012年11月17日 18:50 in machine learning with tags Machine learning probability , 2902 阅读

在模式识别领域中,我们遇到的一个很关键的问题就是不确定性。概率论为我们解决这种不确定性提供了一个系统的框架。在得到了相关变量的概率信息后,我们需要用决策论的相关知识做出最优的判断。也就是说,我们将模式识别的过程分为了两个阶段,第一个阶段就是推理(inference),得到相关的概率;第二阶段使用决策论知识做出最优的判断。下面就是概率论和决策论要用到的知识。

概率

概率论就是研究不确定现象的数学。概率是对随机事件发生可能性的度量。对于概率的基础知识我们在大学本科阶段都有学习,这里简单的回顾一下相关的知识。
概率的定义:
 如果一个函数$p:S\to\mathbb{R}, A\to p(A)$指定给每一个事件空间$S$中的事件$A$一个实数$P(A)$,满足以下三条公理:
 $$0<=p(a)<=1;$$ $$P(S)=1;$$$$P(A\cup B)=P(A)+P(B),if P(A\cap B)=0.$$
 那么函数$P$叫做概率函数,相应的$P(A)$就是事件$A$的概率。
在概率论中,随机变量的定义很重要。简单的说,随机变量就是可能样本输出空间的一个函数。随机变量与其他的数学变量不同,它的取值不是固定的,有多种可能。随机变量有离散的和连续的两种基本类型。
下面这三个定理是进行概率运算的基石,对我们以后的概率分析有非常重要的作用。概率的推断可以根据定律进行算术运算。
加法定理:$$p(X)=\sum_Yp(X,Y);$$
乘法定律: $$p(X,Y)=p(X)p(Y|X);$$
可以进行推广:
$$p(X_1,X_2,..,X_n)=p(X_1)p(X_2|X_1)p(X_3|X_1,X_2)...p(X_n|X_1,X_2,...,X_{n-1});$$
贝叶斯定理:  $$ p(H|E)=\frac{p(H)p(E|H)}{p(E)}$$
其中$p(H|E)$表示在E发生情况下,H发生的概率,是一个条件概率。贝叶斯主义者和频率主义者对这个定理有不同的解释,在贝叶斯主义者看来,概率代表的是信任度,贝叶斯定理解释了在一个命题中,在考虑了证据后对信任度的影响;而频率主义者看来,概率代表了事件发生的个数与事件空间总的数目的比值,贝叶斯定理描述了特定事件概率值之间的关系。在贝叶斯解释中,$p(H)$表示的是先验概率(prior),$H$初始的信任度;$p(E|H)$表示似然函数;$p(H|E)$表示的是后验概率(poster),考虑了$E$后的信任度;$p(E)$表示边缘似然,或是称为模型置信度;这个因子对于所有假设都是一样的,可以不用考虑;根据上面的贝叶斯定理,在贝叶斯推断中,我们可以根据先验概率和似然函数,求出后验概率;得出后验概率可以作为下面继续推断的先验概率。上面的贝叶斯概率解释在PRML里面,从始至终都在使用,所以这个理论的基础知识还是必须知道的。由于在实际的使用中,E的概率对于我们的模型没有影响,我们可以省略掉,所以贝叶斯定理也可以表示为:
$$posterior \propto likelihood \times prior $$
这在PRML概率计算后验概率时,非常常用,对于我们理解很有帮助。

概率分布

了解了概率的基本知识以后,了解常见的概率分布是必要的。随机变量有两种:离散型和连续型,所以概率分布也有两种基本类型,离散概率分布和连续概率分布。概率质量函数(probability mass function, pmf)用来描述离散分布;而概率密度函数(probability density function, pdf)用来描述连续分布;两者非常的不同,在pmf中,每个变量x的pmf(x)都对应一个概率值,即x事件发生的概率;在pdf中,每个变量的对应取值不是概率,只有通过积分,才能得到概率。
下面分别看一下,离散概率分布和连续概率分布的例子,离散概率分布我们看一下Bernoulli distribution,连续概率分布看一下guassian distribution。
Bernoulli distribution:$$Pr(x=1)=1-Pr(x=0)$$
对于像Bernoulli distribution这样的离散分布,可以通过枚举的方式列出概率分布,如下:
X 0 1
P(X) $\mu$ $1-\mu$
guassian distribution: $$\mathcal N(x|\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$
其中,$\mu$是均值,$\sigma$是标准差(其中$\sigma^2$是方差)。
 
 
在分布中,根据的概率定理,可以推导出边缘分布,条件分布等,可以参考具体的书籍。

期望与方差

对于离散随机变量与连续的随机变量来说,期望与方差的求法不同,
期望 :
$$\mathbf E(X)=\sum_{x\in var(X)}xp(x)$$
$$\mathbf E(X)=\int_{x\in var(X)}xf(x)$$
方差:
$$Var(X)=\mathbf ((X-\mathbf E(X))^2)$$
期望和方差也有许多的性质,用到的时候找书

Inference

决策论是一个交叉的学科,他教人们如何决策,来达到最优效果。在这里我们只关注和机器学习相关的一点知识。在这里我们接触到的一个非常重要的概念就是:loss function。这在后面我们的线性分类和回归模型中都有用到。loss function用来测量我们在做出某一个决策时发生的损失。例如:一个输入变量$x$,它输入$C_k$类,我们的决策却将其分在了$C_j$类,这时我们就说发生了损失,不妨用$L_{kj}$来表示。设$x,C_k$的联合概率用$p(x,C_k)$来表示,则loss function的期望就是:
$$\mathbb E(L)=\sum_k\sum_j\int_{R_j}L_{kj}p(x,C_k)dx$$
上面就是分类的loss function,我们的目的就是最小化这个函数。
在分类问题中,我们一般采用三种方式解决,
  1. 判别函数。直接由训练集合的好一个函数$f(x)$,用来对新的输入做判断。
  2. 概率生成模型。由训练集得到$p(x|C_j),p(C_j)$,然后利用贝叶斯定理得到后验概率$p(C_j|x)$,在根据后验做最优判断。
  3. 概率判别模型。直接由训练集合得到后验概率$p(C_j|x)$,然后用它来做最优判断。

可以看出,后验概率$p(C_j|x)$,非常重要,在实际的判别中起到重要作用。具体的推断方法有:

  1. 最大似然估计:最大似然估计会寻找关于的最可能的值(即在所有可能的取值中,寻找一个值使这个采样的“可能性”最大化)。等价于优化最小平方和误差函数。实际应用中一般会取似然函数的对数作为求最大值的函数,这样求出的最大值和直接求最大值得到的结果是相同的。似然函数的最大值不一定唯一,也不一定存在,公式如下:$$argmax_Hp(E|H)$$
  2. 最大后验估计:最大后验估计是根据经验数据获得对难以观察的量的点估计。它与最大似然估计中的经典方法有密切关系,但是它使用了一个增大的优化目标,这种方法将被估计量的先验分布融合到其中。所以最大后验估计可以看作是规则化(regularization)的最大似然估计。$$argmax_Hp(E|H)p(H)$$最大后验估计可以用以下几种方法计算:(1)解析方法,当后验分布的模能够用 closed form 方式表示的时候用这种方法。当使用conjugate prior 的时候就是这种情况。(2)通过如共扼积分法或者牛顿法这样的数值优化方法进行,这通常需要一阶或者导数,导数需要通过解析或者数值方法得到。(3)通过期望最大化算法的修改实现,这种方法不需要后验密度的导数。尽管使用了先验知识,但是MAP通常不被认为是一种贝叶斯估计,因为它实际还是一种点估计,而贝叶斯使用这些分布来总结数据、得到推论。Bayesian 方法试图算出后验均值或者中值以及posterior interval,而不是后验模。MAP相当于在平方和误差函数的基础上,增加一个正则化项。

总结

概率论在机器学习和模式识别中有基础性的作用,现在的机器学习算法基本都构建在概率论的基础上的。这是因为在这些研究中,我们常常遇到的一个难题就是应对不确定性。面对这些不确定性,概率论为我们提供了一个完整的框架。比如:在图像标注问题中,一张X照,让分类器做正常还是不正常的分类,我们经常做的就是利用概率知识,来推断后验概率模型,然后在用它来做最优的判断。得到概率知识后,使用决策论就可以作最优化决策。
现在的知识储备还是不行,大学里面学的都是经典的概率论,关于贝叶斯观点的概率根本就没有介绍。但是在PRML这本书里面将贝叶斯作为了一个主轴,有时间必须好好看看《概率论沉思录》,使用R语言玩玩也不错呀。
这里还有几个问题没有解决呀。像random vector,概率到底是怎么用到模型中去的,还有点模糊。
 
Avatar_small
scturtle 说:
2012年11月17日 21:35

期望的公式加个 \cdot 就好看了,estimate 和 estimator 总是搞混啊,楼主可否也讲一下


登录 *


loading captcha image...
(输入验证码)
or Ctrl+Enter
Host by is-Programmer.com | Power by Chito 1.3.3 beta | © 2007 LinuxGem | Design by Matthew "Agent Spork" McGee