本文为原创文章,未经本人允许,禁止转载。转载请注明出处。
1.条件概率
条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:$P(A\mid B)$,读作“在B的条件下A的概率”。
\[P(A\mid B)=\frac{P(AB)}{P(B)}\]2.全概率公式
全概率公式将对一复杂事件A的概率求解问题转化为了在不同情况下发生的简单事件的概率的求和问题。
如果事件$B_1,B_2,B_3,…,B_n$构成一个完备事件组,即它们两两互不相容,其和为全集;并且任意$P(B_i)>0$,则对任一事件A有:
\[P(A)=P(A\mid B_1)P(B_1)+P(A\mid B_2)P(B_2)+...+P(A\mid B_n)P(B_n)\]也可写为:
\[P(A)=P(AB_1)+P(AB_2)+...+P(AB_n)\]3.贝叶斯公式
事件A和事件B同时发生的概率为$P(AB)$。根据条件概率的公式有:
- $P(AB)=P(A\mid B)P(B)$
- $P(AB)=P(B\mid A)P(A)$
由此推导出贝叶斯公式:
\[P(A\mid B)=\frac{P(B\mid A)P(A)}{P(B)}\]代入全概率公式,贝叶斯公式也可扩展为($j\in n$):
\[P(A_j\mid B)=\frac{P(B\mid A_j)P(A_j)}{\sum^n_{i=1} P(B\mid A_i)P(A_i)}\]4.贝叶斯公式的应用
4.1.例子1
常见的概率分布基本上都有参数,比如正态分布有$(\mu,\sigma)$两个参数,泊松分布有一个参数$\lambda$。那么对这些参数的估计通常有两种思路:
- 利用经验得到一个关于参数的先验分布(如贝叶斯公式)。
- 不对参数先验分布做任何假设,只利用当前观测的数据来对参数进行估计(如极大似然估计)。
后续博客会对参数估计有更详细的介绍。
4.2.例子2
假设有两个箱子,一号箱里面有3颗水果糖和1颗巧克力糖,二号箱里面有2颗水果糖和2颗巧克力糖。现在随机选择一个箱子并从里面拿出一颗糖,发现是水果糖。请问这颗水果糖来自一号箱的概率有多大?
根据第3部分的贝叶斯公式,我们要求的是:
\[P(A_j=一号箱 \mid B=水果糖)\]分别计算:
\[P(A_j=一号箱)=\frac{1}{2}\] \[P(B=水果糖 \mid A_j=一号箱)=\frac{3}{4}\]然后计算全概率:
\[\begin{align} P(B=水果糖) & = P(B=水果糖 \mid A_i=一号箱)P(A_i=一号箱)+P(B=水果糖 \mid A_i=二号箱)P(A_i=二号箱) \\ &= \frac{3}{4} \cdot \frac{1}{2}+\frac{2}{4} \cdot \frac{1}{2} \\&= \frac{5}{8} \end{align}\]将上述结果带入贝叶斯公式,最终得到:
\[P(A_j=一号箱 \mid B=水果糖)=\frac{\frac{3}{4}\cdot \frac{1}{2}}{\frac{5}{8}}=\frac{3}{5}\]5.先验分布、似然函数、后验分布
\[P(\theta \mid X)=\frac{P(X\mid \theta)P(\theta)}{\int_{\theta '}p(X\mid \theta ')p(\theta ')d\theta '}\]其中大写P表示概率,小写p表示概率密度。
- $P(\theta)$为先验概率,其概率分布为先验分布。
- $P(X\mid \theta)$为似然概率,或称似然函数。
- $P(\theta \mid X)$为后验概率,其概率分布为后验分布。
整个公式可简化为:
\[posterior=\frac{likelihood*prior}{evidence}\]5.1.共轭分布
如果参数的后验分布与先验分布属于同一类分布,那么我们说这种先验分布为共轭分布(conjugate prior)。同时,这种先验分布被称为似然函数的共轭先验。