三种参数学习方法,频率学派的MLE,贝叶斯学派的MAP、EAP

频率学派的MLE

最大似然估计(MLE)指的是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值θ,即能使似然函数取到最大值的θ。
image
根据条件独立性假设,贝叶斯网络可以进行因子分解。

贝叶斯学派的做法:MAP、EAP

贝叶斯使用了迪利克雷分布作为先验。
为什么使用狄利克雷分布作为先验?迪利克雷与共轭先验的意义。

共轭先验

image
假定似然函数p(x|θ)是已知的,问题就是选取什么样的先验分布p(θ)使得后验分布与先验分布具有相同的数学形式,这样方便计算,直接通过先验分布给出后验分布的解析解。
如何做到先验分布在乘以一个似然函数之后还能得到跟原来先验分布形式差不多的式子呢?最直接的想法是构造一个跟似然函数长得差不多的分布函数。

以二项分布和Beta分布为例

image
image
a和 b是常量,θ取值范围为(0, 1)。
为了它是个分布,给它前面乘上个因子k,并对它求积分使其等于1:
image
image
image,则image
image,这就是我们的Beta分布,容易推出Beta分布乘上一个二项分布的似然函数之后仍是Beta分布。
image
Beta(a,b)在经过N次独立同分布的伯努利实验,并成功了z次后,参数更新为Beta(a+z,b+N-z)。

例如有人跟你玩掷硬币,正面你赢反面他赢。你心想这个糟老头被人抓过出老千,怕是要阴我,于是你给的定了个Beta(2,8)的先验,这代表你认为这枚硬币抛出正面的概率θ应该大概率是0.2左右。跟他玩了1000次,对半输赢,于是你的先验被更新为Beta(502,508),这时候概率θ取0.5左右的可能性变得最高,你开始相信他带了一枚公平的硬币过来

但如果你固执地认为他一定会阴你,可以一开始把先验设成Beta(1,100000),这样即使是一样的经历,你的先验更新为Beta(501,100500),θ还是取得0左右的概率最高,即使新拿到的1000笔真实数据比较乐观,但基于这悬殊的“样本”比例,你会认为他带了枚欺骗性强的作弊硬币.
Beta分布
Beta分布的参数a和b的相对大小决定了Beta分布尖峰的位置,而a+b的大小决定了尖峰的陡峭程度

多项式分布和迪利克雷分布

多项式分布是二项分布的推广,只不过是从掷硬币改成了掷骰子。

多项式分布似然函数的形式:
image
定义一个跟它长得差不多的函数:
image
计算归一化因子:
image
将归一化因子乘上我们之前的猜想形式:
image
容易推出迪利克雷分布乘上一个多项式分布的似然函数之后仍是迪利克雷分布。
迪利克雷分布
此图展示了当_K_=3、参数_α_从_α_=(0.3, 0.3, 0.3)变化到(2.0, 2.0, 2.0)时,密度函数取对数后的变化。

回到贝叶斯网络,
image
image
MAP将分布中概率密度取得最大值的θ作为结果返回。
为了方便计算,先验分布一般选用似然函数的共轭分布。例如,假设数据是从二项分布里采样出来的,就用Beta分布作为先验;假定数据是从多项式分布里采样出来的,我们就用迪利克雷分布。

MAP求解的是后验概率的最大值,这是否合理呢?让我们考虑以下情况[7]:
image此时MAP会选择左边的尖峰,
但它并不能良好地反映变量的分布情况,也就是说某些情况下只关注单个取值可能是具有误导性的。在这种情况下我们返回条件期望或许是更好的选择,直观看来,EAP返回的是分布与轴形成闭合图像重心所对应的θ。
image改为条件期望:image
相应的解析解为:image


祢豆子
1 声望0 粉丝