Chapter3:最大似然估计和贝叶斯参数估计2要点:•重点掌握最大似然估计和贝叶斯参数估计的原理;•熟练掌握主成分分析和Fisher线性分析;•掌握隐马尔可夫模型;•了解维数问题;3贝叶斯框架下的数据收集在以下条件下我们可以设计一个可选择的分类器:P(i)(先验)P(x|i)(类条件密度)不幸的是,我们极少能够完整的得到这些信息!从一个传统的样本中设计一个分类器先验估计不成问题对类条件密度的估计存在两个问题:1)样本对于类条件估计太少了;2)特征空间维数太大了,计算复杂度太高。1•3.1引言4如果可以将类条件密度参数化,则可以显著降低难度。例如:P(x|i)的正态性P(x|i)~N(i,i)用两个参数表示将概率密度估计问题转化为参数估计问题。估计最大似然估计(ML)和贝叶斯估计;结果通常很接近,但是方法本质是不同的。5最大似然估计将参数看作是确定的量,只是其值是未知!通过最大化所观察的样本概率得到最优的参数—用分析方法。贝叶斯方法把参数当成服从某种先验概率分布的随机变量,对样本进行观测的过程,就是把先验概率密度转化成为后验概率密度,使得对于每个新样本,后验概率密度函数在待估参数的真实值附近形成最大尖峰。在这两种方法中,我们都用后验概率P(i|x)表示分类准则!6当样本数目增加时,收敛性质会更好;比其他可选择的技术更加简单。假设有c类样本,并且1)每个样本集的样本都是独立同分布的随机变量;2)P(x|j)形式已知但参数未知,例如P(x|j)~N(j,j);3)记P(x|j)P(x|j,j),其中(,)jjj•3.2最大似然估计最大似然估计的优点:3.2.1基本原理7使用训练样本提供的信息估计=(1,2,…,c),每个i(i=1,2,…,c)只和每一类相关。假定D包括n个样本,x1,x2,…,xn的最大似然估计是通过定义最大化P(D|)的值“值与实际观察中的训练样本最相符”1(|)(|)()(|)DknkkPDPxFPD被称为样本集下的似然函数2ˆ829最优估计令=(1,2,…,p)t并令为梯度算子thegradientoperator我们定义l()为对数似然函数:l()=lnP(D|)新问题陈述:求解为使对数似然最大的值12,,...,tpˆargmax()l10对数似然函数l()显然是依赖于样本集D,有:最优求解条件如下:1()ln(|)()0nkklPxl1()ln(|)nkklPx令:来求解.11P(xk|)~N(,)(样本从一组多变量正态分布中提取)这里=,因此:•的最大似然估计必须满足:1111ln(|)ln(2)()()22ln(|)()dtkkkkkPxxxPxx和211ˆ()0nkkx3.2.3高斯情况:未知12•乘并且重新排序,我们得到:即训练样本的算术平均值!结论:如果P(xk|j)(j=1,2,…,c)被假定为d维特征空间中的高斯分布;然后我们能够估计向量=(1,2,…,c)t从而得到最优分类!211ˆnkkxn13未知和,对于单样本xk=(1,2)=(,2)221212122122211()ln(|)ln2()22(ln(|))0(ln(|))1()0()1022kkkkkklPxxPxlPxxx3.2.3高斯情况:和均未知14对于全部样本,最后得到:联合公式(1)和(2),得到如下结果:11221211221()0(1)ˆˆ()10(2)ˆˆnkknnkkkxx22211();nknkkkxxnn152的最大似然估计是有偏的(渐进无偏估计)的一个基本的无偏估计是:22211().inExxnn21covariancematrix1ˆC()()n-1kntkkkSamplexx3.2.4偏差估计16模型错误会怎么样?达不到最优!17在最大似然估计中被假定为固定值在贝叶斯估计中是随机变量目标:计算P(i|x,D)假设样本为D,贝叶斯方程可以写成:1(|,).(|)(|,)(|,).(|)iiicjjjPxDPDPxDPxDPD•3.3贝叶斯估计3.3.1类条件密度18因此,核心工作就是要估计先验概率通常可以事先获得,因此每个样本只依赖于所属的类,有:1(|,)(|,)(|,).()(|,)(|,).()iiiiiiicjjjjPxDPxDPxDPPxDPxDP()(|)iiPPD故:即:只要在每类中,独立计算就可以确定x的类别。(|,)iiPxD(|)PxD19假设的形式已知,参数的值未知,因此条件概率密度是知道的;假设参数是随机变量,先验概率密度函数p()已知,利用贝叶斯公式可以计算后验概率密度函数p(|D);希望后验概率密度函数p(|D)在的真实值附件有非常显著的尖峰,则可以使用后验密度p(|D)估计;3.3.2参数的分布()px(|)px20注意到3.3.2参数的分布(|)(,|)(|)(|)pxDpxDdpxpDd如果p(|D)在某个值附件有非常显著的尖峰,则ˆˆ(|)(|)pxDpx即:如果条件概率密度具有一个已知的形式,则利用已有的训练样本,就能够通过p(|D)对p(x|D)进行估计。21单变量情形的p(|D)3.4贝叶斯参数估计:高斯过程22200002001122010(|)~(,),()~(,),(;)(|)(),,,(|)(|)()(|)(|)()1'exp2nnkknkkpxNpNpDpDxxpDpDpdpDpxpx是未知的。假设和已知是最好的估计是该估计的不确定性202222100111exp22nkknx22复制密度202222220022002222002220220(|)~(,)[reproducingdensity][():conjugateprior]11ˆ,ˆnnnnnnnnnpDNpnnσnnnσn称11ˆnnkknx其中,23结论:0020nnn0ˆˆˆ0,,nnn是和的线性组合,总是位于和的连线上;当时将逼近否则。贝叶斯学习24单变量情形的p(x|D)222222222222222222(|)(|)(|)11exp(,)221(,)exp22(|)~(,)nnnnnnnnnnnnnpxDpxpDdxfxnfdpxDN其中,25多变量情形:001111111110001(|)~(),()~(),,(|)(|)()1'exp2ˆ,1ˆnnkktnnnnnnnnnkkpNpNDpDpxpnnnxΣΣxxΣΣΣΣΣΣΣx其中,复制密度其中仅µ未知.2611111110000100111ˆ11(|)(|)(|)(|)~(,)(|)~(,)(|)(|)~(,)nnnnnnnnnnnnpDppDdpNpDNpDpDNABAABBBABAΣΣΣΣΣΣΣΣΣΣΣxxyxy0ΣΣxyΣΣ利用,得利用令27多变量学习283.5贝叶斯参数估计:一般理论p(x|D)的计算可推广于所有能参数化未知密度的情况中,基本假设如下:假定p(x|)的形式已知,但是的值未知。被假定为满足一个已知的先验密度P()其余的的信息包含在集合D中,其中D是由n维随机变量x1,x2,…,xn组成的集合,它们服从于概率密度函数p(x)。基本的问题是:计算后验密度p(|D),然后推导出p(x|D)。291(|)(|)(|)(|)()(|)(|)()(|)(|)nkkpDppDdpDppDpDpdpDpxxx问题:p(x|D)是否能收敛到p(x),计算复杂度如何?(49)(50)(51)30递归贝叶斯学习)()|()|()|()|()|()|()()|()()|()|()()|()|()()|()|()()|()()|()|()|()|()|(,,,0111111111pDpdDppDppDpdpDppDpDpdpDpppDppdpDppDpDpDppDpDnnnnnnnnnnnnnnnnnnnnxxxxxxx该过程称为参数估计的递归贝叶斯方法,一种增量学习方法。因为:所以:令:31例1:递归贝叶斯学习010122121/0(|)~(0,)0()~(0,10),4,7,2,8(|)()~(0,10)1/410(|)(|)(|)01/710(|)(|)(|)0(|)1/max10nnnxxpxUpUDpDpUpDpxpDpDpxpDpDD假设:其他对于其他对于其他对于32例1:递归贝叶斯学习(|)~(0,8)pxDU33例1:Bayesvs.ML(|)(|)(|)pDppDdxx贝叶斯参数估计以来:34唯一性问题p(x|)是唯一的:后验概率序列p(|Dn)收敛到delta函数;只要训练样本足够多,则p(x|)能唯一确定。在某些情况下,不同值会产生同一个p(x|)。p(|Dn)将在附近产生峰值,这时不管p(x|)是否唯一,p(x|Dn)总会收敛到p(x)。因此不确定性客观存在。35最大似然估计和贝叶斯参数估计的区别最大似然估计贝叶斯参数估计计算复杂度微分多重积分可理解性确定易理解不确定不易理解先验信息的信任程度不准确准确例如p(x|)与初始假设一致与初始假设不一致36分类误差种类:贝叶斯错误或不可分错误,例如P(x|i)之间相互重叠引起,固有问题;模型错误,ML与Bays犯错一样;估计错误,训练样本个数有限产生。37Gibbs算法00(|)(|)(|)(|)(|)(|)[Gibbs]pDppDdpDpDpxxxx依据来选择使得算法在较弱的假设条件下,Gibbs算法的误差概率至多是贝叶斯最优分类器的两倍。38统计量任何样本集D的函数;充分统计量即是一个样本集D的函数s,其中s包含了有助于估计参数的所有所有信息,即p(D|s,)与无关;满足上面如果是随机变量,则可以写成)|()|()|(),|(),|(ssssspDppDpDp•3.6充分统计量反过来也成立。39因式分解定理:一个关于参数的统计量s是充分统计量当且仅当概率分布函数P(D|)能够写成乘积形式:P(D|)=g(s,)h(D)其中g(.,.)和h(.)是两个函数。40例子:多维高斯分布