第三章:最大似然估计&贝叶斯参数估计2介绍贝叶斯框架下的数据收集在以下条件下我们可以设计一个可选择的分类器:P(i)(先验)P(x|i)(类条件密度)不幸的是,我们极少能够完整的得到这些信息!从一个传统的样本中设计一个分类器先验估计不成问题样本对于类条件密度估计太小了(特征空间维数太大了!)13这个问题的一个先验信息P(x|i)的正态性P(x|i)~N(i,i)用两个参数标示估计最大似然估计(ML)和贝叶斯估计结果近似于独立,但是方法是不同的14最大似然估计中的参数是固定的但是未知!通过最大化所观察的样本概率得到最优的参数贝叶斯方法把参数当成服从已知分布的随机变量在这两种方法中,我们用P(i|x)表示分类规则!15最大似然估计当样本数目增加时,收敛性质会更好比其他可选择的技术更加简单一般的原理假设有c类并且P(x|j)~N(j,j)P(x|j)P(x|j,j)当:2121122(,)(,,...,,,cov(,)...)mnjjjjjjjjxx6使用训练样本提供的信息估计=(1,2,…,c),每个i(i=1,2,…,c)和每一类相关假定D包括n个样本,x1,x2,…,xn的最大似然估计是通过定义最大化P(D|)的值“值与实际观察中的训练样本最相符”1(|)(|)()(|)iscalledthelikelihoodofw.r.t.thesetofsamples)knkkPDPxFPD2ˆ728最优估计令=(1,2,…,p)t并令为梯度算子thegradientoperator我们定义l()为对数似然方程l()=lnP(D|)新问题陈述:定义为使对数似然最大的值12,,...,tp2ˆarg()maxl9最优值所需要满足的条件如下:1(ln(|))knkklPx20l10特殊情况的例子:未知P(xi|)~N(,)(样本从一组多变量正态分布中提取)=,因此:•的最大似然估计必须满足:1111ln(|)ln(2)()()22ln(|)()dtkkkkkPxxxandPxx211ˆ()0knkkx11•乘并且重新排序,我们得到:即训练样本的算术平均值!结论:如果P(xk|j)(j=1,2,…,c)被假定为d维特征空间中的高斯分布;然后我们能够估计向量=(1,2,…,c)t从而得到最优分类!211ˆknkkxn12最大似然估计:高斯例子:未知和=(1,2)=(,2)2221212122122211ln(|)ln2()22(ln(|))0(ln(|))1()0()1022kkkkkklPxxPxlPxxx13最后得到:合并(1)和(2),得到如下方程:11221211221()0(1)ˆˆ()10(2)ˆˆknkkknknkkkxx22211();knkknkkkxxnn14偏差2的最大似然估计是有偏的的一个基本的无偏估计是:22211().inExxnn21covariancematrix1ˆC()()n-1kntkkkSamplexx15附录:ML问题陈述令D={x1,x2,…,xn}P(x1,…,xn|)=1,nP(xk|);|D|=n我们的目标是终结(的值使得这个样本变得最有代表性!)ˆ216|D|=nx1x2xn..................x11x20x10x8x9x1N(j,j)=P(xj,1)D1DcDkP(xj|1)P(xj|k)217问题:找到=(1,2,…,c)使得:ˆ211(|)(,...,|)(|)nnkkMaxPDMaxPxxMaxPx18贝叶斯估计(模式分类问题的贝叶斯)在最大似然估计中被假定为固定值在贝叶斯估计中是随机变量后验概率P(i|x)的计算取决于贝叶斯分类的中心目标:计算P(i|x,D)假设样本为D,贝叶斯方程可以写成:c1jjjiii)|(P).,|x(P)|(P).,|x(P),x|(PDDDDD319为了证明以上方程,使用:)(P).,|x(P)(P).,|x(P),x|(P:Thus)this!providessample(Training)|(P)(P)|,x(P)|x(P)|(P).|x(P)|,x(Pc1jjjiiiiiijjiiiDDDDDDDDD320贝叶斯参数估计:高斯过程目标:使用后验密度P(|D)估计普遍情况:P(|D)是唯一未知参数(0与0未知!)),N(~)P(),N(~)|P(x2002421复制密度将(1)与(2)相加得到:nk1kk)(P).|x(P(1)d)(P).|(P)(P).|(P)|(PDDD(2)),(N~)|(P2nnD2202202n02202n220020nnand.nˆnn422423一种普遍的情况P(x|D)计算得到P(|D)P(x|D)仍然需要计算得到!由此可得:(期望得到的分类条件密度P(x|Dj,j))因此:已知P(x|Dj,j)和P(j)使用贝叶斯公式,我们得到贝叶斯分类准则:Gaussianisd)|(P).|x(P)|x(PDD),(N~)|x(P2n2nD)(P).,|x(PMax,x|(PMaxjjjjjjDD424贝叶斯参数估计:一般规则P(x|D)的计算可应用于所有能参数化未知密度的情况中,基本假设如下:假定P(x|)的形式未知,但是的值并不明确知道被假定为满足一个已知的先验密度P()除此以外,包含在集合D中,其中D是由n维随机变量x1,x2,…,xn表示的P(x)组成的集合525基本的问题是:“计算先验密度P(|D)”然后“推导出P(x|D)”使用贝叶斯方程,我们得到:然后由独立性假设:)|x(P)|(Pknk1kD,d)(P).|(P)(P).|(P)|(PDDD526维数问题问题包括50或100个特征(二进制)分类精度取决于维数和训练样本的数量有相同系数的两组多维向量情况0)error(Plim)()(r:wheredue21)error(Pr211t21222u2/r727如果特征是独立的,则有:最有用的特征是均值差与标准方差严重相关在实际观察中我们发现,考虑较多的特征会导致更糟糕的结果而不是好的结果:我们的模型有误2di1ii2i1i22d2221r),...,,(diag72877729计算的复杂性我们设计的方法受到计算难度的影响“bigoh”notationf(x)=O(h(x))“bigohofh(x)”如果:(Anupperboundonf(x)growsnoworsethanh(x)forsufficientlylargex!)f(x)=2+3x+4x2g(x)=x2f(x)=O(x2))x(hc)x(f;)x,c(0200730“bigoh”并不是唯一的!f(x)=O(x2);f(x)=O(x3);f(x)=O(x4)“bigtheta”notationf(x)=(h(x))如果:f(x)=(x2)butf(x)(x3))x(gc)x(f)x(gc0xx;)c,c,x(2103210731最大似然估计的复杂性首先考虑高斯d维分类器,c类样本,每类有n个训练样本对于每个分类,我们必须计算出辨别式函数总和=O(d2..n)c分类的总和=O(cd2.n)O(d2.n)当d和n很大的时候会更费劲!)n(O)n.2d(O)1(O)2d.n(O1t)n.d(O)(Plnˆln212ln2d)ˆx()ˆx(21)x(g732成分分析与辨别式组合特征从而降低特征空间的维数线形组合通常比较容易计算和处理将高维数据投影到一个低维空间里去使用两种分类方法寻找理想一点的线性传递PCA(主成份分析)“在最小均方误差意义下的数据的最优表示的映射”MDA(多类判别分析)“在最小均方误差意义下的数据的最有分类的映射”833隐藏马尔可夫模型:马尔可夫链目标:建立一系列决策Processesthatunfoldintime,statesattimetareinfluencedbyastateattimet-1应用:语音识别,姿势识别,部分语音追踪和DNA排序所有无记忆的随机过程T={(1),(2),(3),…,(T)}为状态序列我们可以得到6={1,4,2,2,1,4}这个系统能够再现不同阶段的状态而且不是所有的状态都需要巡视1034一阶马尔可夫模型所有序列的结果都由传递概率表示P(j(t+1)|i(t))=aij10351036=(aij,T)P(T|)=a14.a42.a22.a21.a14.P((1)=i)例子:语音识别“productionofspokenwords”Productionoftheword:“模式”由音素表示/p//a//tt//er//n///(//=silentstate)Transitionsfrom/p/to/a/,/a/to/tt/,/tt/toer/,/er/to/n/and/n/toasilentstate1037隐性马尔可夫模型(HMM)可视状态与隐藏状态的相互影响bjk=1对所有j当bjk=P(Vk(t)|j(t)).这个模型存在三个问题估计问题解码问题学习问题38估计问题该模型生产出一列可视状态VT是有可能的,即:当每个r指示T个隐藏状态所组成的一组特殊序列)(P)|V(P)V(PTrr1rTrTTmax)T(),...,2(),1(TrTt1tTrTt1tTrT))1t(|)t((P)P((2)))t(|)t(v(P)|V(P)1(39使用方程(1)和(2),我们能够写成:例子:令1,2,3为隐藏状态;v1,v2,v3为可视状态V3={v1,v2,v3}为可视状态序列P({v1,v2,v3})=P(1).P(v1|1).P(2|1).P(v2|2).P(3|2).P(v3|3)+…+(总的可能项数=所有的可能性(33=27)的情况!)maxr1rTt1tT)1t(|)t((P))t(|)t(v(P)V(P40第一概率:第二概率:P({v1,v2,v3})=P(2).P(v1|2).P(3|2).P(v2|3).P(1|3).P(v3|1)+…+因此:stateshiddenofsequencepossible3t1t321))1t(|)t((P)).t(|)t(v(P})v,v,v({P1(t=1)2(t=2)3(t=3)v1v2v32(t=1)1(t=3)3(t=2)v3v2v141解码问题(最优状态序列)假设VT为可视状态序列,解码问题就是找出最有可能的隐藏状态序列.这个问题用数学的方式表示如下:找出单个的“最佳”状态序列(隐藏状