第三章概率密度函数的估计3.1引言计算贝叶斯后验概率进行决策21)()()()()(jjjiiiPxpPxpxP实现中有问题吗?能直接计算吗?问题:先验概率未知,医生可大致估计类条件概率密度呢?以疾病诊断问题为例只能通过已知的一些数据去估计概率密度函数的估计设计贝叶斯分类器第一步,利用样本集估计)(ixp和)(iP分别记为)(ˆixp和)(ˆiP第二步,将估计量代入贝叶斯决策规则中是否能达到理论结果?N时)(ˆixp收敛于)(ixp)(ˆiP收敛于)(ˆiP由样本集估计总体概率密度的方法可分为:(1)监督参数估计:样本所属类别及类条件总体概率密度函数形式已知,表征概率密度函数的某些参数未知.(2)非监督参数估计:已知总体概率密度函数形式但未知样本所属类别,要求推断出概率密度函数的某些参数.(3)非参数估计:已知样本所属类别,未知总体概率密度函数的形式,直接推断概率密度函数本身.3.2参数估计的基本概念(1)统计量:样本中包含着总体的信息,针对不同要求构造出样本的某种函数,这种函数在统计学中称统计量.(2)参数空间:假设总体概率密度函数形式已知,未知分布中的参数的全部可容许值组成的集合称为参数空间,记为(3)点估计、估计量、估计值:点估计问题就是要构造一个统计量作为参数的估计),...,(21Nxxxdˆˆ称为的估计量如果)()(1,...iNixx是属于类别i的几个样本的观察值,代入统计量d就得到对于第i类的ˆ的具体数值,这一数值称为的估计值.区间估计:给出区间),(21dd作为可能的取值范围这个区间叫置信区间,这类问题称为区间估计.3.2.1最大似然估计基本假设(1)参数是确定(非随机)的而未知的量(2)按类别把样本集分开,类中的每个样本都是独立地从概率密度为j)(jxp的总体中独立地抽取出来的(3)类条件概率密度)(jxp为已知分布参数向量未知)(jxp),(jjxp(4)假定i中不包含关于)(ijj的信息,即不同类别的参数在函数上是独立的估计过程某类样本集中包含有N个样本Nxxx,...,21由样本独立抽取假设NkkNxpxxxpp121)(),...,()()(p称为相对于样本集的的似然函数似然函数的定义:)()...()(),...,()(2121NNxpxpxpxxxpl最大似然估计量:令)(l为样本集的似然函数Nxxx,...,21如果)...,()(ˆ,21Nxxxdd是参数空间中能使似然函数极大化的,那么ˆ就是的最大似然估计量.第i类样本的类条件概率密度:P(Xi/ωi)=P(Xi/ωi﹒θi)=P(Xi/θi)原属于i类的学习样本为Xi=(X1,X2,…XN,)Ti=1,2,…M求θi的最大似然估计就是把P(Xi/θi)看成θi的函数,求出使它最大时的θi值。∵学习样本独立从总体样本集中抽取的∴N个学习样本出现概率的乘积取对数:NkiXkPiXPiiXPii1)|()|().|(NkikikNkXPXP11)|(log)|(log对θi求导,并令它为0:有时上式是多解的,上图有5个解,只有一个解最大即.0)|(log...11NkikpXP0)|(log..................0)|(log111ikNkpikNkXPXPP(Xi/θi)=,即为的估值利用上式求出ii多维正态分布情况①∑已知,μ未知,估计μ服从正态分布所以在正态分布时)|(iiXP0)|(log1XPkNk121|]|2log[21)|(XXXPkkTnkNkkX110NkkX1101i待估参数为代入上式得所以这说明未知均值的最大似然估计正好是训练样本的算术平均。110)(NkkNXNkkXN11②∑,μ均未知A.一维情况:n=1对于每个学习样本只有一个特征的简单情况:(n=1)由上式得即学习样本的算术平均样本方差21211,1222212log21)|(logXXPkik0)(1)|(log11211XXPkNkikNk代入0]2)(21[)|(log12212212NkkikNkXXPNkkXN1111NkXkN122121•结论:1.正态总体均值的最大似然估计即为学习样本的算术平均2.正态总体方差的最大似然估计与样本的方差不同,当N较大的时候,二者的差别不大。多维情况:n个特征估计值:结论:①μ的估计即为学习样本的算术平均②估计的协方差矩阵是矩阵的算术平均(nⅹn阵列,nⅹn个值)NkkXN111XTXNkNkk121XXkTk3.2.2贝叶斯估计和贝叶斯学习最小风险贝叶斯决策aixPaaExaRcjjjijii,...2,1)(),()],([)(1)(min)(,...1xaRxaRiaikka就是最小风险贝叶斯决策)ˆ(xR为给定x条件下估计量ˆ的期望损失,称条件风险,我们定义:如果的估计量ˆ使条件风险最小,则称ˆ是关于的贝叶斯估计量.损失函数有不同的定义,此处我们规定损失函数为平方误差损失函数.2)ˆ(),ˆ(定理:如果损失函数为二次函数,即2)ˆ()ˆ(则的贝叶斯估计量ˆ为在给定x时的条件期望,即dxpxE)(][ˆ参数估计问题:设有一个样本集,要求我们找出估计量ˆ用来估计所属总体分布的某个真实参数使带来的贝叶斯风险最小,即为贝叶斯估计.最大似然估计是把待估的参数看作固定的未知量,而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量,通过对第i类学习样本Xi的观察,使概率密度分布P(Xi/θ)转化为后验概率P(θ/Xi),再求贝叶斯估计。估计步骤:①确定θ的先验分布P(θ),待估参数为随机变量。②用第i类样本xi=(x1,x2,….xN)T求出样本的联合概率密度分布P(xi|θ),它是θ的函数。③利用贝叶斯公式,求θ的后验概率④dPXPPXPXPiii)()|()().|()|((证明略)求贝叶斯估计dXPi)|(正态分布的均值估计一维正态分布:已知σ2,估计μ假设概率密度服从正态分布P(X|μ)=N(μ,σ2),P(μ)=N(μ0,σ02)第i类学习样本xi=(x1,x2,….xN)T,i=1,2,…M后验概率(贝叶斯公式)dPXPPXPXPiii)()|()().|()|(因为N个样本是独立抽取的,所以上式可以写成其中为比例因子,只与x有关,与μ无关∵P(Xk|μ)=N(μ,σ2),P(u)=N(μ0,σ02)其中a’,a’’包含了所有与μ无关的因子NkkiPXPaXP1)().|()|(dPXPai)()|(1]}21exp[2121exp{21)|(00221kNkiXaXP]}[21exp{'10022NkkXa]})1(2)1[(21exp{''200122202NkkXNa∴P(μ|xi)是u的二次函数的指数函数∴P(μ|xi)仍然是一个正态函数,P(μ|Xi)=N(μN,σN2)另外后验概率可以直接写成正态形式:比较以上两个式子,对应的系数应该相等∴]21exp[21)|(2NNNiXP0201222022111NkkNNXNN解以上两式得将μN,σN2代入P(μ|Xi)可以得到后验概率,再用公式02022120202NXNNkkN2022022NN的估计求,)|(dXPiNidXP)|(02022120202NXNNkkNN(因为正态分布)与最大似然估计相似,只是分母不同NkkXNN111)1,0(),()(00NNPN贝叶斯学习前面学习了两种参数估计的方法.最终目的是估计总体分布)(xpiX求贝叶斯估计步骤:①确定θ的先验分布P(θ),待估参数为随机变量。②用第i类样本xi=(x1,x2,….xN)T求出样本的联合概率密度分布P(xi|θ),它是θ的函数。③利用贝叶斯公式,求θ的后验概率dXPi)|(求贝叶斯估计4.dPXPPXPXPiii)()|()().|()|(我们在第三步后可以直接通过联合密度求类条件概率密度dXpxpdXxpXxpiii)()(),()(3.3非监督参数估计在未知样本类别的条件下的参数估计称为非监督参数估计.几个基本假设:(1)样本来自类数为c的各类中,但不知道每个样本究竟来自哪一类(2)每类的先验概率cjPi,...,2,1),(已知(3)类条件概率密度的形式cjxpjj,...,1),,(已知(4)未知的只是c个参数向量c,...,,21的值似然函数:为样本集的联合密度)()(pl假设每个样本的类别未知,但样本从混合密度为cjjjjPxpxp1)(),()(的总体中独立抽取出来的,被观察函数的似然函数定义为)()()(1kNkxppl对数似然函数为:NkkxplH1)(ln)](ln[)(最大似然估计就是使似然函数最大的ˆ满足)(max)ˆ(1kNkxplNkkxpH1)](ln[max)ˆ(如何求得估计量?NkcjjjjkkPxpxpHii110)](),([)(1)(3.4总体分布的非参数估计NNN^VNk(x)pNNklim0limNNV0limNkNN条件:3.5分类器错误率估计留一法样本划分法