第三章概率密度函数的估计3.1引言3.2最大似然估计(MaximumLikelihoodEstimation)3.3贝叶斯估计和贝叶斯学习3.4概率密度估计的非参数方法本章主要内容介绍3.1引言贝叶斯决策:已知和,对未知样本分类(设计分类器)实际问题:已知一定数目的样本,对未知样本分类(设计分类器)怎么办?一种很自然的想法:首先根据样本估计和,记和然后用估计的概率密度设计贝叶斯分类器。——(基于样本的)两步贝叶斯决策)(iP)|(ipx)|(ipx)(iP)|(ˆipx)(ˆiP3.1引言希望:当样本数时,如此得到的分类器收敛于理论上的最优解。为此,需重要前提:训练样本的分布能代表样本的真实分布,所谓i.i.d条件有充分的训练样本本章讨论内容:如何利用样本集估计概率密度函数?估计概率密度的两种基本方法:参数方法(parametricmethods)非参数方法(nonparametricmethods)不假定数学模型,直接用已知类别的学习样本的先验知识直接估计数学模型。N)|()|(ˆiNippxx)()(ˆiNiPP二.监督学习与无监督学习监督学习:在已知类别样本指导下的学习和训练,参数估计和非参数估计都属于监督学习。无监督学习:不知道样本类别,只知道样本的某些信息去估计,如:聚类分析。3.1引言基本概念参数估计(parametricestimation):已知概率密度函数的形式,只是其中几个参数未知,目标是根据样本估计这些参数的值。几个名词:统计量(statistics):样本的某种函数,用来作为对某参数的估计参数空间(parametricspace):待估计参数的取值空间估计量(estimation):),,,(ˆ21Nxxx3.2最大似然估计(MaximumLikelihoodEstimation)假设条件:①参数是确定的未知量,(不是随机量)②各类样本集,中的样本都是从密度为的总体中独立抽取出来的,(独立同分布,i.i.d.)③具有某种确定的函数形式,只其参数未知④各类样本只包含本类分布的信息其中,参数通常是向量,比如一维正态分布,未知参数可能是,此时可写成或。iXci,,1)|(ipx)|(ipx),(21iN2iii)|(ipx),|(iipx)|(ipx23.2最大似然估计(MaximumLikelihoodEstimation)鉴于上述假设,我们可以只考虑一类样本,记已知样本为似然函数(likelihoodfunction)——在参数下观测到样本集的概率(联合分布)密度基本思想:如果在参数下最大,则应是“最可能”的参数值,它是样本集的函数,记作。称作最大似然估计量。为了便于分析,还可以定义对数似然函数。Nxxx,,,21X)|()|,,,()|()(121iNiNxpxxxpplXXˆ)(lˆ)(),,,(ˆ21XdxxxdN)(ln)(lH3.2最大似然估计(MaximumLikelihoodEstimation)求解:若似然函数满足连续、可微的条件,则最大似然估计量就是方程或的解(必要条件)。若未知参数不止一个,即,记梯度算子则最大似然估计量的必要条件由S个方程组成:0/)(ddl0/)(ddHTs],,,[21Ts,,,210)(H3.2最大似然估计(MaximumLikelihoodEstimation)讨论:如果似然函数连续、可微,存在最大值,且上述必要条件方程组有唯一解,则其解就是最大似然估计量。(比如多元正态分布)。如果必要条件有多解,则需从中求似然函数最大者若不满足条件,则无一般性方法,用其它方法求最大(以均匀分布为例)上图有5个解,只有一个解最大即.0)|(log...11NkikpXP0)|(log..................0)|(log111ikNkpikNkXPXPP(Xi/θi)=,即为的估值利用上式求出ii3.2最大似然估计(MaximumLikelihoodEstimation)正态分布下的最大似然估计示例以单变量正态分布为例,,样本集似然函数T],[21122221exp21)|(xxpNxxx,,,21X)|()|()(1kNkxppxlX3.2最大似然估计(MaximumLikelihoodEstimation)对数似然函数最大似然估计量满足方程而)|(ln)(ln)(1kNkxPxlHˆ0)|(ln)(1kNkxpH2122)(212ln21)|(lnkkxxp3.2最大似然估计(MaximumLikelihoodEstimation)得方程组解得2122212)(2121)(1)|(lnkkkxxxp0)ˆ(ˆ10)ˆ(ˆ12221121121kNkNkkNkxxkNkxN111ˆˆ2122)ˆ(1ˆˆkNkxN2.多维正态分布情况①∑已知,μ未知,估计μ服从正态分布所以在正态分布时)|(iiXP0)|(log1XPkNk121|]|2log[21)|(XXXPkkTnkNkkX110NkkX1101i待估参数为代入上式得所以这说明未知均值的最大似然估计正好是训练样本的算术平均。110)(NkkNXNkkXN11②∑,μ均未知A.一维情况:n=1对于每个学习样本只有一个特征的简单情况:(n=1)由上式得即学习样本的算术平均样本方差21211,1222212log21)|(logXXPkik0)(1)|(log11211XXPkNkikNk代入0]2)(21[)|(log12212212NkkikNkXXPNkkXN1111NkXkN122121讨论:1.正态总体均值的最大似然估计即为学习样本的算术平均2.正态总体方差的最大似然估计与样本的方差不同,当N较大的时候,二者的差别不大。B.多维情况:n个特征(学生可以自行推出下式)估计值:结论:①μ的估计即为学习样本的算术平均②估计的协方差矩阵是矩阵的算术平均(nⅹn阵列,nⅹn个值)NkkXN111XTXNkNkk121XXkTk极大似然估计分布待估参数极大似然估计二项p泊松λ指数λ正态μ正态σ2m1iiXmn1pˆn1iiXn1ˆn1iiXnˆn1iiXn1ˆn1i2i2)XX(n1ˆ3.3贝叶斯估计和贝叶斯学习贝叶斯估计思路与贝叶斯决策类似,只是离散的决策状态变成了连续的估计。基本思想:把待估计参数看作具有先验分布的随机变量,其取值与样本集有关,根据样本集估计。损失函数:把估计为所造成的损失,记为)(pXNxxx,,,21Xˆ),ˆ(3.3贝叶斯估计和贝叶斯学习期望风险:其中,,条件风险:最小化期望风险最小化条件风险(对所有可能的)有限样本集下,最小化经验风险:xxddpRdE),(),ˆ(xxxddppdE)()|(),ˆ(xxxdpRdE)()|ˆ(dExdpR)|(),ˆ()|ˆ(xxdExxdpR)|(),ˆ()|ˆ(XX3.3贝叶斯估计和贝叶斯学习贝叶斯估计量:(在样本集下)使条件风险(经验风险)最小的估计量。损失:离散情况:损失函数表(决策表);连续情况:损失函数常用的损失函数:(平方误差损失函数)定理3.1请自学证明过程如果采用平方误差损失函数,则的贝叶斯估计量是在给定时的条件期望,即同理可得到,在给定样本集下,的贝叶斯估计是:Xˆ2)ˆ(),ˆ(ˆxdpE)|(]|[ˆxxXdpE)|(]|[ˆXX3.3贝叶斯估计和贝叶斯学习求贝叶斯估计的方法:(平方误差损失下)(1)确定的先验分布(2)求样本集的联合分布(3)求的后验概率分布(4)求的贝叶斯估计量)(p)|()|(1iNippxXdppppp)()|()()|()|(XXXdp)|(ˆX3.3贝叶斯估计和贝叶斯学习我们也可直接推断总体分布其中,。设的最大似然估计为,则在处很可能有一尖峰,若如此,且先验概率在处非零且在附近变化不大,则,即贝叶斯估计结果与最大似然估计结果近似相等。如的峰值不尖锐,则不能用最大似然估计来代替贝叶斯估计。dppp)|()|()|(XXxxdppppp)()|()()|()|(XXXlˆlˆ)|(Xp)(plˆ)ˆ|()|(lppxxX)|(Xp所有可能的参数取值下的样本概率密度的加权平均3.3贝叶斯估计和贝叶斯学习考虑估计的收敛性:记学习样本个数,样本集时有因此有递推后验概率公式:设,则随着样本数增多,可得后验概率密度函数序列:,,——参数估计的递推贝叶斯方法如果此序列收敛于以真实参数值为中心的函数,则把这一性质称作贝叶斯学习。此时NNxxx,,,21X1N)|()|()|(1NNNpppXXxdpppppNNNNN)|()|()|()|()|(11XXXxx)()|(ppX)(p)|(1xp),,|(21xxp)()ˆ|()|(xxxpppNXdppppp)()|()()|()|(XXX三.贝叶斯学习1.贝叶斯学习的概念:求出μ的后验概率之后,直接去推导总体分布即当观察一个样本时,N=1就会有一个μ的估计值的修正值当观察N=4时,对μ进行修正,向真正的μ靠近当观察N=9时,对μ进行修正,向真正的μ靠的更近当N↑,μN就反映了观察到N个样本后对μ的最好推测,而σN2反映了这种推测的不确定性,N↑,σN2↓,σN2随观察样本增加而单调减小,且当N→∞,σN2→0当N↑,P(μ|xi)越来越尖峰突起N→∞,P(μ|xi)→σ函数,这个过程成为贝叶斯学习。dXPXPdXPXPXXPiii)|()|()|()|()|(43.3贝叶斯估计和贝叶斯学习正态分布下的贝叶斯估计示例请自学推导过程一维,已知,估计。假设先验分布结论:其中-----样本信息与先验知识的线性组合讨论:时,;时,若,则(先验知识可靠,样本不起作用)若,则(先验知识十分不确定,完全依靠样本信息)),(~)|(2Nxp2),(~)(200Np0220222020ˆNmNNNiNiNNmx110N0ˆNNmˆ02000ˆNmˆ3.3贝叶斯估计和贝叶斯学习的密度:当时,,函数。22,~21exp21)|(NNNNNNNμpX0220222020NmNNNN2202202NNN02N)|(Xp3.3贝叶斯估计和贝叶斯学习均值,方差由增为-----由于用了的估计值而不确定性增加其他分布的情况:参