第3章概率密度函数的估计3.1引言3.2最大似然估计与正态分布的参数估计3.3Bayes估计与正态分布参数的估计3.4总体分布的非参数估计3.5EM算法3.6HMM3.7分类器错误率的估计问题3.1引言在贝叶斯决策理论中,基本的已知条件是:类先验概率P(ωi)类条件概率密度p(x|ωi)问题:如何得到这些密度函数?面临的实际情况是:对于一个具体问题,我们只有有限数目的样本(所属类别有可能还是未知的)分类器的设计分成两步来完成:1利用样本集估计出P(ωi)、p(x|ωi)(本章要解决的基本问题)2利用Bayes决策理论设计分类器(前一章已经解决的问题)本章要解决的三个问题1.如何用样本集估计出P(ωi)、p(x|ωi)的估计量2.评估与分析估计量的性质3.利用样本集估计分类器错误率的方法ˆˆ(),(|)iiPpx从样本集推断总体概率分布的方法估计方法参数估计非参数估计监督参数估计非监督参数估计说明:监督:样本的类别是已知的非监督:样本的类别是未知的参数估计:概率密度形式已知,只需推断出其中的未知参数非参数估计:直接推断出概率密度本身监督参数估计条件:已知样本所属的类别及类条件总体概率密度函数的形式,未知概率密度函数的某些参数监督参数估计:从已知类别的样本集,推断(估计)出总体分布(每一类概率密度函数)的某些参数的方法例如:从样本求正态分布的均值向量与协方差矩阵非监督参数估计条件:未知样本所属类别,已知总体概率密度函数形式,但未知其中的某些参数非监督参数估计:推断出总体概率密度函数中的某些参数的方法非参数估计条件:已知样本所属类别,但未知总体概率密度函数的形式非参数估计:从已知类别的样本数据中,直接推断出概率密度函数本身方法样本类别函数形式目标监督参数估计已知已知求函数参数非监督参数估计未知已知求函数参数非参数估计已知未知求密度函数估计方法的数学原理:参数估计方法:•最大似然估计方法与Bayes估计方法非参数估计方法:•Parzen窗法与kN近邻法•最大似然估计中的参数是固定的但是未知!•通过最大化所观察的样本概率得到最优的参数•贝叶斯方法把参数当成服从已知分布的随机变量最大似然估计与贝叶斯估计的不同:1统计量2参数空间3点估计、估计量(估计子)、估计值4区间估计参数估计的基本概念:1统计量目的:样本中包含着总体的信息,希望有一种数学手段将样本集中的有关信息抽取出来统计量:针对不同要求构造出的关于样本的某种函数,这种函数在统计学中称为统计量2参数空间在参数估计中,已知总体概率密度函数的形式,未知分布中的若干参数(记为θ)在统计学中,将总体分布未知参数θ的全部可容许值组成的集合称为参数空间,记为Θ(例如,n维实数空间)3点估计点估计问题是利用样本数据估计出总体分布参数的值估计量(估计子):构造一个统计量d(x1,…,xN)作为参数θ的估计,在统计学中称为θ的估计量(估计子)ˆθˆθ估计值:对于属于类别ωi的样本观察值,代入统计量d(x1,…,xN)得到第i类的的具体数值,这个数值在统计学中称为θ的估计值估计量的性能评估估计量是随机变量,不同的样本有不同的估计值无偏估计量:估计量的期望等于真实参数ˆ{θ}θE渐近无偏估计量:当样本数目趋于无穷时,估计量的期望等于真实参数值ˆlim{θ}θNNE3.2最大似然估计与正态分布的参数估计3.2.1最大似然估计的基本理论3.2.2正态分布参数的最大似然估计值3.2.3用身高、体重区分男女生的例子假设条件:①待估计参数θ是确定性的未知量②按类别将样本划分c类,第i样本都是从类概率密度p(x|ωi)的总体中独立地抽取出来的3.2.1最大似然估计的基本理论③类条件概率密度p(x|ωi)的函数形式是确定的,但是其中的某些参数是未知的④第i类的样本不包含有关θj(i≠j)的信息。不同类别的参数在函数上相互独立,每一类样本可以独立进行处理在满足四个假设条件下,可以将c类概率密度估计问题转化为c个独立的密度估计问题,分别单独进行处理记号:,(|)pθxθ待求的参数向量待求的概率密度,并表示θ有关似然函数的定义:N个随机变量x1,…xN的似然函数是N个随机变量的联合密度1(θ)(x,...,x|θ)Nlp这是θ的函数设某一类样本集有N个样本1{,...,}NXxx它们是独立地按照概率密度p(x|θ)抽取出来的(独立同分布样本)似然函数为111(θ)(x,...,x|θ)(x|θ)...(x|θ)(x|θ)NNNkklpppp含义:从总体中抽取x1,…xN这样N个样本的概率(可能性)最大似然估计的主要思想:如果在一次观察中一个事件出现了,则我们可以认为这一事件出现的可能性很大。现在,事件(x1,…xN)在一次观察(从概率总体中抽取一组样本)中居然出现了,则我们认为似然函数l(θ)应该达到最大值最大似然估计量:设l(θ)是样本集X={x1,…,xN}的似然函数,如果1ˆθ()(x,...,x)NdXd是参数空间Θ中使似然函数l(θ)极大化的θ值,则称其是θ的最大似然估计量(估计子)便于分析,可以取似然函数的对数,即()ln()Hlθθ对数函数是单调增函数,H(θ)与l(θ)的最大点相同求最大似然估计量的方法如果H(θ)满足一定数学性质(连续可微),可以直接应用高等数学的知识来求最大点,即求梯度(偏导数),令其等于零,解线性或者非线性方程组得到估计量设T1θ[,...,]S梯度算子1...S11(θ)(x|θ)(θ)ln(θ)ln(x|θ)NkkNkklpHlp11(θ)ln(θ)ln(x|θ)(θ)ln(x|θ)(θ)0NkkNkkHlpHpH从中求解出θ的最大似然估计量3.2.2正态分布参数的最大似然估计值单变量正态分布的概率密度函数2121(|)exp2xpx要求的未知参数(均值与方差)T2T12θ[,][,]我们已知N个一维样本集12{,,...,}NXxxx问题:利用最大似然估计法,针对上述样本集,求出均值与方差的估计值T2T12θ[,][,]1(θ)ln(|θ)0NkkHpx2121(|)exp2kxkpx212221122()11222ln(|)ln(2)ln(2)kkxkxpx1(θ)ln(|θ)0NkkHpx212()1112222ln(|)ln(2)ln()kxkpx1221222()()122ln(|θ)kkxkxpx1(θ)ln(|θ)0NkkHpx1221222()()122ln(|θ)kkxkxpx1221222()1()11100kkNxkNNxkk最大似然估计量满足的方程1221222()1()11100kkNxkNNxkk21112121()NkNkNkNkxx均值方差对于多元正态分布的概率密度函数11221122T(x)expxμΣxμdp11T11μx(xμ)(xμ)NkNkNkkNk均值向量协方差矩阵解释:•正态总体均值的最大似然估计量是学习样本的算术平均•正态总体方差的最大似然估计量是N个矩阵的算术平均T(xμ)(xμ)kk性质:•均值的估计是无偏的•协方差矩阵的估计是渐近无偏的T11(xμ)(xμ)NkkNkT111(xμ)(xμ)NkkNk无偏估计3.2.3用身高、体重区分男女生的例子到现在为止,我们知道:•Bayes决策理论•概率密度参数的最大似然估计下面讲一个简单的应用我们的任务可能是:•大学生男女同学在身高、体重方面的差别•大学生男女同学在身高、体重方面是否存在明显的界限?•用同学们的身高、体重来区分男女同学?解决的方案:已讲的分类方法来处理模式识别系统的基本构造数据获取预处理特征提取与选择分类器设计分类决策训练过程决策过程只考虑特征形成数据获取:给每一个同学发一张小纸条,要求同学将自己的身高(cm)、体重(kg)、性别(男、女)资料写在上面,最后收集小纸条数据预处理:•检查身高数据与单位、体重数据与单位是否有问题,如身高以m为单位,体重以斤为单位,如有则统一改成cm和k•是否有野值数据,如,身高200cm,体重100kg特征形成:每一个同学有三个数据:•性别(类别标识)•身高(第一个特征)•体重(第二个特征)收集整理的样本构成两个样本集,各包含50个男女同学的数据:•样本集1(50个男生、50个女生):作为训练样本集•样本集2(50个男生、50个女生):作为测试样本集样本集1样本集2男女Byes分类器设计假设男女生样本分别满足各自的正态分布,针对样本集1,利用最大似然估计方法分别求出男女生的均值向量和协方差矩阵11T111μx(xμ)(xμ)NkNkNkkNk男生:均值向量和协方差矩阵174.13μ66.61m20.912.252.2572.01m1500.9m10.04800.00150.00150.0139m概率密度函数(男生)女生:均值向量和协方差矩阵161.03μ51.96f20.069.529.5229.78f10.05880.01880.01880.0396fΣ509.79f概率密度函数(女生)(最小错误率)Bayes决策规则:(x|)()(x|)()thenxmmffmfpPpPif这里,我们假设两类先验概率相等男生女生决策面方程:(x|)()(x|)()mmffpPpP(x|)(x|)mfpp决策面分类决策过程:我们将样本集2作为待分类的新样本,判断每一学生的性别3.3Bayes估计和正态分布的参数估计3.3.1Bayes估计的基本理论3.3.2正态分布参数的Bayes估计量借助于最小风险Bayes决策的思想来进行参数估计Bayes估计将未知的参数看成具有某一种分布的随机变量3.3.1Bayes估计的基本理论最小风险Bayes决策理论状态空间决策空间待识别对象损失11T1{,...,}{,...,}[,...,]or(,)cadijijxxx条件期望损失或条件风险:对于具体的x,采取决策αi所造成的平均损失1(|x)(,)(|x)ciijjjRP注:x是特征空间中的任意随机变量,不同x对应于不同的条件风险期望风险或者Bayes风险:采取决策αi总的平均损失,即条件风险的期望11(|x)(x)x(,)(|x)(x)x(,)(x,)xdddiEcijjEjcijjEjRRpdPpdPd最小风险Bayes决策:使R最小的决策αk1,..,(|x)(x)xmin(|x)(x)xddkEiEiaRpdRpd决策问题转化为参数估计问题设有一个样本集X(不是一个x),我们要找出一个估计量(不是最佳决策αk),用于估计X所属总体的某一个真实参数θ(不是真实状态ωk),使得Bayes风险最小ˆθ两个问题参数之间的对应关系决策问题样本x决策αi真实状态ωj离散的状态空间A先验概率P(ωj)估计问题样本集X估计量真实参数θ连续的参数空间Θ参数的先验分布p(θ)ˆθ1(,)(x,)xdcijjEjRPd(最小风险)Bayes决策Bayes估计(参数连续,求和变积分)ˆ(θ,θ)(x,θ)θxdERPdd损失函数:真实值与估计值之间的损失(x|θ)(θ)(