模式识别武汉大学电子信息学院武汉大学电子信息学院第3章概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院3.1引言贝叶斯决策:已知p(x|ωi)和P(ωi),对未知样本分类(设计分类器)实际问题:已知一定数目的样本,对未知样本分类(设计分类器)怎么办?一种很自然的想法:首先根据样本估计p(x|ωi)和P(ωi),记然后用估计的概率密度设计贝叶斯分类器。——(基于样本的)两步贝叶斯决策概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院希望:当样本数N→∞时,如此得到的分类器收敛于理论上的最优解。为此,需•重要前提:•训练样本的分布能代表样本的真实分布,所谓i.i.d条件•有充分的训练样本概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院本章研究内容:①如何利用样本集估计概率密度函数?②估计量的性质如何?③如何根据样本集估计错误率?估计概率密度的两种基本方法:参数方法(parametricmethods)非参数方法(nonparametricmethods)概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院3.2参数估计的基本概念和方法参数估计(parametricestimation):已知概率密度函数的形式,只是其中几个参数未知,目标是根据样本估计这些参数的值。几个名词:统计量(statistics):样本的某种函数,用来作为对某参数的估计参数空间(parametricspace):待估计参数的取值空间θ∈Θ估计量(estimation):概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院3.2.1最大似然估计(MaximumLikelihoodEstimation)假设条件:①参数θ是确定的未知量,(不是随机量)②各类样本集Xi,i=1,..,c中的样本都是从密度为p(x|ωi)的总体中独立抽取出来的,(独立同分布,i.i.d.)③p(x|ωi)具有某种确定的函数形式,只其参数θ未知④各类样本只包含本类分布的信息概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院似然函数(likelihoodfunction)概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院求解:若似然函数满足连续可微的条件,则最大似然估计量就是方程的解(必要条件)。概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院讨论:•如果l(θ)或H(θ)连续可导,存在最大值,且上述必要条件方程组有唯一解,则其解就是最大似然估计量。(比如多元正态分布)。•如果必要条件有多解,则需从中求似然函数最大者•若不满足连续可导,则无一般性方法,用其它方法求最大(见课本均匀分布例)概率密度函数的估计模式识别武汉大学电子信息学院最大似然估计1ˆargmax()argmaxln(|)MLnkklpθθθθxθ使l(θ)为最大的θ取值为θ的最大似然估计值ˆ概率密度函数的估计模式识别武汉大学电子信息学院最大似然估计图解概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院3.3正态分布的监督参数估计3.3.1最大似然估计示例以单变量正态分布为例概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院3.2参数估计的基本概念和方法3.2.2贝叶斯估计和贝叶斯学习(一)贝叶斯估计思路与贝叶斯决策类似,只是离散的决策状态变成了连续的估计。思考题:请课后与贝叶斯决策比较基本思想:把待估计参数θ看作具有先验分布p(θ)的随机变量,其取值与样本集X有关,根据样本集估计θ。概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院最小化期望风险⇒最小化条件风险(对所有可能的x)有限样本集下,最小经验风险:概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院•贝叶斯估计量:•(在样本集X下)使条件风险(经验风险)最小的估计量θˆ。•离散情况:损失函数表(决策表)•连续情况:损失函数•常用的损失函数:•定理3.1•如果采用平方误差损失函数,则θ的贝叶斯估计量θˆ是在给定x时θ的条件期望,即概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院•同理可得到,在给定样本集X下,θ的贝叶斯估计是:•求贝叶斯估计的方法:(平方误差损失下)概率密度函数的估计自学证明过程模式识别武汉大学电子信息学院武汉大学电子信息学院概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院(二)贝叶斯学习概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院估计量的性质与评价标准•——无偏性、有效性和一致性•无偏性和有效性:对于多次估计,估计量能以较小的方差平均地表示真实值。•一致性:当样本数无穷多时,每一次估计都在概率意义上任意接近真实值。概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院3.4非参数估计概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院3.4非参数估计•非参数估计:密度函数的形式未知,也不作假设,利用训练数据直接对概率密度进行估计。又称作模型无关方法。–参数估计需要事先假定一种分布函数,利用样本数据估计其参数。又称作基于模型的方法•两种主要非参数估计方法:–直方图法–核函数方法•Parzen窗法•kN-近邻法–神经网络方法:PNN概率密度函数的估计模式识别武汉大学电子信息学院概率密度函数的估计模式识别武汉大学电子信息学院概率密度函数的估计非参数概率密度估计的最简单方法(1)把x的每个分量分成k个等间隔小窗,(x∈Ed,则形成kd个小舱)(2)统计落入各个小舱内的样本数qi(3)相应小舱的概率密度为qi/(NV)(N:样本总数,V:小舱体环)模式识别武汉大学电子信息学院武汉大学电子信息学院3.5总体分布的非参数估计•估计的目的:从样本集K={x1,x2,…,xN}估计样本空间中任何一点的概率密度p(x)•基本方法:用某种核函数表示某一样本对待估计的密度函数的贡献,所有样本所作贡献的线性组合(函数之和)视作对某点概率密度p(x)的估计1ˆ()()NNiipxxx非参数估计概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院核函数方法图解非参数估计核函数概率密度函数的估计模式识别武汉大学电子信息学院基本方法•基本思想:两种常用的方法:–Parzen窗法(通过窗宽控制体积):–kN-近邻法(控制样本个数):()/ˆ()kNNNNNPkNpVVxˆ()()(1)lim0(2)lim(3)lim0NNNNNNNppxVkkNx收敛于的条件:非参数估计1NhVN1NkhNX的概率()=概率密度(单位体积的概率)╳x所在区域体积=落入该区域的样本点数/样本总数)(kNP落入该区域的样本点数样本总数区域体积概率密度函数的估计模式识别武汉大学电子信息学院核函数的选择•核函数需满足归一化条件:()0()1uudu两种常用的核函数:非参数估计概率密度函数的估计模式识别武汉大学电子信息学院3.5.2Parzen窗法•样本集KN={x1,x2,…,xN}•区域RN是一个d维超立方体,棱长hN,体积VN=hNd•定义窗函数:11,1,2,...,()20otherwisejujdu超立方体内样本数:某点概率密度p(x)的估计1()NiNiNkhxx111ˆ()()NiNiNNpNVhxxx非参数估计()/ˆ()kNNNNNPkNpVVx概率密度函数的估计模式识别武汉大学电子信息学院概率密度函数的估计模式识别武汉大学电子信息学院窗宽的选择•hN是控制“窗”宽度的参数,根据样本的数量选择–太大:平均化,分辨力低–太小:统计变动大•为保证估计依概率渐进收敛到真实的概率密度,即:估计收敛的充要条件:ˆ()()()PNpxpxpxlim0limNNdNNhNh非参数估计11NdhhN0limNNV概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院不同窗宽的估计效果非参数估计估计单一正态分布概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院Parzen窗法示例非参数估计大小少多窗口样本估计二个均匀分布概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院有限样本的影响•均方误差最小(MSE)准则维数灾难(CurseofDimensionality):当维数较高时,样本数量无法达到精确估计的要求。424ˆMSE((()()))()dNEpxpxON样本数维数N4/(d+4)1610.13220.117850.13162100.13E+13500.1非参数估计概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院3.5.3kN-近邻估计•均匀核函数Parzen估计,窗宽固定,不同位臵落在窗内的样本点的数目是变化的。•kN-近邻估计:把窗扩大到刚好覆盖kN个点。落在窗内的样本点的数目固定,窗宽是变化的。kN根据样本总数N选择。•概率密度估计表达式:点x处窗的“体积”是Vn:1ˆ()NNNkpxVN非参数估计概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院kN-近邻法举例•kN的选择:–渐进收敛容易保证;–有限样本性质、最小平方误差与Parzen窗几乎相同非参数估计概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院3.6分类器错误率的估计•在处理实际问题时,更多的是利用样本来估计错误率。–对于已设计好的分类器,利用样本来估计错误率。TestDataset。–对于未设计好的分类器,需将样本分成两部分(TrainDataset和TestDataset)。概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院已设计好的分类器的错误率估计•错误率的估计:错分样本数/总样本数错误率估计/kN这是错误率的最大似然估计。错分样本数k是随机变量,服从二项分布()(1)kNkNkPkC()()(1)EkNDkN,概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院错误率估计的统计性质•是真实错误率的无偏估计错误率估计测试样本数越多,估计越有效,估计的置信区间越小。如果已知各类的先验概率,则可进行选择性抽样产生测试样本集,这比随机抽样更为有效。()()(1)/EDN,概率密度函数的估计模式识别武汉大学电子信息学院武汉大学电子信息学院未设计好的分类器的错误率估计•需要把样本集分为训练集和测试集–C-法:利用N个样本设计,也利用这N个样本测试。得到乐观估计。–U-法:把样本集分为训练集和测试集。得到保守估计。•样本划分法:样本数需要比较多,测试样本数越多越有效。•留一法:样本较少时,N-1个样本设计,另一样本测试,遍历N个样本。假设错分样本数为K,则错误率估计为:概率密度函数的估计错误率估计/KN模式识别武汉大学电子信息学院武汉大学电子信息学院3.7讨论•概率密度函数包含了随机变量的全部信息,是导致估计困难的重要原因。•高维概率分布的估计无论在理论上还是实际操作中都是一个十分困难的问题。•进行模式识别并不需要利用概率密度的所有信息,只需要求出分类面。•先估计概