概率密度估计与非参数回归曾焰版本1.0,最后修订于2017-11-05摘要陈希孺等[1]第六章的内容摘要。1概率密度估计1.1几种重要的密度估计方法1.直方图法。这个方法可描述如下:假设随机变量X有密度f,并有X的独立同分布样本X1,,Xn。选择一个适当的正数h,把全直线分为一些长为h的区间。任取这些区间之一,记为I。对x2I,我们有f(x)P(X2I)h∑ni=11fXi2Ign1h(1.1)这一方法重要的是h的选择。h太大了,平均化的作用突出了,而淹没了密度的细节部分。太小了,则受随机性影响太大,而产生极不规则的形状。h的选择无现成规则可循。实际操作中,我们可能需要取一些不等长的区间,这样的直方图估计称为“Data-based”的直方图估计。直方图估计的优点是简单易行,缺点是它不是连续函数(这可以通过适当地修匀来解决),且从统计角度看一般说效率较低。例如,在这一方法下,每一区间中心部分密度估计较准,而边缘部分则较差。2.Rosenblatt法。为克服直方图法的一个缺点——对每个区间边缘部分密度值的估计较差,Rosenblatt在1955年提出了一个简单的改进。指定一个正数h,对每个x,定义Ix=[x h2;x+h2],并对密度函数f作如下估计fn(x)∆=fn(x;X1;;Xn)=∑ni=11fXi2Ixgn1h(1.2)Rosenblatt法与直方图法不同之处仅在于,它事先不把分割区间定下来,而让区间随着要估计之点x跑,使x始终处在区间之中心位置,而获致较好的效果。理论上可以证明,从估计量与被估计量接近的数量级上看,Rosenblatt方法确实优于直方图法。3.Parzen的核估计。直观上可以设想:为估计f(x),与x靠近的样本,所起作用似应比远离x的样本要大些。这些在Parzen于1962年提出的核估计方法中都得到了体现。为介绍Parzen的思想,我们先将(1.2)式变换一个形式,引进一个函数W(x)=I[ 12;12](x)11概率密度估计2则(1.2)式可改写为fn(x)=1nhn∑i=1W(x Xih)W()定义的是R1上的均匀密度函数。Parzen的推广即在于去掉这一特殊性,而容许W为一般的密度函数。定义1.1.设K()是R1上的一个给定的概率密度函数,hn0是一个同n有关的常数,定义fn(x)=1nhnn∑i=1K(x Xihn)(1.3)称fn为总体未知密度f的一个核估计,K为核函数,hn为窗宽。1在给定样本之后,一个核估计性能的好坏,取决于核及窗宽的选取是否适当。当hn选得过大,由于x经过压缩变换x Xihn之后使分布的主要部分的某些特征(如多峰性)被掩盖起来了,估计量有较大偏差。如hn太小,整个估计特别是尾部出现较大的干扰,从而有增大方差的趋势。因而在实际使用核估计时,如何选取适当的宽度是一项很细致的工作。选择核K是否适当,同样要影响估计的精度。原则上,我们可以对核K施加一定的限制,使得估计量与待估函数的偏差在一定意义下尽可能地小。例如可以要求K有对称性,其一阶矩(关于密度K)为零,具有有界性、连续性等等。在文献中,核估计已成为密度估计的主要方法。4.最近邻估计。这一方法较适合于密度的局部估计。其要旨如下:设X1,,Xn是来自未知密度f的样本。先选定一个同n有关的整数k=kn,合于1kn,对固定的x2R1,记an(x)为最小的正数a使得[x a;x+a]中至少包含X1,,Xn中的k个。定义^fn(x)=kn2an(x)n(1.4)为f(x)的估计,称^fn为f的最近邻估计(简记为N.N.估计)。下面的引理说明:从整体看,N.N.估计的性质与核估计有很大的不同。引理1.1.(1)对固定n及X1,,Xn,^fn(x)作为变元x的函数是处处连续的。(2)^fn(x)作为变元x的函数非概率密度,并且^fn(x)=O(1n),当jxj!1。特别地,我们有∫^fn(x)dx=1引理1.1的性质(2)与待估f的尾部特征无关,因而对相当一类待估密度,估计^fn(x)的尾部衰减得太慢,从而^fn不适宜用作f的整体估计。下面的引理给出了^fn(x)的分布。引理1.2.对固定x2R1,n1,有P(an(x)y)=n∑i=kCinpi(y)(1 p(y))n i=nCk 1n 1∫p(y)0tk 1(1 t)n kdt,y0,1这一定义考虑的是X为一维的情况。若X为d维,只须将(1.3)式中分母nhn改为nhdn。1概率密度估计3其中p(y)=∫x+yx yf(t)dt=P(x yXx+y)如果令K(x)=8:12;jxj10;jxj1,则可将N.N.估计改写为^fn(x)=1nan(x)n∑i=1K(x Xian(x))于是在单个点x上的N.N.估计与核估计差别不大,只有当同时考虑在几个点或者估计整个f时,这两种方法才显示出差别。N.N.估计由于计算上有某种方便之处,这种方法被广泛地用于模式识别及非参数判别分析。1.2估计精度的度量我们用Tn(x)∆=Tn(x;X1;;Xn)表示基于样本X1,,Xn的、对未知密度f(x)的任一估计。由于Tn(x)既同样本有关,又是考察点的函数,因而对固定的考察点x,估计精度的一种自然测度为MSE(Tn(x))=Ef[(Tn(x) f(x))2]=(Ef[Tn(x)] f(x))2+Varf(Tn(x)),(1.5)称(1.5)为估计Tn的均方误差,其中Ef表示期望是在真分布为f时的计算。(1.5)右端是由两个部分组成:第一项是偏差项,而第二项是估计的方差。要同时减少这两部分是困难的:通常,如降低偏差,则方差有增大的趋向,反之亦然。例如当Tn(x)为核估计时,有Ef[Tn(x)]=∫K(y)f(x hny)dy,Varf[Tn(x)]=1nhn∫K2(y)f(x hny)dy 1n[∫K(y)f(x hny)dy]2因而一个核估计的光滑程度只与光滑参数hn有关(当核K已确定时),而与n无直接关系。对于密度估计来说,更有实际意义的精度的度量应是整体性的测度。一个被广泛使用的整体测度是积分均方误差(MISE):MISE(Tn)=E[∫(Tn(x) f(x))2dx]=∫MSE(Tn(x))dx=∫(Ef[Tn(x)] f(x))2dx+∫Varf(Tn(x))dx=积分偏差平方和+积分方差我们在前段对均方误差的分析,同样可施用于积分均方误差。对核估计来说,应该选择hn使得相应的核估计其MISE达到最小。为便于计算及理论分析,我们可以通过泰勒展开,得到估计偏差及方差的渐进表达式。为简单计,设K是对称密度函数,满足:∫tK(t)dt=0,k2∆=∫t2K(t)dt̸=0,而f具有二阶有界连续导数且f′′2L2(R1),h∆=hn!0,当n!1。则有如下渐近公式:∫(Ef[Tn(x)] f(x))2dx14h4k22∫[f′′(x)]2dx;∫Varf(Tn(x))dx(nh) 1∫K2(u)du2密度估计的大样本性质4合并可得MISE的渐近公式:MISE14h4k22∫[f′′(x)]2dx+(nh) 1∫K2(u)du(1.6)再对上式右端关于h求极小,得到渐近最佳窗宽hopt=k 2/52[∫K2(u)du]1/5[∫[f′′(x)]2dx] 1/5n 1/5(1.7)公式(1.7)表明:最佳渐近窗宽随n增大以n 1/5的速度趋于零。如将由(1.7)确定的hopt代入(1.6),则有MISE54C(K){∫[f′′(x)]2dx}1/5n 4/5其中C(K)=k2/52[∫K2(t)dt]4/5然后可依使C(K)尽可能小的原则选择K。从上述公式可看出这样一个事实:不论h及K如何选取,作为核估计来说,其积分均方误差收敛于零的速度,其主要部分的阶不能超过4/5。这在理论分析上是很有意义的。1.3密度估计的应用密度估计的重要性,并不在于它的单独使用,而是作为统计推断的中间环节发挥作用。1.非参数判别。设有来自总体A的样本X1,,Xn,及来自总体B的样本Y1,,Ym。今有新的观察Z,问Z来自A还是B?基于极大似然原理,可定出如下的非参数判别法:分别基于X1,,Xn及Y1,,Ym估计fA及fB,记估计为^fA及^fB,然后视^fA(Z)^fB(Z)抑或^fA(Z)^fB(Z)确定Z所归属的类。2.聚类分析。一种常用的聚类方法即是构造某种“树图”,各个个体按“树图”中的等级归并成若干类,而划分等级的规则需使用密度估计。3.随机数的模拟。设已有观察X1,,Xn,由于随机影响,这些观察渗杂了某些伪造的细节。我们的目的是模拟一组新数据Y1,Y2,,使得Y1,Y2,具有原总体的结构,但无这些伪造的细节。当总体具未知密度f时,可用其核估计产生模拟数,例如^f是基于X1,,Xn的具核K及窗宽hn的密度估计,可按如下步骤产生新数据Y:(1)从数字1,2,,n中有放回地随机抽取一个,记为I。(2)产生一个与X1,,Xn独立的具密度K的随机变量。(3)定义Y=XI+h。以上过程可不断地重复进行,从而产生一串新数据。易知这样的Y有分布密度^f。2密度估计的大样本性质2.1有关概念由于对未知密度的数学形式没有任何假定,指望得出较为深入的小样本性质是不现实的。迄今为止关于密度估计的研究,几乎全集中在大样本方面。一般来说这本是非参数方法的一个特征。2密度估计的大样本性质5定义2.1.如果对每一给定xlimn!1Ef[Tn(x)]=f(x),对所有可能的f则称Tn为渐近无偏估计。在相当宽泛的条件下,对固定n,密度函数的无偏估计是不存在的。在不太强的限制下,渐近无偏估计总是存在的。定义2.2.如果对固定x,有limn!1E[(Tn(x) f(x))2]=0,则称Tn为f的(在x处)均方相合估计。简记为Tn(x))f(x)。类似可定义对固定x,Tn(x)依概率收敛于f(x)及以概率1收敛。这些相合称为逐点相合性。与此相关的概念,则是一致相合性。定义2.3.如对任给的0,limn!1P(supxjTn(x) f(x)j)=0,则称Tn是f的一致相合估计,并简记为supxjTn(x) f(x)jP!0,当n!1。定义2.4.如果P(limn!1supxjTn(x) f(x)j)=1则称Tn为f的一致强相合估计,并简记为supxjTn(x) f(x)j!0,a.s.当n!1。通常证明一致相合性或一致强相合性是分两步进行的。其一,是证明limn!1supxjE[Tn(x)] f(x)j=0;其二,是断定当n!1时,supnjTn(x) E[Tn(x)]j!0这里的收敛或者是依概率或者是a.s.。这第一部分无随机性可言,完全由f及估计量的光滑性所确定,因而较容易。主要困难在第二部分。在某些情况下,可将supnjTn(x) E[Tn(x)]j表成经验过程的适当泛函,然后使用经验过程的有关性质得以证明。2密度估计的大样本性质62.2核估计的大样本性质下面的引理可以说是核估计的一个基本引理,最先由Parzen给出。引理2.1.设K()及g()均为R1上的Borel可测函数,满足下述条件:(1)K有界,(2)∫jK(u)jdu1,(3)limjuj!1uK(u)=0或g有界,(4)∫jg(u)jdu1。常数序列fhng满足limn!1hn=0。令gn(x)=1hn∫K(uhn)g(x u)du,则limn!1gn(x)=g(x)∫K(u)du;8x2c(g)(2.1)其中c(g)是g的连续点集。又若g有界且一致连续,则(2.1)关于x一致成立。对于核估计的逐点相合性,我们有如下定理:定理2.1.设核K是R1上的概率密度,且满足引理2.1之条件(1)、(2)。若limn!1hn=0,则有limn!1E[fn(x)]=f(x);x2c(f)又若f一致连续,则上式关于x一致成立。定理2.2.设核K满足定理2.1的条件,且limn!1hn=0;limn!1nhn=1则fn