非参数与半参数模型Thebasicideaofnonparametricinferenceistousedatatoinferanunknownquantitywhilemakingasfewassumptionsaspossible.0.00.20.40.60.81.00.00.51.0ty0.00.20.40.60.81.00.00.51.0ty主要内容核密度估计局部方法核回归局部线性回归变系数回归半变系数回归部分变系数回归全局方法样条回归多元非参数模型Cornwell与Rupert数据如何刻画随机变量的特征?女性(对数)工资男性(对数工资)Min.1stQu.MedianMean3rdQu.Max.4.6055.9586.2616.2556.5627.279Min.1stQu.MedianMean3rdQu.Max.5.0176.4586.7456.7306.9768.537直方图随机样本:x1,x2,…,xn直方图的构造确定原点x0,将数轴分割为宽度为h的区间(bin)数出落在每个区间的观察值个数,记为nj用nj除以n,再除以h,得到对每个区间,绘制高为fj,宽为h的柱形图jjhxhjxBj],,)1([00nhnfjj直方图中密度的一般表示nijjjihBxIBxInhxf1)()(1)(如何理解这个密度估计?有什么问题?如何改进?LWAGE的直方图HistogramoffwfwDensity4.55.05.56.06.57.07.50.00.6HistogramofmwmwDensity5.05.56.06.57.07.58.08.50.00.40.8HistogramoffwfwDensity4.55.05.56.06.57.00.01.02.0HistogramofmwmwDensity5.05.56.06.57.07.58.08.50.01.0HistogramoffwfwDensity4.55.05.56.06.57.0050150HistogramofmwmwDensity5.05.56.06.57.07.58.08.504080h对直方图的影响是什么?直方图的统计性质无偏?)()(1)(ˆ)(1)(ˆ)(1)()()(1)(1)(1)(ˆ)(1)(ˆ],,)1[(.0)1()1()1(110xfduufhxfBiasduufhxfEduufBxIPBxIEBxIEhBxInEnhBxIEnhxfEBxInhxfjhhjBxxjhhjhjhhjhjhhjjijijijinijihnijihj直方图的密度估计为:对于某个点假定原点为直方图密度估计的近似偏误))(()()(ˆ))(()()()21()()()()(1)()(1)1()1(xmmfxfxfExumfxfufhjmxfufduxfufhxfduufhjjhjjjhhjjhhj从而有:为处的一阶泰勒近似展开在直方图密度估计的偏误受什么影响?直方图密度估计的方差)(1)(1)(1)(1)(1)(ˆ22221xfnhduufduufnhnBxInVarhnBxInhVarxfVarjjBBjinijih直方图密度估计的方差受什么影响?直方图密度估计的均方误差逐点均方误差积分均方误差)1()(2121)(1)(ˆ)(ˆ)(ˆ222nhohoxhjhjfxfnhxfbiasxfVarxfMSEhhh22222222121)(1212121)()(1)(ˆ)()(ˆ)(ˆfhnhdxxfhnhdxhjfxhjBxIdxxfnhdxxfMSEdxxfxfExfMISEjjhhh最优带宽3/13/1220222222~60611)ˆ(121)ˆ(nfnhfhnhhfAMISEfhnhfAMISEhh对于标准正态分布,h0≈3.5n-1/3原点的影响fwDensity4.55.05.56.06.57.07.50.00.20.40.60.81.01.2x0=4.51fwDensity4.55.05.56.06.57.07.50.00.20.40.60.8x0=4.52fwDensity4.55.05.56.06.57.07.50.00.20.40.60.8x0=4.53fwDensity4.55.05.56.06.57.07.50.00.20.40.60.81.0x0=4.54fwDensity4.55.05.56.06.57.07.50.00.20.40.60.8x0=4.55fwDensity4.55.05.56.06.57.07.50.00.20.40.60.81.0x0=4.56不同原点的平均直方图4.55.05.56.06.57.00.00.20.40.60.81.0Averageshiftedhistogramforfemalelnwagefwdensityabline(h=)6.22059直方图vs核密度估计直方图密度估计的两大局限最优带宽h不易解决原点的影响即使解决了原点问题,直方图仍然有缺点区间内每个点有相同的密度估计的密度函数不连续解决方法:核密度估计没有原点问题最优带宽得到了较好的解决收敛速度更快由直方图到核密度估计直方图核密度}{#1的小区间内的观察值包含落入某个区间长度xn}{#1的小区间内的观察值附近落入区间长度xn核密度估计niiniiihhxxKnhhxxInhhxhxxnhxf1111211]},[{#21)(ˆ核函数K(u)通常取对称单峰的概率密度函数且满足limu→∞K(u)=0核函数核函数K(u)均匀(Uniform)三角(triangle)Epanechnikov二次权重(quartic/biweight)三次权重(triweight)高斯(Gaussian)余弦(cosine)121uI11uIu11432uIu11161522uIu11323532uIu2exp212u12cos4uIu核密度估计的一般形式hKhKxxKnhxxKhnxfhniihniih1111)(ˆ11其中,LWAGE的核密度估计fwDensity4.55.05.56.06.57.07.50.00.20.40.60.81.0KernelDensityWithDifferentBandwidthBW=0.1112BW=0.05BW=1mwDensity5.05.56.06.57.07.58.08.50.00.20.40.60.81.0KernelDensityWithDifferentBandwidthBW=0.0673BW=0.05BW=1h对核密度估计的影响是什么?LWAGE的核密度估计(续)核函数对核密度估计的影响是什么?fwDensity4.55.05.56.06.57.07.50.00.20.40.60.81.0KernelDensityWithDifferentKernelFunctionguassianepanechnikovtriangularrectangularmwDensity5.05.56.06.57.07.58.08.50.00.20.40.60.81.0KernelDensityWithDifferentKernelFunctionguassianepanechnikovtriangularrectangular核密度估计的统计性质可以证明,对于对称核函数,有:dssKKnhnhoxfKnhxfVardssKsKhoKxfhxfBiashh)(1)(1)}(ˆ{)()()()()(2)}(ˆ{2222222222其中,其中,f(t)核密度估计的均方误差2222422422224224222224)()(41)}(ˆ{1)()()(41)}(ˆ{)}(ˆ{1)()(1)()(4)}(ˆ{xfKhKnhxfAMISEnhohoxfKhKnhdxxfMSExfMISEnhohoxfKnhKxfhxfMSEhhhh最优带宽5/15/1222222~)()(nKxfnKhopt光滑参数的确定-plugin如果变量服从正态分布34.1)()()(ˆ06.1)8(3)2(1)()(ˆˆ21,832)}({34.1,ˆmin06.1]25.0[]75.0[]25.0[]75.0[]25.0[]75.0[5/15/155/12222222255225/1nnnnnnoptoptZZZZXXRnnKxfnhdxxfnIQRh光滑参数的确定-Cross-validation对于任意分布niijnjijhniiihhninjjininjtjininjxjihhxfEfhhhhiijijhijijxxKnnxfnxfEestdvvKvuKuKKhxxKKhndttKthxxKhndxhxxKhxxKhndxxfdxxfdxxffdxxfdxxfxffISEhISExxKnnhxxKKhnhCVhh1,11,112112112222))(ˆ(ˆ222)(111)(ˆ1))(ˆ(.)()(111)(ˆ)()}(ˆ{2)(ˆ)}()(ˆ{)ˆ()()1(21)(其中,无关与的期望可由数据计算得到LWAGE的核密度估计(续)fwDensity4.55.05.56.06.57.07.50.00.20.40.60.81.0KernelDensityWithDifferentBandwithsivermanscottcv-gaussiancv-epanechkovmwDensity5.05.56.06.57.07.58.08.50.00.20.40.60.81.0KernelDensityWithDifferentBandwithsivermanscottcv-gaussiancv-epanechkov置信区间nhKxfzxfnhKxfzxfxfnhnhKxfzKxfhxfnhKxfzKxfhxfxfcnhvzbnxfxfvzbnxfPvzbxfxfnvzbPKxfcKxfcNxfxfncnhfhhhhhhxxhxxhxxhxxvbLh/xx222/1222/15/1222/122222/1225/12/15/22/15/22/15/22/12222525/1)(ˆ)(ˆ,)(ˆ)(ˆ)()()()(2)(ˆ,)()()(2)(ˆ)(}{)(ˆ)(}{)(ˆ)}()(ˆ{1)(1,)()(2)}()(ˆ{2