非参数回归的介绍

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

参数回归与非参数回归的优缺点比较:参数回归:非参数回归:优点:(1).模型形式简单明确,仅由一些参数表达(2).在经济中,模型的参数具有一般都具有明确的经济含义(3).当模型参数假设成立,统计推断的精度较高,能经受实际检验(4).模型能够进行外推运算(5).模型可以用于小样本的统计推断缺点:(1).回归函数的形式预先假定(2).模型限制较多:一般要求样本满足某种分布要求,随机误差满足正态假设,解释变量间独立,解释变量与随机误差不相关,等(3)需要对模型的参数进行严格的检验推断,步骤较多(4).模型泛化能力弱,缺乏稳健性,当模型假设不成立,拟合效果不好,需要修正或者甚至更换模型优点;(1)回归函数形式自由,受约束少,对数据的分布一般不做任何要求(2)适应能力强,稳健性高,回归模型完全由数据驱动(3)模型的精度高;(4)对于非线性、非齐次问题,有非常好的效果缺点:(1)不能进行外推运算,(2)估计的收敛速度慢(3)一般只有在大样本的情况下才能得到很好的效果,而小样本的效果较差(4)高维诅咒,光滑参数的选取一般较复杂1非参数回归方法样条光滑正交回归核回归:N-W估计、P-C估计、G-M估计局部多项式回归:线性、多项式光滑样条:光滑样条、B样条近邻回归:k-NN、k近邻核、对称近邻正交级数光滑稳健回归:LOWESS、L光滑、R光滑、M光滑局部回归Fourier级数光滑wavelet光滑处理高维的非参数方法:多元局部回归、薄片样条、可加模型、投影寻踪、回归树、张量积,等2核函数K:函数K(.)满足:()0Kx22()KxKxdx()0xKxdx()1Kxdx(2)(3)(4)2()KcKxdx常见的核函数:Boxcar核:(1)Gaussian核:Epanechnikov核:tricube核:()1/2()KxIx2/2()1/2xKxe2()3/4(1)()KxxIx33()70/81(1||)()KxxIx()Ix为示性函数3回归模型:()Ymx20,()EVar(1)模型为随机设计模型,样本观测(Xi,Yi)~iid(2)模型为固定设计模型Xi为R中n个试验点列,i=1,2,…,n()(|)mxEYXxYi为固定Xi的n次独立观测,i=1,2,…,nm(x)为为一未知函数,用一些方法来拟合定义:线性光滑器(linearsmoother)()()iiimxlxY4光滑参数的选取风险(均方误差)(meansquarederror,MSE)211ˆ()[()()]nhiiiRhEmxmxn理想的情况是希望选择合适的光滑参数h,使得通过样本数据拟合的回归曲线能够最好的逼近真实的回归曲线(即达到风险最小),这里真实回归函数m(x)一般是未知的。可能会想到用平均残差平方和来估计风险R(h)211ˆ[()]nihiiYmxn但是这并不是一个好的估计,会导致过拟合(欠光滑),原因在于两次利用了数据,一次估计函数,一次估计风险。我们选择的函数估计就是使得残差平方和达到最小,因此它倾向于低估了风险。是的估计,h是光滑参数,称为带宽或窗宽ˆ()hmx()mx5光滑参数的选取缺一交叉验证方法(leave-one-outcrossvalidation,CV)2()11ˆˆ()[()]niihiiCVRhYmxn这里是略去第i个数据点后得到的函数估计()ˆ()ihmx交叉验证的直观意义:22()(1)ˆˆ(())(()()())iihiiiihiEYmxEYmxmxmx22(1)22(1)22ˆ(())(()())ˆ(()())ˆ(()())iiihiihiihiEYmxEmxmxEmxmxEmxmx2ˆ(())ERhR预测风险因此:6光滑参数的选取定理:若那么缺一交叉验证得分能够写成:1ˆ()()nhjjjmxxYˆ()Rh21ˆ()1ˆ()1nihiiiiYmxRhhL这里是光滑矩阵L的第i个对角线元素()iiiiLx广义交叉验证(generalizedcross-validation,GCV)21ˆ()1()1/nihiiYmxGCVhhn其中:为有效自由度11/niiinnL()trL7光滑参数的选取其他标准(1)直接插入法(DirectPlug-In,DPI)相关文献可以参考:WolfgangHärdle(1994),AppliedNonparametricRegression,BerlinJeffreyD.Hart(1997),NonparametricSmoothingandLack-of-FitTests,SpringerSeriesinStatistics李竹渝、鲁万波、龚金国(2007),经济、金融计量学中的非参数估计技术,科学出版社,北京吴喜之译(2008),现代非参数统计,科学出版社,北京(2)罚函数法(penalizingfunction)(3)单边交叉验证(OneSidedCrossValidation,OSCV)(4)拇指规则(RuleOfThumb)81.核回归(核光滑)N-W估计是一种简单的加权平均估计,可以写成线性光滑器:局部回归由Nadaraya(1964)和Watson(1964)分别提出,(1)N-W估计形式:11()ˆ()()nNWhihinihjjKxXmxYKxX,1ˆ()()nNWhhiiimxWxY,1()()()hihinhjjKxXWxKxX()(/)/hKKhh其中:,为核函数,为带宽或窗宽()Kh01x9局部回归(2)P-C-估计由PriestleyandChao(1972)提出,形式:11ˆ()()(),nPChiiihiimxxxYKxx01x写成线性光滑器的形式:1ˆ()()nPChhiiimxWxY1()()()hiiihiWxxxKxx在随机设计模型下,P-C估计可由x的密度估计:11ˆ()[()]iifxnxx推导出来,相关文献可参考härdle(1994)和李竹渝等(2007)10局部回归(3)G-M估计由GasserandMüller(1979)提出,形式如下:11ˆ()()iisnGMhihismxYKxudu其中010,()/2,1,,1,1iiinssxxins写成线性光滑器的形式:1ˆ()()nGMhhiiimxWxY1()()iishihsWxKxuduG-M估计是卷积形式的估计,P-C估计可看成G-M估计的近似:当K连续11ˆˆ()()()()nGMPChiiihhimxYssKxxmx1(,)iixss11局部回归核估计存在边界效应,边界点的估计偏差较大,以N-W估计为例,如下图12局部回归一般,核函数的选取并不是很重要,重要的是带宽的选取13局部回归一般,核函数的选取并不是很重要,重要的是带宽的选取14局部回归一般,核函数的选取并不是很重要,重要的是带宽的选取可以看到:拟合曲线的光滑度受到光滑参数h变化的影响15局部回归核估计的渐近方差核渐近偏差核估计渐近偏差渐近方差N-W估计G-M估计22''('')2Khmfmdf2''2Khmd2()Kxcnhf23()2Kxcnhf其中,h为光滑参数,f为X的密度函数,且2()KduKudu2()KcKudu16局部回归2.局部多项式光滑多项式的回归模型()YmX2012()ppmxxxx其中可由最小二乘法估计,即01(,,,)Tp21ˆargmin(())niiiYmX局部多项式回归:对m(x)在u处进行p阶泰勒展开,略去p阶高阶无穷小量,得到m(x)在u处的一个p阶多项式近似,即01()()()()()()ppmxuuxuuxu()()()/!,1,2,,jjumujjp此时,x应该靠近u,且17局部回归通过最小二乘来估计系数01()((),(),,())Tpuuuu注意:是在x的一个邻域内进行多项式估计,因此,最小二乘应该与x的邻域有关局部加权平方和:2011([()()()])(),npiipihiiYxxXxXKxX使上述问题最小化,可以得到系数的局部多项式的最小二乘估计可以很容易得到,取p=0时为局部常数估计,即N-W核估计取p=1,为局部线性估计18局部回归写成矩阵形式:(-)(-)TxxxYXWYX使上式最小化,可以得到系数的估计-1ˆ()=()TTxxxxxxXWXXWY其中1122()1!()1!()1!ppxpnnxxxxpxxxxXpxxxxp(())xhinnWdiagKxx12nYYYY19局部回归得到加权最小二乘估计-1ˆˆ()()()LPETThxxxxxxxmxXxXXWXXWY当p=1时(局部线性估计)的渐近偏差和渐近方差2ˆ(())''(),2LPEhKhbiasmxmxd2()ˆ(())()LPEhKxVarmxcnhfx其中2()KduKudu2()KcKudu可以看到局部线性回归的渐近方差和N-W估计相同,而渐近偏差却比N-W回归小,说明局部线性多项式可以减少边界效应,局部线性估计由于N-W估计20局部回归局部多项式光滑可以很好的减少边界效应21局部回归检验函数(Doppler函数)2.1()(1)sin,010.05mxxxxx22局部回归使用GCV选取最优带宽h=0.017,权函数为tricube核函数23局部回归使用GCV选取最优带宽h=0.017,权函数为tricube核函数24局部回归3.近邻光滑(1)k-NN回归(k-nearestneighborregression)1ˆ()()nkkiiimxWxY1/()0,xkikiJWxotherwise,其中={i:xi是离x最近的k个观测值之一}xJK-NN估计的渐近偏差和渐近方差:231ˆˆ(())()()[(''2'')()](/)24()kkbiasmxEmxmxmfmfxknfx2()ˆ(())kxVarmxk对于随机设计模型,近邻估计写成线性光滑器的形式权函数:25局部回归(1)k-NN回归(k-nearestneighborregression)26局部回归(1)k-NN回归(k-nearestneighborregression)27局部回归(2)k-近邻核回归K近邻核估计的权重1()()()RikinRiiKxxWxKxx其中R为xi中离x最近的第k个距离,K为核函数()(()/)/RiiKxxKxxRR渐近偏差和渐近方差:23''2''ˆˆ(())()()()()8kkKkmfmfbiasmxEmxmxxdnf22()ˆ(())kKxVarmxck28局部回归(2)k-近邻核回归29局部回归(2)k-近邻核回归30局部回归(3)对称化近邻回归(SymmetrizedNearestNeighborEstimate)Yang(1981),Stute(1984)研究了这种估计其中权重()1()()1ˆ()nnnikhiiFxFxmxKYnhh()1(()())khihnniWKFxFxn写成线性光滑器()()1ˆ()nkhkhiiimxWY这里的k(h)相当于nh,可以看出实质上相当于nh个Yi值加权平均31局部回归4.稳健光滑(1)局部加权描点光滑(LocallyWeightedScatterplotSmoothing,LOWESS)Step1:在x的邻域内,用一个多项式进行拟合,求出系数{

1 / 60
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功