应用回归分析-总复习

henrysift
6 ℃
2020-03-09

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

一元线性回归线性回归多元线性回归讨论如何从数据推断回归模型基本假设的合理性回归诊断当基本假设不成立时如何对数据进行修正自变量选择的准则回归变量的选择回归分析逐步回归分析方法岭回归参数估计方法的改进主成分回归非线性回归可化为线性回归的曲线回归自变量含定性变量的情况含有定性变量的回归因变量是定性变量的情况一元线性回归1一元线性回归模型2参数β0、β1的估计3最小二乘估计的性质4回归方程的显著性检验5残差分析6回归系数的区间估计7预测1一元线性回归模型一元线性回归模型y=β0+β1x+ε2)var(0)(E回归方程E（y|x）=β0+β1x01ˆˆˆyx经验回归方程2参数β0、β1的估计一、普通最小二乘估计(OrdinaryLeastSquareEstimation,简记为OLSE)niiiniiixyxyQ1210,121010)(min)ˆˆ()ˆ,ˆ(10最小二乘法就是寻找参数β0、β1的估计值使离差平方和达极小2参数β0、β1的估计得OLSE为niniiixxxnxxxL11222)()(niiiniiixyyxnyxyyxxL11))((xxxyLLxy/ˆˆˆ110记2参数β0、β1的估计二、最大似然估计在假设εi～N(0,σ2)时,知yi服从正态分布:),(~210iixNyxxxyLLxy/ˆˆˆ110220111()niiiyxn3最小二乘估计的性质一、线性是y1,y2,…,yn的线性函数：niiniiiniiniiiyxxxxxxyxx1121211)()()(ˆ10ˆˆ、其中用到3最小二乘估计的性质二、无偏性1110121121)()()()()ˆ(niinjjiniinjjixxxxxyExxxxE0)(xxi)()(2xxxxxiii3最小二乘估计的性质三、的方差njjniinjjixxyxxxx12212121)()var()()ˆvar(10ˆˆ、2220)()(1)ˆvar(xxxni210)ˆ,ˆcov(xxLx3最小二乘估计的性质三、的方差10ˆˆ、)))(1(,(~ˆ2200xxLxnN),(~ˆ211xxLN在正态假设下,n),,(i,jj,ij,iσ),ε(ε,n,,,i)E(εjii210cov2102GaussMarkov条件4回归方程的显著性检验一、t检验原假设：H0：β1=0对立假设：H1：β1≠0),(~ˆ211xxLN由当原假设H0：β1=0成立时有：),0(~ˆ21xxLN4回归方程的显著性检验一、t检验构造t统计量ˆˆˆˆ121LxxLtxxniiiniiyynen12122ˆ2121ˆ其中4回归方程的显著性检验二、F检验平方和分解式niiiniiniiyyyyyy121212)ˆ()ˆ()(SST=SSR+SSE构造F检验统计量)2/(1/nSSESSRF4回归方程的显著性检验三、相关系数的显著性检验)()())((12121niiniiniiiyyxxyyxxryyyyxxxyLLLLLxx1ˆ4回归方程的显著性检验五、三种检验的关系212rrntˆˆˆˆ121LxxLtxx)2/(1/nSSESSRFH0:=0H0:r=0H0:回归无效4回归方程的显著性检验六、样本决定系数niiniiyyyySSTSSRr12122)()ˆ(222)(rLLLSSTSSRryyxxxy可以证明6回归系数的区间估计等价于),(~ˆ211xxLN)2(~ˆ)ˆ(/ˆˆ11211ntLLtxxxx1)2(ˆ)ˆ(2/11ntLPxx1)ˆˆˆˆ(2/112/1xxxxLtLtP)ˆˆ,ˆˆ(2/12/1xxxxLtLtβ1的1-α置信区间因变量新值的区间预测1)2(ˆ1ˆ2/0000nthyyPy0的置信概率为1-α的置信区间为ˆ1)2(ˆ002/0hntyy0的置信度为95%的置信区间近似为ˆ2ˆ0y因变量平均值的区间估计得E(y0)的1-α的置信区间为E(y0)=β0+β1x0是常数)))(1(,0(~)(ˆ22000xxLxxnNyEyˆ)2(ˆ002/0hnty多元线性回归1多元线性回归模型2回归参数的估计3参数估计量的性质4回归方程的显著性检验5中心化和标准化6相关阵与偏相关系数1多元线性回归模型一、多元线性回归模型的一般形式y=β0+β1x1+β2x2+…+βpxp+ε2)var(0)(E1多元线性回归模型一、多元线性回归模型的一般形式写成矩阵形式为:y=Xβ+ε,其中,nyyy21y)1(111pnnpn2n12p22211p1211xxxxxxxxxXp10βn21ε1多元线性回归模型二、多元线性回归模型的基本假定在正态假定下:y～N(Xβ,2In)E(y)=Xβvar(y)=2In2回归参数的估计一、回归参数的普通最小二乘估计最小二乘估计要寻找使得，，，，,ˆˆˆˆ210pniippiiiniippiiipxxxyxxxyQp1222110,,,,1222110210)(min)ˆˆˆˆ()ˆ,,ˆ,ˆ,ˆ(210yXXXβ-1)(ˆ2回归参数的估计二、回归值与残差cov(e,e)=cov(（I-H）Y,（I-H）Y)=（I-H）cov(Y,Y)（I-H）′=σ2（I-H）In（I-H）′=σ2（I-H）得D(ei)=(1-hii)σ2，i=1,2,…,nH)y-(IHyyyyeˆ2回归参数的估计二、回归值与残差niiepnpnSSEpn12211(1111ˆ)ee是σ2的无偏估计2112)1()()(pneDeEniinii得2回归参数的估计三、回归参数的最大似然估计y～N(Xβ,σ2In)yXXXβ-1)(ˆ3参数估计量的性质性质1是随机向量y的一个线性变换。βˆyXXXβ-1)(ˆ性质2βˆ是β的无偏估计。βXβXXXεXβXXXyXXXyXXX)β1-1-1--1)()E()()E()())(E((ˆE3参数估计量的性质性质3D（βˆ)=σ2(X′X)-1βyXXXβyXXXβββββEββEββββ11E)))(E(()))(E((),ˆˆˆˆˆˆˆˆcov()ˆ(D)))11β-εXXXββ-εXXXββεXβXXXβεXβXXX11(()((EE1111111XXXXXIXXXXX)XεεXXXXXXεεXXX2n2)E(E(E3参数估计量的性质性质4Gauss-Markov定理预测函数020210100ˆˆˆˆˆppxxxyβˆ是的线性函数Gauss-Markov定理在假定E(y)=Xβ,D(y)=σ2In时,β的任一线性函数的最小方差线性无偏估计(BestLnearUnbiasedEstimator简记为BLUE)为c′,其中c是任一p+1维向量,是β的最小二乘估计。Cβˆβˆ4回归方程的显著性检验一、F检验H0:β1=β2=…=βp=0niiiniiniiyyyyyy121212)ˆ()ˆ()(SST=SSR+SSE)1/(/pnSSEpSSRF当H0成立时服从)1,(pnpF4回归方程的显著性检验二、回归系数的显著性检验H0j:βj=0,j=1,2,…,p～Ｎ（β,σ２（Ｘ＇X）-1）βˆ记(Ｘ＇X)-1=（cij)i,j=0,1,2,…,p构造t统计量ˆˆjjjjct其中niiiniiyypnepn1212ˆ1111ˆ4回归方程的显著性检验四、复相关系数SSTSSESSTSSRR12决定系数为：y关于x1,x2,…,xp的样本复相关系数SSTSSRRR2)1(11122RpnnRa2/(1)1/(1)aSSEnpRSSTnAdjustedR-square5中心化和标准化一、中心化经验回归方程ppxxxyˆˆˆˆˆ22110经过样本中心);,,,(21yxxxp将坐标原点移至样本中心，即做坐标变换：,jijijxxxyyyii回归方程转变为：ppxxxyˆˆˆˆ2211ppxxxyˆˆˆˆ22110回归常数项为5中心化和标准化二、标准化回归系数样本数据的标准化公式为：,*jjjijijLxxx*yyiiLyyy得标准化的回归方程***2*2*1*1*ˆˆˆˆppxxxyp,1,j,ˆ*jyyjjjLL违背基本假设的情况),2,1,()(,2,1,)(ni,jj0,ij,iσ,εεcovn0,iεE2jiiGauss-Markov条件违背基本假设的情况2016/12/4JSNUZhouQin37•Theerror𝜖𝑖,i=1,2,···,n,hasanormaldistribution.•Theerrors𝜖𝑖,i=1,2,···,n,havemeanzero.•Theerrors𝜖𝑖,i=1,2,···,n,havethesamevariance𝜎2Heterogeneity(方差齐性)ortheheteroscedasticity(异方差)problem.(Chapter7).•Theerrors𝜖𝑖,i=1,2,···,n,areindependentofeachother.Independent-errorsassumption.TheautocorrelationproblemisconsideredinChapter8.212,,,i.i.d~(0,)nN5残差分析iiiiixyyye10ˆˆˆ残差误差项iiixy10残差ei是误差项i的估计值。011221122ThehatorprojectionmatrixTheltheresidualof(1,2,,)ˆˆ=...,1,2,,()--everagevalue(--)-iiipipiiiiinnijnniiyxxxeyyyinypypypyinpp-1yXβ=X(XX)XyPyP杠杆值iii-istheithdiagonalelementofareelementsofiiijppPP2016/12/4JSNUZhouQin4022var()var()var(var()(1)iiiepy-y(I-P)Y)=(I-P)var(y)(I-P)=(I-P)eSt