一元线性回归线性回归多元线性回归讨论如何从数据推断回归模型基本假设的合理性回归诊断当基本假设不成立时如何对数据进行修正自变量选择的准则回归变量的选择回归分析逐步回归分析方法岭回归参数估计方法的改进主成分回归非线性回归可化为线性回归的曲线回归自变量含定性变量的情况含有定性变量的回归因变量是定性变量的情况一元线性回归1一元线性回归模型2参数β0、β1的估计3最小二乘估计的性质4回归方程的显著性检验5残差分析6回归系数的区间估计7预测1一元线性回归模型一元线性回归模型y=β0+β1x+ε2)var(0)(E回归方程E(y|x)=β0+β1x01ˆˆˆyx经验回归方程2参数β0、β1的估计一、普通最小二乘估计(OrdinaryLeastSquareEstimation,简记为OLSE)niiiniiixyxyQ1210,121010)(min)ˆˆ()ˆ,ˆ(10最小二乘法就是寻找参数β0、β1的估计值使离差平方和达极小2参数β0、β1的估计得OLSE为niniiixxxnxxxL11222)()(niiiniiixyyxnyxyyxxL11))((xxxyLLxy/ˆˆˆ110记2参数β0、β1的估计二、最大似然估计在假设εi~N(0,σ2)时,知yi服从正态分布:),(~210iixNyxxxyLLxy/ˆˆˆ110220111()niiiyxn3最小二乘估计的性质一、线性是y1,y2,…,yn的线性函数:niiniiiniiniiiyxxxxxxyxx1121211)()()(ˆ10ˆˆ、其中用到3最小二乘估计的性质二、无偏性1110121121)()()()()ˆ(niinjjiniinjjixxxxxyExxxxE0)(xxi)()(2xxxxxiii3最小二乘估计的性质三、的方差njjniinjjixxyxxxx12212121)()var()()ˆvar(10ˆˆ、2220)()(1)ˆvar(xxxni210)ˆ,ˆcov(xxLx3最小二乘估计的性质三、的方差10ˆˆ、)))(1(,(~ˆ2200xxLxnN),(~ˆ211xxLN在正态假设下,n),,(i,jj,ij,iσ),ε(ε,n,,,i)E(εjii210cov2102GaussMarkov条件4回归方程的显著性检验一、t检验原假设:H0:β1=0对立假设:H1:β1≠0),(~ˆ211xxLN由当原假设H0:β1=0成立时有:),0(~ˆ21xxLN4回归方程的显著性检验一、t检验构造t统计量ˆˆˆˆ121LxxLtxxniiiniiyynen12122ˆ2121ˆ其中4回归方程的显著性检验二、F检验平方和分解式niiiniiniiyyyyyy121212)ˆ()ˆ()(SST=SSR+SSE构造F检验统计量)2/(1/nSSESSRF4回归方程的显著性检验三、相关系数的显著性检验)()())((12121niiniiniiiyyxxyyxxryyyyxxxyLLLLLxx1ˆ4回归方程的显著性检验五、三种检验的关系212rrntˆˆˆˆ121LxxLtxx)2/(1/nSSESSRFH0:=0H0:r=0H0:回归无效4回归方程的显著性检验六、样本决定系数niiniiyyyySSTSSRr12122)()ˆ(222)(rLLLSSTSSRryyxxxy可以证明6回归系数的区间估计等价于),(~ˆ211xxLN)2(~ˆ)ˆ(/ˆˆ11211ntLLtxxxx1)2(ˆ)ˆ(2/11ntLPxx1)ˆˆˆˆ(2/112/1xxxxLtLtP)ˆˆ,ˆˆ(2/12/1xxxxLtLtβ1的1-α置信区间因变量新值的区间预测1)2(ˆ1ˆ2/0000nthyyPy0的置信概率为1-α的置信区间为ˆ1)2(ˆ002/0hntyy0的置信度为95%的置信区间近似为ˆ2ˆ0y因变量平均值的区间估计得E(y0)的1-α的置信区间为E(y0)=β0+β1x0是常数)))(1(,0(~)(ˆ22000xxLxxnNyEyˆ)2(ˆ002/0hnty多元线性回归1多元线性回归模型2回归参数的估计3参数估计量的性质4回归方程的显著性检验5中心化和标准化6相关阵与偏相关系数1多元线性回归模型一、多元线性回归模型的一般形式y=β0+β1x1+β2x2+…+βpxp+ε2)var(0)(E1多元线性回归模型一、多元线性回归模型的一般形式写成矩阵形式为:y=Xβ+ε,其中,nyyy21y)1(111pnnpn2n12p22211p1211xxxxxxxxxXp10βn21ε1多元线性回归模型二、多元线性回归模型的基本假定在正态假定下:y~N(Xβ,2In)E(y)=Xβvar(y)=2In2回归参数的估计一、回归参数的普通最小二乘估计最小二乘估计要寻找使得,,,,,ˆˆˆˆ210pniippiiiniippiiipxxxyxxxyQp1222110,,,,1222110210)(min)ˆˆˆˆ()ˆ,,ˆ,ˆ,ˆ(210yXXXβ-1)(ˆ2回归参数的估计二、回归值与残差cov(e,e)=cov((I-H)Y,(I-H)Y)=(I-H)cov(Y,Y)(I-H)′=σ2(I-H)In(I-H)′=σ2(I-H)得D(ei)=(1-hii)σ2,i=1,2,…,nH)y-(IHyyyyeˆ2回归参数的估计二、回归值与残差niiepnpnSSEpn12211(1111ˆ)ee是σ2的无偏估计2112)1()()(pneDeEniinii得2回归参数的估计三、回归参数的最大似然估计y~N(Xβ,σ2In)yXXXβ-1)(ˆ3参数估计量的性质性质1是随机向量y的一个线性变换。βˆyXXXβ-1)(ˆ性质2βˆ是β的无偏估计。βXβXXXεXβXXXyXXXyXXX)β1-1-1--1)()E()()E()())(E((ˆE3参数估计量的性质性质3D(βˆ)=σ2(X′X)-1βyXXXβyXXXβββββEββEββββ11E)))(E(()))(E((),ˆˆˆˆˆˆˆˆcov()ˆ(D)))11β-εXXXββ-εXXXββεXβXXXβεXβXXX11(()((EE1111111XXXXXIXXXXX)XεεXXXXXXεεXXX2n2)E(E(E3参数估计量的性质性质4Gauss-Markov定理预测函数020210100ˆˆˆˆˆppxxxyβˆ是的线性函数Gauss-Markov定理在假定E(y)=Xβ,D(y)=σ2In时,β的任一线性函数的最小方差线性无偏估计(BestLnearUnbiasedEstimator简记为BLUE)为c′,其中c是任一p+1维向量,是β的最小二乘估计。Cβˆβˆ4回归方程的显著性检验一、F检验H0:β1=β2=…=βp=0niiiniiniiyyyyyy121212)ˆ()ˆ()(SST=SSR+SSE)1/(/pnSSEpSSRF当H0成立时服从)1,(pnpF4回归方程的显著性检验二、回归系数的显著性检验H0j:βj=0,j=1,2,…,p~N(β,σ2(X'X)-1)βˆ记(X'X)-1=(cij)i,j=0,1,2,…,p构造t统计量ˆˆjjjjct其中niiiniiyypnepn1212ˆ1111ˆ4回归方程的显著性检验四、复相关系数SSTSSESSTSSRR12决定系数为:y关于x1,x2,…,xp的样本复相关系数SSTSSRRR2)1(11122RpnnRa2/(1)1/(1)aSSEnpRSSTnAdjustedR-square5中心化和标准化一、中心化经验回归方程ppxxxyˆˆˆˆˆ22110经过样本中心);,,,(21yxxxp将坐标原点移至样本中心,即做坐标变换:,jijijxxxyyyii回归方程转变为:ppxxxyˆˆˆˆ2211ppxxxyˆˆˆˆ22110回归常数项为5中心化和标准化二、标准化回归系数样本数据的标准化公式为:,*jjjijijLxxx*yyiiLyyy得标准化的回归方程***2*2*1*1*ˆˆˆˆppxxxyp,1,j,ˆ*jyyjjjLL违背基本假设的情况),2,1,()(,2,1,)(ni,jj0,ij,iσ,εεcovn0,iεE2jiiGauss-Markov条件违背基本假设的情况2016/12/4JSNUZhouQin37•Theerror𝜖𝑖,i=1,2,···,n,hasanormaldistribution.•Theerrors𝜖𝑖,i=1,2,···,n,havemeanzero.•Theerrors𝜖𝑖,i=1,2,···,n,havethesamevariance𝜎2Heterogeneity(方差齐性)ortheheteroscedasticity(异方差)problem.(Chapter7).•Theerrors𝜖𝑖,i=1,2,···,n,areindependentofeachother.Independent-errorsassumption.TheautocorrelationproblemisconsideredinChapter8.212,,,i.i.d~(0,)nN5残差分析iiiiixyyye10ˆˆˆ残差误差项iiixy10残差ei是误差项i的估计值。011221122ThehatorprojectionmatrixTheltheresidualof(1,2,,)ˆˆ=...,1,2,,()--everagevalue(--)-iiipipiiiiinnijnniiyxxxeyyyinypypypyinpp-1yXβ=X(XX)XyPyP杠杆值iii-istheithdiagonalelementofareelementsofiiijppPP2016/12/4JSNUZhouQin4022var()var()var(var()(1)iiiepy-y(I-P)Y)=(I-P)var(y)(I-P)=(I-P)eSt