回归分析变量间的关系确定性关系或函数关系y=f(x)人的身高和体重家庭的收入和消费商品的广告费和销售额粮食的施肥量和产量非确定性关系称这种非确定性关系为统计关系或相关(相依)关系.xY相关关系第一章一元线性回归模型以下设x为自变量(普通变量)Y为因变量(随机变量).现给定x的n个值x1,…,xn,观察Y得到相应的n个值y1,…,yn,(xi,yi)i=1,2,…,n称为样本点.以(xi,yi)为坐标在平面直角坐标系中描点,所得到的这张图便称之为散点图.北京市城市居民家庭生活抽样调查图表0246810024681012141618x:人均生活费收入Y:人均食品支出§1.1模型的建立及其假定条件例如:研究某市可支配收入X对人均消费支出Y的影响。建立如下理论回归模型:Yi=0+1Xi+εi其中:Yi——被解释变量;Xi——解释变量;εI——随机误差项;0,1—回归系数随机变量εi包含:回归模型中省略的变量;确定数学模型的误差;测量误差一、一元线性回归模型XY80100120140160180200220240260556579801021101201351371506070849310711513613714515265749095110120140140155175708094103116130144152165178758598108118135145157175180-88-113125140-160189185---115---162-191户数5657665765总支出32546244570767875068510439661211假设调查了某社区所有居民,他们的人均可支配收入和消费支出数据如下:YX5510012014016080描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。二、随机误差项εi的假定条件为了估计总体回归模型中的参数,需对随机误差项作出如下假定:假定1:零期望假定:E(εi)=0。假定2:同方差性假定:Var(εi)=2。假定4:εi服从正态分布,即εiN(0,2)。假定3:无序列相关假定:Cov(εi,εj)=0,(ij)。前三个条件称为G-M条件§1.2一元线性回归模型的参数估计普通最小二乘法(OrdinaryLeastSquares)OLS回归直线的性质OLSE的性质一、普通最小二乘法对于所研究的问题,通常真实的回归直线E(Yi|Xi)=0+1Xi是观测不到的。可以通过收集样本来对真实的回归直线做出估计。经验回归直线:iiXY10ˆˆˆ其中:为Yi的估计值(拟合值);iYˆ10ˆ,ˆ为0,1的估计值;如果观测值到这条直线的纵向距离(真实值与估计值的偏差)用ei表示(称为残差),则经验回归模型为:iiieXY10ˆˆ(ei为εi的估计值)注意:分清4个式子的关系(4)经验(估计的)回归直线:(1)理论(真实的)回归模型:(3)经验(估计的)回归模型:(2)理论(真实的)回归直线:01iiiYXiiX)X|Y(E10iiieXY10ˆˆiiXY10ˆˆˆ对于参数的估计采用最小二乘估计法、最小二乘法的原则是以“残差平方和最小”确定直线位置(即估计参数)。(Q为残差平方和)Q=niie12niiiYY12)ˆ(==niii)XˆˆY(1210则通过Q最小确定这条直线,即确定,以为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。10ˆ,ˆ10ˆ,ˆ求Q对两个待估参数的偏导数:0ˆQ=)1()ˆˆ(2110niiiXY=01ˆQ=)()ˆˆ(2110iniiiXXY=0正规方程组00iiiXee即12()()ˆ()iiiXXYYXXXY10ˆˆ根据以上两个偏导方程得以下正规方程(Normalequation):iiXnY10ˆˆ210ˆˆiiiiXXXY,XYXY其中和分别为、的均值011ˆˆˆxyxxYXLL若记21()nxxiiLXX21()nyyiiLYY1()()nxyiiiLXXYY则二、OLS回归直线的性质(1)估计的回归直线过点.iiXY10ˆˆˆ),(YX(3)Yi的拟合值的平均数等于其样本观测值的平均数.YYˆniiXn110)ˆˆ(111ˆˆniiYYn=X10ˆˆ=Y=00iiiXee(2)统计性质线性无偏性有效性2的估计三、OLSE回归直线的性质1、线性10ˆ,ˆ这里指都是Yi的线性函数。证明:1ˆ=2()()()iiiXXYYXX=2()()()iiiiXXYYXXXX2()()iiiXXYXX令22()()iiiiiXXxkXXx代入上式,得:iiYk1ˆ同理可证:0也具有线性特性。=2、无偏性证明:)ˆ(1E===)(iiYkE01[(]iiiEkX01[]iiiiiEkkXk=)(])([1iiiiukEXXkE=)(1iiuEk=122(-)(-)iiiiiXXxkXXx0ˆ()E0类似可证3、有效性0,1的OLS估计量的方差比其他线性无偏估计量的方差都小。2221ˆ()ixxVarkL221()xxXnL0ˆ()Var总体(随机误差项)真实方差2的无偏估计量:201()()()iiiiVarYVarXVar三、2的估计222ˆˆ22iienn§1.3回归方程的显著性检验一、回归参数的显著性检验(t检验)首先,提出原假设和备择假设:H0:01H1:01其次,确定并计算统计量:1ˆ11ˆSt=1ˆˆxxL如果不能拒绝H0:,认为X对Y没有显著影响。01)2(2/ntt如果拒绝H0:,认为X对Y有显著影响。)2(2/ntt同理,可对进行显著性检验。0ˆ01二、回归方程的显著性检验(F检验)222ˆˆ()()()iiiiYYYYYY总离差平方和=回归平方和+残差平方和SST=SSR+SSE/1~(1,2)/(2)SSRFFnSSEnH0:01H1:01拒绝域FFα(1,n-2)三、用样本可决系数检验回归方程的拟合优度R2=SSRSSTR2=0时表明解释变量X与被解释变量Y之间不存在线性关系;R2=1时表明样本回归线与样本值重合,这种情况极少发生;一般情况下,R2越接近1表示拟合程度越好,X对Y的解释能力越强。四.相关系数检验法1.提出原假设2.选择统计量3.对给定的显著性水平α,查临界值rα(n-2),得否定域为|R|rα(n-2);yyxxxylllR01§1.4回归系数估计值的置信区间-t/2(n-2)0t/2(n-2)由于:1ˆ11ˆs由大括号内不等式表示的1的1-α的置信区间为:1)2(ˆ)2(ˆ2/ˆ112/ˆ111ntSntSP得:1/21/2ˆˆˆˆ(2),(2)xxxxtntnLLP{t/2(n-2)}=1-同理,可,并求得的置信区间为:0220/20/211ˆˆˆˆ(2),(2)xxxxXXtntnnLnL§1.5一元线性回归方程的预测和控制点预测Yi区间预测(1)单个值Yi的区间预测(2)均值E(Yi)的区间预测控制如果经过检验,样本回归方程的拟合优度好,且回归系数的估计值显著不为0,则可以用回归方程进行预测和控制。1、点预测假设X0为解释变量的一个已知点,则带入样本回归方程即可得到Y0的估计值:itXY10ˆˆˆ0100ˆˆˆXY2、区间预测估计值是一个点预测值,它可以是(1)总体真值Y0的预测值;也可以是(2)总体回归线E(Y0)的预测值。现在根据来对(1)(2)进行区间预测。0ˆY0ˆY(1)Y0的预测区间00ˆYY的分布是:220002()1~(0,(1))()iXXYYNnXX所以,Y0的预测区间是:2202/0)()(11ˆ)2(XXXXnntYi(2)平均值E(Y0)的预测区间00ˆ()YEY的分布是:2202()1(0,())()iXXNnXX所以,E(Y0)的预测区间是:2202/0)()(1ˆ)2(XXXXnntYi3、控制问题是预测的反问题12()1PTYT如何控制X?