第二章双变量回归分析第一节经典正态线性回归模型(CNLRM)一、基本概念以下表为例。XY80100120140160180200220240260556579801021101201351371506070849310711513613714515265749095110120140140155175708094103116130144152165178758598108118135145157175180-88-113125140-160189185---115---162-191户数5657665765总支出325462445707678750685104396612111、几个概念条件分布(Conditionaldistribution):以X取定值为条件的Y的条件分布条件概率(Conditionalprobability):给定X的Y的概率,记为P(Y|X)。例如,P(Y=55|X=80)=1/5;P(Y=150|X=260)=1/7。(表)条件期望(conditionalExpectation):给定X的Y的期望值,记为E(Y|X)。例如,E(Y|X=80)=55×1/5+60×1/5+65×1/5+70×1/5+75×1/5=65总体回归曲线(PopularRegressionCurve)(总体回归曲线的几何意义):当解释变量给定值时因变量的条件期望值的轨迹。2、总体回归函数(PopularRegressionFunction,PRFE(Y|Xi)=f(Xi)当PRF的函数形式为线性函数,则有,E(Y|Xi)=1+2Xi其中1和2为未知而固定的参数,称为回归系数。1和2也分别称为截距和斜率系数。上述方程也称为线性总体回归函数。3、“线性”的含义“线性”可作两种解释:对变量为线性,对参数为线性。一般“线性回归”一词总是指对参数为线性的一种回归(即参数只以它的1次方出现)。4、PRF的随机设定将个别的Yi围绕其期望值的离差(Deviation)表述如下:ui=Yi-E(Y|Xi)或Yi=E(Y|Xi)+ui其中ui为随机误差项(Stochasticerror)或随机干扰项(Stochasticdisturbance)。线性总体回归函数:PRF:Yi=1+2Xi+ui=E(Y|Xi)+ui5、随机干扰项的意义随机扰动项是从模型中省略下来的而又集体地影响着Y的全部变量的替代物。显然的问题是:为什么不把这些变量明显地引进到模型中来,而以随即扰动项来替代?理由是多方面的:(1)理论的含糊性:理论不能完全说明影响因变量的所有影响因素。(2)数据的欠缺:无法获得有关数据。(3)核心变量与周边变量:希望能找到与有较大影响的核心变量的关系。(4)内在随机性:因变量具有内在的随机性。(5)替代变量:用来代替不可观测变量的替代变量选择,造成一定误差。(6)省略原则:研究中尽可能使回归式简单。(7)错误的函数形式:回归式的的选择是主观的。6、样本回归函数(SRF)由于在大多数情况下,我们只知道变量值得一个样本,要用样本信息的基础上估计PRF。(表)X(收入)80100120140160180200220240260Y(支出)55657980102110120135137150样本1X(收入)80100120140160180200220240260Y(支出)708094103116130144152165178样本2iiiuXY21ˆˆˆ样本回归函数SRF:的估计量为的估计量为的估计量为其中12211,ˆ,Xi)|E(YYˆ,在回归分析中,我们用SRF估计PRF。估计量(Estimator):一个估计量又称统计量(statistic),是指一个规则、公式或方法,以用来根据已知的样本所提供的信息去估计总体参数。在应用中,由估计量算出的数值称为估计(值)(estimate)。样本回归函数SRF的随机形式为:iiiiuYuXˆˆˆˆˆY21i其中表示(样本)残差项(residual)。iuˆXiXPRF:E(Y|Xi)=1+2XiSRF:YE(Y|Xi)iiXY21ˆˆˆiuˆiuiYiYˆSRF是PRF的近似估计。为了使二者更为接近,即要使2211,ˆ尽可能接近尽可能接近二、经典线性回归模型(CLRM)的基本假定假定1:回归模型对参数是线性的假定2:在重复抽样中X的值是固定的(非随机)假定3:干扰项的均值为零。即,E(ui|Xi)=0假定4:同方差性或ui的方差相等。即Var(ui|Xi)=E[ui-E(ui)|Xi]2=E(ui2|Xi]2=2假定5:各个干扰项无自相关。即Cov(ui,uj|Xi,Xj)=E[ui-E(ui|Xi)][uj-E(uj|Xj)]=E(ui|Xi)(uj|Xj)=0假定6:ui和Xi的协方差为零。即Cov(ui,Xi)=E[ui–E(ui)][Xi–E(Xi)]=E[ui(Xi–E(Xi))]=E(uiXi)–E(ui)E(Xi)=E(uiXi)=0假定7:观测次数必须大于待估计的参数个数。假定8:解释变量X的只要有变异性。即一个样本中,Xi不能完全相同。假定9:模型没有设定误差。假定10:没有完全的多重共线性,即解释变量之间没有完全的线性关系。第二节双变量回归模型:估计一、普通最小二乘法(OrdinaryLeastSquares,OLS)基本思路:用样本回归函数估计总体回归函数。以iiiuXYSRF21ˆˆˆ:iiiuXYPRF21:估计iiiiiuYuXYˆˆˆˆˆ21)ˆˆ(ˆˆ21iiiiiXYYYu残差估计出的参数21ˆˆ和使残差的平方和最小。2212221)ˆˆ()ˆ(ˆ:min:,ˆˆiiiiiXYYYu要求和即寻找时,真实值iiiiiiiXnYXnYXYu21212112ˆˆ0)ˆˆ(2)ˆˆ(2ˆ)ˆ(2212212212122ˆˆ0ˆˆ(2)ˆˆ((2))(ˆˆ(2ˆ)ˆ(iiiiiiiiiiiiiiiiXXXYXXXYXXXYXXYu求解这一最小化问题,根据最大化的一阶条件:可得到以下正规方程(Normalequation):22121ˆˆˆˆiiiiiiXXXYXnY二、参数的估计(点估计):OLS估计量1、解上述正规方程组得到估计值:222)())((ˆiiiiiixyxXXYYXXXY2ˆ1ˆ)为离差。()和(的均值,、分别为和其中YYyXXxYXYXiiii,解出21ˆˆ和,可得到估计值。21ˆˆ和称为最小二乘估计量(OLS估计)。2、OLS样本回归线的性质:不相关。与不相关。与)(:由方差最小的一阶条件的均值为零。残差,可得两边求和,并同除的均值:的均值等于实测的的样本均值。和通过iiiiiiiiiiiiiiXuYuXYuXYuYYXXYXXYXYYXYˆ)5(ˆˆ)4(0ˆˆ0ˆ2ˆ)3(ˆn)(ˆˆ)ˆ(ˆˆˆYˆ)2(ˆˆXY)1(21212222121三、2的估计真实方差的估计量:2ˆˆ22nui22222222)(ˆ)ˆ(ˆiiiiiiiiiixyxyxyYYu四、OLS估计的精度或标准误差由于OLS估计是根据一个样本得到的,需要检验估计量的可靠性(reliability)或精密度。在统计学中,一个估计量的精密度由它的标准误(standarderror,se)来衡量。2222222222222222)ˆ()ˆ()ˆ(,)(,)(0)(][)]ˆ(ˆ[)ˆ(iijiiixVARsexkukVARuEjiuuEukEEEVARiiii标准误:方差::对于2ˆ221222222211221221)ˆ()1(])[()ˆ(ˆ)(1ˆ1ˆˆiiixnXVARxnXxXnukXnuEVARukXnuXuXnXYnXYiiiiiiiiiii标准误:方差::对于1ˆ五、OLS统计量的性质:高斯-马尔柯夫定理在CLRM假定下,在所有线性无偏估计量中,OLS估计量有最小方差,即OLS是BLUE(BestLinearUnbiasedEstimator)。iiiiiiiiiiiiiiiiiiiiiiiiiiYkXnYkXnYYkXYXYxxxkxxxkxxkxxkYkYxxxYxiii)1(ˆˆ111101)(ˆ21222222222222其中(1)线性:21ˆˆ和为Yi的线性函数11112121222221212)ˆ()()(ˆˆ)()ˆ()(ˆEukXuXukuXXYuEkEukukXkkuXkYkiiiiiiiiiiiiiiiiiiiii(2)无偏性:21ˆˆ和为21,的无偏估计量。(3)最小方差性:OLS估计量最小。和)ˆ()ˆ(21VARVAR在所有线性无偏估计量中,具有最小方差。即可以证明OLS估计量具有最小方差。21ˆˆ和第三节拟合优度检验拟合优度检验是指对样本回归线与样本观测值之间拟合程度的检验。度量拟合程度的指标是判定系数R2。基本思路:因变量Y的变异,能够被X的变异解释的比例越大,则OLS回归线对总体的解释程度就越好。XiXPRFSRFY(来自回归)RSSYY)ˆ()ˆRSSui来自残差(TSSYYi)(总离差:iYiYˆ总平方和(TSS):实测的Y值围绕其均值的总变异:22)(YYyiiY222222222ˆˆˆˆˆˆ2ˆˆ)ˆˆ(2iiiiiiiiiiiuxuyuyuyuyyTSS222ˆixESS2ˆiuRSSRSSESSTSS2222)()()ˆ(1YYuYYYYTSSRSSTSSESSiiii定义判定系数R2:222)()ˆ(YYYYTSSESSRii估计的Y值围绕其均值的总变异未被解释的围绕回归线的Y值的变异222)(ˆ1:YYuRSSRii或R2测度了在Y的总变异中,由回归模型解释的部分所占的比例。R2越高,回归模型拟合的程度就越好。R2的性质:(1)非负。(2)0≤R2≤1其它表达方式:22222iiyxR2222)(iiiiyxyxR22222)1(iiiyRyRy判定系数与相关系数的关系:相关系数:表示两个随机变量之间的相关程度。定义为:YXXYXY22221)(1)(1))((iiyxyxnYYnXXnYYXXSSSriiiiiiYXXYXY以样本方差和样本协方差估计X、Y的方差和协方差,样本相关系数为:样本相关系数的平方与判定系数相等,但二者的意义不同。第四节区间估计为了判断点估计与真值的接近程度,可以通过构造以估计值为中心的一个区间(随机的),以该区间包括了真值的概率来确定估计值接近真值的把握程度:1)ˆˆPr(222上限分别为置信下限和置信))称为显著水平,(()称为置信系数称为置信区间2222ˆ,ˆ;101;]ˆ,ˆ[一、的置信区间2ˆ也服从正态分布。,服从正态分布,则假定21ˆˆiu))ˆ(,(~ˆ22222ixVARNu)1,0(~/ˆ)ˆ(ˆ222222NxSei