多元线性回归分析01122(|)...iiikkiEYXXXX01122ˆˆˆˆˆ...iiikkiYXXX01122...iiikkiiYXXXu01122ˆˆˆˆ...iiikkiiYXXXe总体回归函数:样本回归函数:总体回归模型:样本回归模型:多元线性回归模型的基本经典假定假设1随机误差项具有零均值。0)(iE22)()(iiEVar0)()()(11nnEEEEμ假设2对于解释变量的所有观测值,随机误差项有相同的方差。1,2,...in1,2,...in假设3随机误差项彼此之间不相关0)(),(jijiECovnjiji,,2,1,满足经典假设的u的方差协方差矩阵2220..00...0......00...如果不满足假设二,我们称误差项存在异方差:Var(u)主对角线上的元素不相等。22221...00......0...00..0n如果不满足假设三,我们称误差项存在自相关:非主对角线上的元素不为0。2212212..............nnnn假设4所有的解释变量Xi为确定性变量,与随机误差项彼此之间不相关。,()01,2,,1,2,,ijjCovXuikjn假设5解释变量Xi之间不存在精确的线形关系,即解释变量的样本观测值矩阵X是满秩矩阵,应满足关系式:rank(X)=k+1n可以理解为各X之间互不相关(无多重共线性),或者说,其中一个解释变量不能写成其他解释变量的线性组合。1100401022000230000411204013220002300000,可以证明:若X是满秩的,则X’和X’X均是满秩的,即X’X非奇异,因此可求逆。若X不是满秩的,则X’和X’X均不是满秩的。此时由于│X’X│=0,所以其逆矩阵不存在,OLS将失效。假设6随机误差项服从正态分布,Y也服从正态分布。),0(~2Ni在大样本下,这一假设可以放松为i.i.d.假设7不太可能出现大异常值。总体回归模型n个随机方程的矩阵表达式为μXβY令)1(212221212111111knknnnkkXXXXXXXXXX1)1(210kkβ121nnμ12nYYYY原方程可以简写为在满足上述经典假设下,系数的决定为:YXXXβ1)(ˆ回归标准误差对于误差项ui,我们更关心它在回归线附近的离散程度,即标准差。希望标准差越小越好。由于ui本身是不可知的,因此,实际上sui是无法获得的,为了模拟其数值大小,我们用的标准差作为ui的标准差的估计值,称为回归的标准误差。ˆiu222221ˆˆˆ()ˆk1k1k1niiiiueuYYRSSSERSnnn22()euES多元回归的拟合优度总离差平方和的分解22)(YYyTSSii总体平方和(TotalSumofSquares)22)ˆ(ˆYYyESSii回归平方和(ExplainedSumofSquares)22)ˆ(iiiYYeRSS残差平方和(ResidualSumofSquares)可以推导:TSS=ESS+RSS可决系数R2统计量称R2为(样本)的可决系数/判定系数/拟合优度(coefficientofdetermination)。拟合优度的取值范围:[0,1]R2越接近1,说明实际观测点离样本线越近,拟合优度越高。2ER1SSSSRTSSTSS2R由于每次向回归方程中增加解释变量,R2必然只增不减。为此,可以通过调整自由度对解释变量过多进行“惩罚”,因此,可以定义“调整的拟合优度”2/(1)1/(1)RSSnkRTSSn即对于每一个系数,满足:iiˆ()E2ˆiiˆVar()最小二乘估计量的性质在满足基本假设的情况下,最小二乘估计量具有:线性性、无偏性、有效性(最小方差性)(BLUE特性)。高斯—马尔可夫定理(Gauss-Markovtheorem)在满足基本经典线性回归的假定下,最小二乘估计量是具有最小方差的最优线性无偏估计量。多重共线性的检验和处理多元回归中的假设检验和置信区间单个系数的假设检验和置信区间:方法同一元线性回归。1。单个系数的假设检验。需要检测某个回归系数是否显著。单个变量的假设检验(大样本假设下)单个变量的置信区间(大样本假设下)regtestscrstrel_pct,robust单个变量的假设检验(小样本假设下)(1)对总体参数提出假设H0:i=0,H1:i0(2)以原假设H0构造t统计量,并由样本计算其值ˆˆiitS(3)给定显著性水平,查t分布表,得临界值t/2(n-k-1)(4)比较,判断若|t|t/2(n-k-1),则拒绝H0,接受H1;若|t|t/2(n-k-1),则拒绝H1,接受H0;i的置信区间是(,)iitstsii22单个变量的置信区间(小样本假设下)regtestscrstrel_pct我们可以看出,大样本假设和小样本假设下同一个回归的系数完全一样,但标准误和t值、置信区间完全不同。多元回归分析使学区负责人相信,基于目前的证据,缩小学区内的班级规模有利于提高测试成绩。但她现在又提出了有点细微差别的问题。即如果她雇用了更多的教师,则她要么通过缩减预算内的其他开支(不再购买新的计算机,降低维修费等等),要么要求增加预算(显然不是纳税人喜欢的)来支付这些教师的工资。因此她问到,如果保持每个学生所分摊的预算(和英语学习者百分率)不变那么降低学生/教师比对测试成绩的效应是多少?这个问题可以通过估计测试成绩对学生/教师比,每个学生所分摊的预算以及英语学习者百分率的回归来解决。即解释变量包含三个:学生/教师比,每个学生所分摊的预算、英语学习者百分率。方程中加入每个学生的花费原因的一种解释是,在这些加利福尼亚学区的数据中,学校管理者有效地分配了预算。假设,与事实相反,上式中STR的系数取大的负值。如果是这样的话,学区可以通过减少其他用途(教材、技术、运动等等)的资金而将其用于雇用更多的教师以便在费用固定情况下通过降低班级规模来提高测试成绩。但是,上式中STR的系数较小且统计上不显著,表明资金的这种转移对测试成绩几乎没什么影响。换言之,学区内的资金分配已经很有效了。纳税人的假设是个联合假设,因此我们需要用新的工具F统计量来检验它。联合检验称方程附加了两个约束为什么不能使用t检验虽然看似可以通过利用常用t统计量一次检验一个约束来检验联合假设,但这种方法是不可靠的。具体地,假设你想检验式子:ß1=0且ß2=0令t1表示检验原假设ß1=0的t统计量,t2表示检验原假设ß2=0的t统计量。假设t统计量相互独立:拒绝原假设概率公式为:1-0.952=9.75%这种“一次一个”的方法给了你太多的机会,也就是当你用第一个t统计量无法拒绝时,你还可以尝试使用第二个t统计量,所以过多地拒绝了原假设。若回归变量相关,则情况要更复杂。)(~22n记为χ2分布和F分布定义:设相互独立,都服从正态分布N(0,1),则称随机变量:所服从的分布为自由度为n的分布.nXXX,,,21222212nXXX22分布是由正态分布派生出来的一种分布.F分布),(~),(~2212nYnX定义:设X与Y相互独立,n1称为第一自由度,n2称为第二自由度,记作:F~F(n1,n2).21nYnXF则称统计量服从自由度为n1及n2的F分布.异方差假设下的F检验(大样本)一。q=2个约束的F统计量。假设我们想检验式子:ß1=0且ß2=0令t1表示检验原假设ß1=0的t统计量,t2表示检验原假设ß2=0的t统计量。1。假设t统计量不相关F=(1/2)(t12+t22)即,F统计量是t统计量平方的均值。原假设下t1和t2为独立的标准正态随机变量,所以原假设F服从F2,∞分布。如果ß1或者ß2显著(或者都显著),t12或者t22很大,检验结果拒绝原假设。在经济计量学中,具有大分母自由度的F分布是很普遍的。当n2变为无限时,F的分母完全收敛为1,所以我们可以将分布Fn1,n2变为Fn1,∞我们可以证明,在一元回归模型中,F统计量与t统计量存在关系:F≈t22。假设t统计量相关原假设依然服从F2,∞分布。二。q个约束的F统计量。可以证明,原假设服从Fq,∞分布。利用F统计量计算p值“总”回归的F统计量“总”回归的F统计量检验了所有斜率系数为零的联合假设。假设方程有k个变量。可以证明,原假设服从Fk,∞分布。应用实例一:1。回归方程必须要加robust选项。2。检验命令用test(Wald检验)regtestscrstrexpnel_pct,robusttest(str=0)(expn=0)应用实例二:regtestscrstrexpnel_pct,robusttest(str=0)(expn=0)(el_pct=0)或者简单写成:teststrexpnel_pct结果和stata呈现的F值相同。同方差适用F统计量当检验被解释变量yt与一组解释变量x1,x2,...,xk是否存在回归关系时,给出的零假设与备择假设分别是H0:1=2=...=k=0;H1:i,i=1,...,k不全为零。检验思路:(所有参数联合检验)无约束模型为:方程(a)yt=0+1x1t+2x2t+…+kxkt+ut受约束模型:方程(b):yt=0+vt受约束模型表示原假设为真,无约束模型表示备则假设为真。如果原假设成立,那么模型(a)中的参数1,…,k均不显著,模型(a)与模型(b)的残差平方和近似相等。如果备择假设成立,那么模型(a)中至少有一个变量是显著的,而模型(b)中的随机扰动项vt包含了这些显著性的变量,因此模型(b)的残差平方和会明显高于模型(a)的残差平方和。模型(a)的残差平方和表示为RSSU(其中U表示没有约束(Unrestricted))。模型(b)的残差平方和表示为RSSR(其中R表示带有约束(Restricted))。20111ˆˆˆ()TUttkkttRSSyxx201ˆ()TRttRSSy因此,可以根据残差项方差的变化来检验假设是否是正确的。如果(RSSR-RSSU)比较大(小),则倾向于拒绝(接受)原假设。正式的统计检验是通过构建如下F统计量来完成的。()//(1)RUUURSSRSSkFRSSnk在H0成立条件下,有FF(k,n–k–1)由检验思路可以看出,F统计量越大(小),我们越倾向于拒绝(接受)原假设。因此,这是右单端检验。检验可以临界值方法和构建p值的方法来完成。设检验水平为,检验规则如下。临界值法:若FF(k,n–k–1),则接受H0;若FF(k,n–k–1),则拒绝H0。P值法:若P(xF)α,接受H0;若P(xF)α,拒绝H0。拒绝H0意味着肯定有解释变量与yt存在回归关系。若F检验的结论是接受H0,则说明k个解释变量都不与yt存在回归关系。此时,假设检验应该到此为止。当F检验的结论是拒绝H0时,应该进一步做t检验,从而确定模型中哪些是重要解释变量,哪些是非重要解释变量。222()/(1)/(1)RUUURRkFRnk重新计算前面两个例子结论相同F值差异较大计算简单,只适用于同方差假设(没有异方差)练习例一:工资方程usewage2,clearreglnwageeductenureexperexpersq1。教育(educ)和工作时间(tenure)对工资的影响相同。tes