第4章多元回归分析:推断4.1OLS估计量的抽样分布4.2检验对单个总体参数的假设:t检验4.3置信区间4.4检验关于参数的一个线性组合的假设4.5对多个线性约束的检验:F检验4.6报告回归结果回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。主要包括拟合优度检验、变量的显著性检验及参数的区间估计。4.1OLS估计量的抽样分布已经了解了OLS估计量的期望值和方差——有助描述OLS估计量的精密度要进行统计推断,还需要知道估计量的抽样分布4.1.1正态性假定样本中自变量的值既定,因而OLS估计量的抽样分布取决于误差分布假定MLR.6正态性总体误差u独立于解释变量x1,x2,…,xk,而且服从均值为零,方差为s2的正态分布:),0(~2sNu4.1.2经典线性模型假定高斯—马尔科夫假定与正态分布假定一起被称为经典线性模型假定对参数而言为线性;随机抽样性;条件均值为0;不存在完全共线性;同方差性经典线性模型总结经典线性模型假定的一种简洁方法:在实际应用中,误差不一定具有正态性例子:考虑劳动力市场上,工资与教育、工作经历、在现任工作的任职年限的关系工资不可能低于0,何况有最低工资法案——不具有正态分布对变量做一个变换,比如log一般来讲,相对于很大的样本容量来讲,误差的非正态性算不上一个严重的问题——目前,我们姑且认可正态性假定。4.1.3定理定理4.1正态抽样分布在经典线性假定下,给定自变量的样本值,有22ˆ()(1)jjjVarSSTRs21()njijjiSSTxx其中,SSTj为xj的总样本变异因此,)1,0(~)ˆ(/)ˆ(Nsdjjj证明:(仅证明β1)机变量。也是服从正态分布的随所以变量,是服从正态分布的随机,根据的线性组合,可以看作是,所以其中1i12111i112111121111ˆ6.MLRˆˆˆˆˆˆˆˆuurrururryriiiiiiiiniiniii相互独立的正太随机变量的线性组合依然服从正态分布注意:的任何线性组合也都是正态分布的。{}中的任何一个子集也都具有联合正态分布。4.2检验对单个总体参数的假设:t检验对总体模型中的某个参数的假设进行检验总体模型:01122(4.4)kkyxxxu研究如何检验那些有关某个特定的j的假设。是总体未知的特征,而且永远不会确定的知道它们。但可以做出假设,然后通过统计推断来检验假设假设它满足经典线性模型假定4.2.1定理及概念定理4.2标准化估计量的t分布在经典线性模型假定下,有式中,k+1为总体模型中未知参数的个数。证明:正态分布:Y~N(μ,σ2)标准正态分布:Z=(Y-μ)/σ~N(0,1)χ2分布:X=∑Zi2~χn2t分布:~tnF分布:~Fk1,k2)1,0(~)ˆ(/)ˆ(Nsdjjj22222222~ˆˆ~)2(ˆ~nxnxntSSTtnSSRSSTSSRssss所谓假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原假设。假设检验采用的逻辑推理方法是反证法。先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设。判断结果合理与否,是基于“小概率事件不易发生”这一原理的。兴趣所在。又叫原假设,零假设0:0(4.6)jH虚拟假设:意味着控制了其他自变量后,xj对y没有任何局部效应。回顾统计学中给出的正态总体的均值的假设检验t统计量(或t比率)ˆˆ(4.7)ˆ()jjjtse软件会给出备择假设1:0(4.8)jH并不是不关心j0的情形——只是基于经济理论,对于该研究,排除了j0的可能4.2.2对立假设:单侧对立假设拒绝法则:在时,H0在某一显著性水平上被拒绝并支持H1如果在5%的显著性水平上拒绝H0并支持H1,则称xj是统计显著的,否则称xj是统计上不显著的。ˆ(4.9)jtc临界值——根据显著性水平和自由度决定(查表可得G.2)在虚拟假设正确时,错误拒绝它的概率例子:5%的显著性水平,df=n-k-1=28,临界值c=1.70101.701面积=0.05随着t分布的自由度逐渐变大,t分布会接近标准的正态分布——df大于120,就可以使用标准正态分布的临界值。拒绝域2ˆlog()0.2840.0920.0041exp0.022(0.104)(0.007)(0.0017)(0.003)526,0.316wageeducertenurenR标准误0exp1exp:0:0ererHHexpˆ0.0041/0.00172.41ertdf=522,使用标准正态分布的临界值:1%的显著性水平,c=2.326在1%的显著性水平上是统计显著大于0的0exp0ˆ?:0?:0.00410erHHExample:小时工资方程参数小于0的单侧对立假设1:0(4.10)jH拒绝法则:ˆ(4.11)jtct分布只报告正值,c一定为正值,故-c一定为负值。5%的显著性水平,df=18,临界值c=1.734例子-1.734面积=0.050拒绝域Example:学生表现与学校规模一种观点认为,在所有其它条件相同的情况下,小学校的学生比大学校的学生的情况更好些。012310mathincstaffenrollu学生通同过密歇根教学评价委员会标准化十分制数学测验的百分比,用来衡量学生表现年均教师工资每千名学生拥有的教职工人数学生注册人数,用来衡量学生规模2ˆ102.2740.000460.0480.00020(6.113)(0.00010)(0.040)(0.00022)408,0.0541mathincstaffenrollnRdf=404,在5%的显著性水平上,临界值为-1.65ˆ0.00020/0.000220.91enrollt-1.65不能拒绝H0实际上在15%的显著性水平上,c=-1.04-0.91也不能拒绝虚拟假设变化函数形式:自变量取log2ˆ10207.6621.16log()3.98log()1.29log()(48.70)(4.06)(4.19)(0.69)408,0.0654mathincstaffenrollnRˆ1.87enrollt-1.65(5%的显著性水平上的临界值)拒绝H0接受H1对参数的解释:enroll每提高1%,math10将降低0.0129%两个模型究竟哪一个个更好呢?注意观察拟合优度。较高的拟合优度能够说明自变量的形式对应变量有更强的解释力度。习题4.14.2.3双侧对立假设当经济理论(或常识)没有很好的说明j的符号时,这是一个恰当的对立假设。即便知道j在对立假设中的符号,采取双侧检验也是明智的——避免根据回归方程中参数估计值来提出对立假设。双尾检验的拒绝法则:1:0(4.12)jHˆ(4.13)jtc-2.06面积=0.02502.06面积=0.0255%的显著性水平,df=25,c=2.06拒绝域拒绝域Example:大学GPA的决定因素因变量:大学GPA(colGPA);自变量:高中GPA(hsGPA),大学能力测验分数(ACT),每周缺课次数(skipped)2ˆ1.390.4120.0150.083(0.33)(0.094)(0.011)(0.026)141,0.234colGPAhsGPAACTskipppednR双尾检验:5%的显著性水平,c=1.96;1%的显著性水平,c=2.5858.219.3026.0/083.096.136.1011.0/015.058.238.4094.0/412.0skippedACThsGPAttt在显著性水平是1%时统计上显著在显著性水平是5%时统计上不显著小结:t统计量检验显著性原理0bj-t/2t/2/2/2接受H0拒绝H0拒绝H0如果H0成立,P{|t|t/2}={|t|t/2}是小概率事件,如果该事件在一次抽样中就出现,说明假设H0值得怀疑,应当拒绝H0检验步骤(1)计算|t|(2)查表求临界值t/2(n-k-1)(3)比较,下结论如果|t|≤t/2,则接受H0,认为在显著性水平为的意义下,βj不显著;如果|t|>t/2,则拒绝H0,认为在显著性水平为的意义下,βj显著。4.2.4检验j的其它假设有时,也检验参数是否等于某个给定的常数0:0(4.6)jH最常见的假设0:(4.14)jjHa那么相应的t统计量就是:ˆ(4.15)ˆ()jjjjatset=(估计值-假设值)/标准误Example:住房价格和空气污染506个社区组成的样本,估计一个联系社区中平均住房价格(price)与各种社区特征的模型:nox表示空气中氧化亚氮的含量,以每区的百万分子数度量;dist表示该社区相距五个商业中心的加权距离,以英里为单位;rooms表示社区平均每套住房的房间数;stratio为该社区学校的平均学生—教师比。总体模型为:01234log()log()log()pricenoxdistroomsstratiou2ˆlog()11.080.954log()0.134log()0.2550.052(0.32)(0.117)(0.043)(0.019)(0.006)506,0.581pricenoxdistroomsstrationR0111:1:1HH0.954(1)0.3930.117tc如此小的t统计量,几乎不需要看t分布中的临界值:即使在很大的显著性水平上,估计的弹性也不会显著的异于-1。4.2.5计算t检验的P值使用经典方法进行假设检验,需要选择一个显著性水平。给定t统计量的观测值,能拒绝虚拟假设的最小显著性水平是多少——这个水平被称为检验的p值p值的概念:为了方便,将t统计量的值记为计算p=P{|t|t0}称为p值(p-value)通常的计量经济学软件都可自动计算出p值jjSetˆˆ0P值检验法原理bj0-t/2t/2/2/2接受H0拒绝H0拒绝H0t0p/2p/2如果p,则p/2/2,t0落入接受域,应接受H0如果p,则p/2/2,t0落入拒绝域,应拒绝H00bj-t/2t/2/2/2接受H0拒绝H0拒绝H0t0p/2p/2P值检验法准则当P值小于显著性水平时,系数在显著性水平下是显著的当P值大于显著性水平时,系数在显著性水平下是不显著的。P值检验法的优点在使用上更简单,不用查临界值表不将固定在某个武断的水平上是一个更可取的办法,最好是让使用者自己去决定在给定的p-value,到底是否拒绝零假设。例子:t=1.85,df=40,对于双侧对立假设所得到的p值-1.85面积=0.035901.85面积=0.03590718.00395.02)85.1(2)85.1|(|TPTPp可以在7.18%的显著性水平上拒绝H0一旦p值计算出来,在任何显著性水平()上都能进行检验:p,拒绝虚拟假设;否则不能拒绝回归软件包都会给出双尾检验的p值。如果求单侧检验的p值,只需将双尾检验的p值除以2。4.2.6对经典假设检验用语的提醒当H0未被拒绝时,我们说“在x%的显著水平上不能拒绝H0”,而不是说“在x%的显著水平上接受了H0”再次考虑住房价格与空气