§3.5回归参数的显著性检验和置信区间(这里的检验方法同样适用一元线性回归)一、参数估计量的抽样分布和方差估计由基本假定1-4决定了随机项U服从正态分布:U~N(3.5.1)由于是U的线性函数,故也服从正态分布:),0(2Inuˆˆ))(,(~ˆ12iiuiiXXN(3.5.2)但是未知,应该用2uˆ2u)(ˆ)ˆ(ˆ12iiuiXXV(3.5.3)二、回归参数的t显著性检验(1)假设H0:=0,备择假设H1:≠0。(2)构造统计量ii)(ˆˆˆiiVT(3.5.4)(3)当H0成立时,(4)对给定的显著水平α,确定临界值。(5)若,拒绝假设H0,即显著不为零。若,则接受假设H0,即不否认为零。)1(~kntT)1(2/knt)1(2/knTti)1(2/knTti图2.5.1阴影部分为t检验的否定域三、回归参数的置信区间由(3.5.2)知,服从正态分布,所以有统计量ˆ)1,0(~)ˆ(ˆNViii(3.5.5)其中)()ˆ(12iiuiXXV由于未知,应用代替时,(3.5.5)的统计量将变成T统计量:)ˆ(iV)ˆ(ˆiV)ˆ(iV)1(~)ˆ(ˆˆkntVTiii(3.5.6)对给定的显著水平α(或置信度1-α)的置信区间为:)ˆ(ˆ)1(ˆ2/iiiVknt(3.5.7)其中为对于显著水平为α和自由度为n–k-1的t分布临界值,。)1(2/knt)(ˆ)ˆ(ˆ12iiuiXXV四、多元线性回归模型的F检验(模型显著性检验)(一)F检验ˆXY(3.5.8)或ikikiiixxxyˆˆˆ2211(3.5.9)(1)提出假设备择假设不全为零j=1,2,…,k(2)构造统计量0:210kHjH:1)1,(~)1/(/knkFknESSkRSSF(3.5.10)设有样本模型(3)当H0成立时,(4)对给定的显著水平α,确定临界值。(5)若,拒绝假设H0,即解释变量总体对y的影响是显著的,方程估计可靠。若,则接受假设H0,即方程不明显存在,方程估计不可靠。)1,(~knkFF)1,(knkF)1,(knkFF)1,(knkFF图2.5.2阴影部分为F检验的否定域(二)F与R2的关系)1,(~)1/()1(/)1/(/22knkFknkknESSkRSSFRRkknRRkknTSSRSSTSSTSSRSSkknESSRSSknESSkRSSF1111)1/(/22F统计量的另一个表达形式:当H0成立时有五、检验参数的一个线性组合假设考虑一个简单模型,比较美国两年制大专和四年制本科教育的回报(工资)。建立模型ln(wage)=β0+β1jc+β2univ+β3exper+u(3.5.11)式中jc为就读两年制大专的年数,univ为就读四年制大学的年数,exper在职场上工作的年数(注:大专和大学的任意组合都是允许的,包括jc=0,univ=0)。我们所关心的假设是是否成立或可以证明:当H0成立时,统计量210:210H)1(~)()(ˆˆˆˆˆˆˆˆˆ21212121kntseVT其中),(2)(ˆ)(ˆ)(ˆˆˆˆˆˆˆ212121COVVVV)()ˆ,ˆ(112221XXCOVu)ˆ,ˆ(),ˆ(ˆ),ˆ(ˆ2121COVVV可以在中找到,)(12XXu)()ˆ(ˆ12iiuiXXVi=1,2另一个求的方法是,设则统计量可写成)ˆˆ(ˆ21V21)ˆ(ˆ)ˆ(ˆˆ)(ˆˆˆˆˆ2121seVVT现在我们求,作变换代入模型(3.5.11)21ln(wage)=β0+(θ+β2)jc+β2univ+β3exper+u改写成ln(wage)=β0+θjc+β2(jc+univ)+β3exper+u(3.5.12)只需估计模型(3.5.12)系数θ的标准差即为。)ˆ(se)ˆˆ(ˆ21V六、对多个线性约束的检验:F检验将具有k个自变量的不受约束模型写成uyxxkk110(3.5.13)不受约束模型中的参数为k+1个。假设有q个排除性约束要检验,即虚拟假设表示(3.5.13)中有q个变量的系数为零。0,,0:10kqkH至少有一个不为零:1H(3.5.14)它对模型(3.5.13)施加了q个排除性约束。当成立时,得到受约束模型:H0uyxxqkqk110可以证明F统计量)1,(~)1/(/)(knqFknESSqESSESSFr式中,ESSr为受约束模型的残差平方和,ESS为不受约束模型的残差平方和。分子自由度q为施加的约束个数,或q=fr–f即受约束模型的残差平方和与不受约束模型的残差平方和之差。分母自由度f=n-k-1。一个例子:考虑如下美国棒球职业联盟中运动员薪水的模型(伍德142页):lny=β0+β1x1+β2x2+β3x3+β4x4+β5x5+u(3.5.15)式中y为1993年的总薪水,x1为加入联盟的年资,x2为年参加比赛的次数,x3为职业击球率,x4为年本垒打的次数,x5为年击球跑垒得分。我们想检验:一旦控制了加入联盟的年资和每年比赛次数,度量球员表现的统计指标对薪水是否就没有影响。假设备择假设不正确当成立时,模型(3.5.15)写成lny=β0+β1x1+β2x2+u(3.5.16)(3.5.16)是成立条件下的受约束模型,(3.5.15)则为不受约束模型。0,0,0:5430H:1HH0H0H0对(3.5.15)进行估计:lny=11.19+0.0689x1+0.0126x2+0.00098x3+0.144x4+0.0108x5(0.29)(0.0121)(0.00226)(0.00110)(0.0161)(0.0072)n=353,ESS=183.186,R2=0.6278(3.5.17)从三个t统计量来看,我们不能拒绝(三个参数都不显著)。但这个结论却是错误的。H0估计受约束模型(3.5.16)lny=11.22+0.0713x1+0.0202x2(3.5.18)(0.11)(0.0125)(0.0013)n=353,ESSr=198.311,R2=0.597155.9)15353/(186.1833/)186.183311.198()1/(/)(knESSqESSESSFr查F表因为F=9.553.78,所以,拒绝,即拒绝x3,x4,x5对运动员薪水没有影响。78.3)347,3(,60.2)347,3(01.005.0FFH0t检验三个参数都不显著与联合检验却显著,似乎是矛盾?出现问题的原因是x4和x5两个变量是高度相关的,引起多重共线。t检验是单个统计量,F统计量检验这三个变量是否联合显著,x4和x5之间的多重共线性对联合检验影响就不大了。七、回归方程参数估计量的经济含义:xxxkkyˆˆˆˆ22110ˆ用变化量表示为xxxkkyˆˆˆ2211ˆx1的系数表示在所有其它条件不变的情况下,x1变化一个单位而导致y的变化量。即在保持不变的情况下,xxxk,,,32xy11ˆˆ例:利用526个工人的观测数据,建立工资收入的对数lny,受教育年数x1,工作年数x2,任现职的任期x3的回归方程:xxxy321022.00041.0092.0284.0ˆln系数0.092意味着,在保持固定不变的情况下,多受一年教育者的工资收入的对数lny预期提高0.092,即9.2%。xx32,在上面的方程中,当一个人在同一个企业多呆一年:都增加一年时,对工资的影响。在保持不变的情况下,对工资的总影响:xx32,xxy32022.00041.0ˆln当时,132xx0261.0022.00041.0ˆlnyx1思考题:对多元线性回归模型的F检验与对多个线性约束的检验:F检验,两者有什么不同和相同?思考题解答:相同点:他们都是联合检验,因而都用F检验;不同点:对多元线性回归模型的F检验是检验整个模型是否显著,即模型是否明显存在。而对多个线性约束的F检验,是检验模型中部分参数是否同时不存在。