12.4回归模型的统计检验22.4.1拟合度检验拟合优度的概念•对于任意两个变量的一组观测值,我们总是可以运用最小二乘法得到一条直线,问题是该直线能否较好地拟合所给定的观测值,这就是拟合优度问题。•拟合度检验,是检验模型对样本观测值的拟合程度。•根据最小二乘法的原理,估计模型时已经使拟合误差(残差平方和)达到了最小,但这并不意味着模型能够很好地描述样本数据的关系。3拟合度图示•总体回归模型:Y=10+0.5X+N(0,4)(绿色)•样本回归函数:Y=12.67+0.40X+e(红色)0510152025308121620242832364拟合度图示•总体回归模型:Y=10+0.5X+N(0,16)•样本回归函数:Y=6.43+0.65X+e0510152025303581216202428323652.4.1拟合度检验拟合优度的概念•残差平方和、回归标准差等可以作为模型拟合程度的度量,但残差平方和是绝对量,不是很理想。•需要构造一个相对误差指标来度量模型对样本数据的拟合程度。61.总体平方和的分解•Y的变差的组成ˆˆ()()ttttYYYYYY222ˆˆ()()()ttttYYYYYY222ˆˆˆˆ()()()2()()tttttttYYYYYYYYYYˆˆtttYYYY而ˆttYYeˆ0tttYeYe7即:TSS=ESS+RSS1.总体平方和的分解总离差平方和(TSS)回归平方和(ESS)残差平方和(RSS){{{222ˆˆttttYYYYYY所以ESS是模型中解释变量所解释的那部分离差的大小RSS是模型中解释变量未解释的那部分离差的大小其中,ESS——ExplainedSumofSquaresRSS——ResidualSumofSquaresTSS——TotalSumofSquares8越小,则各观测值聚集在回归直线周围越紧密,说明直线与观测值的拟合越好,R2的值越大。2te1)()()ˆ(2222YYeYYYYtttt22222ˆ()11()()ttttYYeRYYYYESSRSSTSSTSS决定系数R2定义决定系数R2为:9•0≤R2≤1;R2=1时,残差平方和RSS=0,回归方程与样本观测值完全拟合。•R21,说明回归方程拟合效果越好;R20,说明回归方程拟合得越差。•R2是回归线对各观测点拟合紧密程度的测度。决定系数R210练习题•用y表示的总体平方和是_________,回归平方和是_________,残差平方和是_________,判定系数的表达式为_________。•决定系数R2的取值范围为_______,R2越接近1,说明回归方程_______,R2越接近0,说明回归方程_______。11残差平方和的一个特点是,每当模型增加一个解释变量,并用改变后的模型重新进行估计,残差平方和的值会减小。由此可以推论,决定系数是一个与解释变量的个数有关的量:解释变量个数增加减小R2增大也就是说,人们总是可以通过增加模型中解释变量的方法来增大R2的值。因此,用R2来作为拟合优度的测度,不是十分令人满意。2e修正的决定系数12修正的决定系数211(1)1nRnk实际中人们常采用修正的决定系数来检验模型的拟合度:2/(1)1/(1)RSSnkRTSSn22(1)1kRRnk22RR221,01kRRn当时例2-2、例2-313决定系数R2•实际应用中,初学者常常被R2达到多大才算模型通过了检验这个问题所困扰。其实,对于R2的大小所代表的好坏没有绝对的标准,视研究的具体情况而定。•判断模型回归分析的质量时,拟合度并不是唯一的标准。•仅考虑最大化调整的判定系数,而不注意方程的经济含义或统计意义,这样的做法是危险的。《应用计量经济学》2R14课外作业P56——4•一元线性回归模型和多元线性回归模型的判定系数R2在定义上有没有区别?修正的判定系数与R2的联系和区别是什么?2R152.4.2模型的显著性检验•显著性检验包括模型的显著性检验和解释变量的显著性检验。1、假设检验•根据实际问题的要求提出一个假设,称为原假设,记为H0。•逻辑上运用反证法,统计上依据“小概率事件实际不可能发生的原理”•先假定原假设H0是正确的,构造一个检验统计量,并确定其概率分布,再构造一个小概率事件(拒绝域)。•随机抽取一组容量为n的样本观测值,并计算出检验统计量值,如果检验统计量值在拒绝域,则拒绝原假设,说明原假设H0是错误的。162、回归方程的显著性检验——F检验012H:k=0即所有解释变量对Y均无影响112H:,,,k不全为零在原假设成立的情况下,可以证明:22ˆ()/~(,1)/(1)iiYYkFFknkenk对于多元线性回归模型:01122kkYXXX222222ˆ()~(),(1)iiYYeknk17F分布•设X~2(m),Y~2(n),且X与Y相互独立,则称随机变量服从自由度为(m,n)的F-分布,其中m称为第一自由度,n称为第二自由度,记作F~F(m,n)。//XmFYn18F分布密度函数图00.511.522.533.544.500.511.522.533.544.5F(1,20)F(2,20)19F分布密度函数图00.10.20.30.40.50.60.70.800.511.522.533.544.5F(3,10)F(3,50)F(5,50)20•给定显著性水平α,查表求临界值Fα(k,n-k-1),并通过样本观测值计算F值。•若FFα,接受H0,表明所有解释变量联合起来对Y无显著影响,回归模型无效;•若FFα,拒绝H0,表明所有解释变量联合起来对Y有显著影响,所选择模型对因变量的行为能够提供某种程度的解释。回归模型有显著意义。2、回归方程的显著性检验——F检验21F检验拒绝域F222222ˆ()///(1)(1)/(1)itYYkRkFenkRnk•全部斜率系数为零的检验实际上是检验R2的值是否显著异于零;23练习•根据[例2-3]中的回归结果,在5%的显著性水平上检验方程的显著性。242.4.3解释变量的显著性检验•对于多元线性回归模型,方程的总体线性关系是显著的,并不能说明每个解释变量对被解释变量的影响都是显著的。•必须对每个解释变量进行显著性检验,以决定是否作为重要的解释变量保留在模型中。•如果某个变量对被解释变量的影响并不显著,应该考虑将它剔除,以建立更为简单的模型。2.4.3解释变量的显著性检验1.t统计量ˆ1ˆ~(1)ˆiiiittnkV2ˆˆ(,)iiiN122ˆ211iTiiVXX是矩阵主对角线的第个元素1ˆ(0,1)iiiNV01122kkYXXX设模型为:26对一元线性模型212ˆˆ()()iSxx11111ˆ212ˆˆ~(2)ˆ()ˆ()ittnSxxˆˆ~(1)ˆ()iiiittnkS27t分布•设X~N(0,1),Y~2(n),且X与Y相互独立,则称随机变量•服从自由度为n的t分布,记作T~t(n)。•当n1时,t分布的数学期望E(t)=0•当n2时,t分布的方差D(t)=n/(n-2)•t分布是类似标准正态分布的一种对称分布,它通常要比标准正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于标准正态分布/XTYn28t分布与标准正态分布的比较00.050.10.150.20.250.30.350.4-6-5.6-5.2-4.8-4.4-4-3.6-3.2-2.8-2.4-2-1.6-1.2-0.8-0.400.40.81.21.622.42.83.23.644.44.85.25.66标准正态分布t分布n=1t分布n=6292.t检验1、计算检验统计量2、给定α,可由t分布表查得临界值tα/2,3、若|t|tα/2,拒绝H0,Xi对Y有显著影响;若|t|≤tα/2,接受H0,认为Xi对Y影响不显著,应考虑将Xi从模型中剔除,以建立更简单的模型。ˆˆ~(1)ˆ()iiittnkSH0:βi=0,即假设Xi对Y没有显著影响。2.4.3解释变量的显著性检验30练习题1、在[例2-3]中,在5%的显著性水平上检验变量x1、x2的显著性。2、计量经济模型的统计检验一般包括:________、_________、_________。3、解释变量的显著性检验中,原假设为______,检验的统计量为________,其服从的分布为________。4、根据美国1960-1995年36年间个人实际可支配收入X和个人实际消费支出Y的数据,得出如下回归结果。请根据有关运算关系计算表中空格A—E处的数值31DependentVariable:YSample:19601995Includedobservations:36CoefficientStd.Errort-StatisticProb.C-9.4287452.504347A0.0006X0.9358660.007467B0.0000R-squaredCMeandependentvar289.9444AdjustedR-squared0.997777S.D.dependentvar95.82125S.E.ofregressionDAkaikeinfocriterion5.907908Sumsquaredresid693.9767Schwarzcriterion5.995881Loglikelihood-104.3423Hannan-Quinncriter.5.938613F-statisticEDurbin-Watsonstat0.523428Prob(F-statistic)0.00000032回归分析结果的报告•回归结果的报告通常采用如下形式:12ˆ17.4873.591.81yxx,R2=0.4902,DW=2.15t=(-0.60)(2.36)(1.24)财政资金农业支出与农民收入关系研究33课外作业•P56——9342.4.4参数的置信区间ˆ~(1)ˆ()iiitnkS如果给定置信度(1-),t值落在区间(-t/2,t/2)的概率是(1-)。表示为:/2/2((1)(1))1Ptnkttnk即/2/2ˆ((1)(1))1ˆ()iiiPtnktnkS/2/2ˆˆˆˆ(()())1iiiiiPtStS352.4.4参数的置信区间所以在1-的置信度下,i的置信区间是/2/2ˆˆˆˆ()()iiiiitStS即/2/2ˆˆˆˆˆˆiiiiiiitttt/2/2ˆˆˆˆ(1)(1)iiiiitttt36练习•计算[例2-3]中的参数在95%置信水平下的置信区间372.5预测预测时,需假定总体回归模型Y=Xβ+ε,当解释变量为时仍然成立。01122ˆˆˆˆˆˆfffkkffYXXXXβ01122fffffkkffYXXXXβ12(1,,,,)fffkfXXXX•点预测值由与Xf对应的回归值给出,即38课外作业•P56——1039区间预测•预测误差为ˆˆˆ()ffffffffeYYXXXˆ()()()0fffEeEEXββ•所以的一个无偏预测量ˆffYY是•ef的方差为22121ˆvar()var()var[()]ˆˆvar()[()()]ˆˆˆvar()[()()]v