北大光华本科计量课件第2章回归模型3

yujun2828
1 ℃
2020-02-16

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

12.4回归模型的统计检验22.4.1拟合度检验拟合优度的概念•对于任意两个变量的一组观测值，我们总是可以运用最小二乘法得到一条直线，问题是该直线能否较好地拟合所给定的观测值，这就是拟合优度问题。•拟合度检验，是检验模型对样本观测值的拟合程度。•根据最小二乘法的原理，估计模型时已经使拟合误差（残差平方和）达到了最小，但这并不意味着模型能够很好地描述样本数据的关系。3拟合度图示•总体回归模型：Y=10+0.5X+N(0,4)（绿色）•样本回归函数：Y=12.67+0.40X+e（红色）0510152025308121620242832364拟合度图示•总体回归模型：Y=10+0.5X+N(0,16)•样本回归函数：Y=6.43+0.65X+e0510152025303581216202428323652.4.1拟合度检验拟合优度的概念•残差平方和、回归标准差等可以作为模型拟合程度的度量，但残差平方和是绝对量，不是很理想。•需要构造一个相对误差指标来度量模型对样本数据的拟合程度。61.总体平方和的分解•Y的变差的组成ˆˆ()()ttttYYYYYY222ˆˆ()()()ttttYYYYYY222ˆˆˆˆ()()()2()()tttttttYYYYYYYYYYˆˆtttYYYY而ˆttYYeˆ0tttYeYe7即：TSS=ESS+RSS1.总体平方和的分解总离差平方和（TSS）回归平方和（ESS）残差平方和（RSS）{{{222ˆˆttttYYYYYY所以ESS是模型中解释变量所解释的那部分离差的大小RSS是模型中解释变量未解释的那部分离差的大小其中，ESS——ExplainedSumofSquaresRSS——ResidualSumofSquaresTSS——TotalSumofSquares8越小，则各观测值聚集在回归直线周围越紧密，说明直线与观测值的拟合越好，R2的值越大。2te1)()()ˆ(2222YYeYYYYtttt22222ˆ()11()()ttttYYeRYYYYESSRSSTSSTSS决定系数R2定义决定系数R2为：9•0≤R2≤1；R2=1时，残差平方和RSS=0，回归方程与样本观测值完全拟合。•R21，说明回归方程拟合效果越好；R20，说明回归方程拟合得越差。•R2是回归线对各观测点拟合紧密程度的测度。决定系数R210练习题•用y表示的总体平方和是_________，回归平方和是_________，残差平方和是_________，判定系数的表达式为_________。•决定系数R2的取值范围为_______，R2越接近1，说明回归方程_______，R2越接近0，说明回归方程_______。11残差平方和的一个特点是，每当模型增加一个解释变量，并用改变后的模型重新进行估计，残差平方和的值会减小。由此可以推论，决定系数是一个与解释变量的个数有关的量：解释变量个数增加减小R2增大也就是说，人们总是可以通过增加模型中解释变量的方法来增大R2的值。因此，用R2来作为拟合优度的测度，不是十分令人满意。2e修正的决定系数12修正的决定系数211(1)1nRnk实际中人们常采用修正的决定系数来检验模型的拟合度：2/(1)1/(1)RSSnkRTSSn22(1)1kRRnk22RR221,01kRRn当时例2-2、例2-313决定系数R2•实际应用中，初学者常常被R2达到多大才算模型通过了检验这个问题所困扰。其实，对于R2的大小所代表的好坏没有绝对的标准，视研究的具体情况而定。•判断模型回归分析的质量时，拟合度并不是唯一的标准。•仅考虑最大化调整的判定系数，而不注意方程的经济含义或统计意义，这样的做法是危险的。《应用计量经济学》2R14课外作业P56——4•一元线性回归模型和多元线性回归模型的判定系数R2在定义上有没有区别？修正的判定系数与R2的联系和区别是什么？2R152.4.2模型的显著性检验•显著性检验包括模型的显著性检验和解释变量的显著性检验。1、假设检验•根据实际问题的要求提出一个假设，称为原假设，记为H0。•逻辑上运用反证法，统计上依据“小概率事件实际不可能发生的原理”•先假定原假设H0是正确的，构造一个检验统计量，并确定其概率分布，再构造一个小概率事件（拒绝域）。•随机抽取一组容量为n的样本观测值，并计算出检验统计量值，如果检验统计量值在拒绝域，则拒绝原假设，说明原假设H0是错误的。162、回归方程的显著性检验——F检验012H:k=0即所有解释变量对Y均无影响112H:,,,k不全为零在原假设成立的情况下，可以证明：22ˆ()/~(,1)/(1)iiYYkFFknkenk对于多元线性回归模型：01122kkYXXX222222ˆ()~(),(1)iiYYeknk17F分布•设X～2(m)，Y～2(n)，且X与Y相互独立，则称随机变量服从自由度为(m,n)的F-分布，其中m称为第一自由度，n称为第二自由度，记作F～F(m,n)。//XmFYn18F分布密度函数图00.511.522.533.544.500.511.522.533.544.5F(1,20)F(2,20)19F分布密度函数图00.10.20.30.40.50.60.70.800.511.522.533.544.5F(3,10)F(3,50)F(5,50)20•给定显著性水平α，查表求临界值Fα(k,n-k-1)，并通过样本观测值计算F值。•若FFα，接受H0，表明所有解释变量联合起来对Y无显著影响，回归模型无效；•若FFα，拒绝H0，表明所有解释变量联合起来对Y有显著影响，所选择模型对因变量的行为能够提供某种程度的解释。回归模型有显著意义。2、回归方程的显著性检验——F检验21F检验拒绝域F222222ˆ()///(1)(1)/(1)itYYkRkFenkRnk•全部斜率系数为零的检验实际上是检验R2的值是否显著异于零；23练习•根据[例2-3]中的回归结果，在5%的显著性水平上检验方程的显著性。242.4.3解释变量的显著性检验•对于多元线性回归模型，方程的总体线性关系是显著的，并不能说明每个解释变量对被解释变量的影响都是显著的。•必须对每个解释变量进行显著性检验，以决定是否作为重要的解释变量保留在模型中。•如果某个变量对被解释变量的影响并不显著，应该考虑将它剔除，以建立更为简单的模型。2.4.3解释变量的显著性检验1.t统计量ˆ1ˆ~(1)ˆiiiittnkV2ˆˆ(,)iiiN122ˆ211iTiiVXX是矩阵主对角线的第个元素1ˆ(0,1)iiiNV01122kkYXXX设模型为：26对一元线性模型212ˆˆ()()iSxx11111ˆ212ˆˆ~(2)ˆ()ˆ()ittnSxxˆˆ~(1)ˆ()iiiittnkS27t分布•设X～N(0,1)，Y～2(n)，且X与Y相互独立，则称随机变量•服从自由度为n的t分布，记作T～t(n)。•当n1时，t分布的数学期望E(t)=0•当n2时，t分布的方差D(t)=n/(n-2)•t分布是类似标准正态分布的一种对称分布，它通常要比标准正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大，分布也逐渐趋于标准正态分布/XTYn28t分布与标准正态分布的比较00.050.10.150.20.250.30.350.4-6-5.6-5.2-4.8-4.4-4-3.6-3.2-2.8-2.4-2-1.6-1.2-0.8-0.400.40.81.21.622.42.83.23.644.44.85.25.66标准正态分布t分布n=1t分布n=6292.t检验1、计算检验统计量2、给定α，可由t分布表查得临界值tα/2,3、若|t|tα/2，拒绝H0，Xi对Y有显著影响；若|t|≤tα/2，接受H0，认为Xi对Y影响不显著，应考虑将Xi从模型中剔除，以建立更简单的模型。ˆˆ~(1)ˆ()iiittnkSH0：βi=0，即假设Xi对Y没有显著影响。2.4.3解释变量的显著性检验30练习题1、在[例2-3]中，在5%的显著性水平上检验变量x1、x2的显著性。2、计量经济模型的统计检验一般包括：________、_________、_________。3、解释变量的显著性检验中，原假设为______，检验的统计量为________，其服从的分布为________。4、根据美国1960-1995年36年间个人实际可支配收入X和个人实际消费支出Y的数据，得出如下回归结果。请根据有关运算关系计算表中空格A—E处的数值31DependentVariable:YSample:19601995Includedobservations:36CoefficientStd.Errort-StatisticProb.C-9.4287452.504347A0.0006X0.9358660.007467B0.0000R-squaredCMeandependentvar289.9444AdjustedR-squared0.997777S.D.dependentvar95.82125S.E.ofregressionDAkaikeinfocriterion5.907908Sumsquaredresid693.9767Schwarzcriterion5.995881Loglikelihood-104.3423Hannan-Quinncriter.5.938613F-statisticEDurbin-Watsonstat0.523428Prob(F-statistic)0.00000032回归分析结果的报告•回归结果的报告通常采用如下形式：12ˆ17.4873.591.81yxx,R2=0.4902,DW=2.15t=(-0.60)(2.36)(1.24)财政资金农业支出与农民收入关系研究33课外作业•P56——9342.4.4参数的置信区间ˆ~(1)ˆ()iiitnkS如果给定置信度（1-），t值落在区间(-t/2,t/2)的概率是(1-)。表示为：/2/2((1)(1))1Ptnkttnk即/2/2ˆ((1)(1))1ˆ()iiiPtnktnkS/2/2ˆˆˆˆ(()())1iiiiiPtStS352.4.4参数的置信区间所以在1-的置信度下,i的置信区间是/2/2ˆˆˆˆ()()iiiiitStS即/2/2ˆˆˆˆˆˆiiiiiiitttt/2/2ˆˆˆˆ(1)(1)iiiiitttt36练习•计算[例2-3]中的参数在95%置信水平下的置信区间372.5预测预测时，需假定总体回归模型Y=Xβ+ε，当解释变量为时仍然成立。01122ˆˆˆˆˆˆfffkkffYXXXXβ01122fffffkkffYXXXXβ12(1,,,,)fffkfXXXX•点预测值由与Xf对应的回归值给出，即38课外作业•P56——1039区间预测•预测误差为ˆˆˆ()ffffffffeYYXXXˆ()()()0fffEeEEXββ•所以的一个无偏预测量ˆffYY是•ef的方差为22121ˆvar()var()var[()]ˆˆvar()[()()]ˆˆˆvar()[()()]v