c6多元回归分析进一步的专题

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第6章多元回归分析:进一步的专题摘要:本章进一步讨论若干多元回归分析问题,对实证分析很有帮助。6.1OLS统计量的数据缩放效应在C2中简单讨论了变量的单位变化对回归参数和𝑅2值的影响。由于𝑅2值实际上是y的拟合值和实际值相关系数的平方,所以其不会受数据缩放的影响。类似地,可以预期变量单位改变对回归参数及其标准误、回归标准误、置信区间、t统计量、F统计量的影响。见如下的例子:第二列改变了因变量的单位,从原来的盎司改为镑(数据缩小16倍);第三列改变吸烟量这个自变量的单位,从原来的日支数变为日包数(数据缩小20倍)。相关回归结果如下表:Beta系数在某些实证分析中,自变量的现实意义是很难解释的,例如,在劳动经济学中,经常收集一些得分数据,这些数据变量的分数设置是很任意的,从而解释起来比较困难。此外,我们有时也希望了解不同类型的自变量在模型中的重要程度。此时,对因变量和自变量进行标准化后,再进行回归建模,可能是一个不错的选择。也就是,我们可以讨论自变量增加或减少一个标准差后给因变量带来的影响。有如下的OLS回归方程:yi=β̂0+β̂1xi,1+β̂2xi,2+⋯+β̂kxi,k+ûi,用它们的平均方程去减它们:yi−y̅=β̂1(xi,1−x̅1)+β̂2(xi,2−x̅2)+⋯+β̂k(xi,k−x̅k)+ûi,标准化后得到:yi−y̅σy=σx1β̂1σy(xi,1−x̅1)σx1+σx2β̂2σy(xi,2−x̅2)σx2+⋯+σxkβ̂kσy(xi,k−x̅k)σxk+ûiσy,或者改写成称:zy=b̂1z1+b̂2z2+⋯+b̂kzk+error.上述的Z变量分别被称为y和各个自变量的z-得分。问:哪些重要的统计量不会被改变?6.2函数形式的再讨论对数函数形式讨论如下的回归方程:log⁡(price)̂=9.23−.718log(nox)+.306rooms,在该问题中由于rooms的变化单位是1,这是自变量的很大变化。在固定nox的前提下,100⁡β̂2=100*.306来近似%∆ŷ,可能不合适了,所以此时我们采用如下公式计算:%∆ŷ=100∗(exp(⁡β̂2∆x2)−1),在此例子中,当增加1个房间时,%∆ŷ=35.8%,而减少一个房间时,%∆ŷ=−26.4%.对变量取对数的优点:1)正态化y(对称化,减小厚尾和异方差现象),使其更容易满足CLM;2)减小异常值的影响。含二次函数(Quadraticfunctions)的模型二次函数可用于对单增或单减的边际效应的建模。若回归方程为:ŷ=β̂0+β̂1x+β̂2x2,∆ŷ≈(β̂1+β̂2x)∆x,请解释该边际效应;如何解释二次函数最小值(怎么计算)两边的完全反向的边际效应。带交叉项的模型(Modelswithinteractionterms)pricê=β̂0+β̂1sqrft+β̂2bdrms+β̂3sqrft∗bdrms+β̂4bthrms,请解释上述回归方程中交叉项所表示的含义?我们更倾向于在均值(中值)、上四分位数或下四分位数处讨论模型。因此,对回归模型:Stndfnl=2.05-.0067atndrte-1.63priGPA-1.28ACT+.296priGPA2+.0045ACT2+.0056priGPA.atndrte(1.36)(.0102)(.48)(.098)(.101)(.0022)(.0043)N=680,R-方=.229,修正R-方等于=.222;讨论priGPA的均值2.59处的偏效应,则有∆Stndfnl≈{-.0067+.0056*2.59+.0056(priGPA-2.59)}.⁡∆atndrte={.0078+.0056(priGPA-2.59)}.⁡∆atndrte请检验.0078是否统计显著?6.3修正R-方R2=1−SSR/nSST/n,由此可以定义总体R2(population⁡R−squared):p2=1−σu2σy2,而其的一个合理估计是修正R2(adjustedR-squared)=R̅2=1−SSR/(n−k−1)SST/(n−1).几点说明:1)R̅2仍然不是总体p2一个无偏估计;2)它在变元个数和SSR之间做了一个适当的权衡;3)一个新变量进入模型当且仅当其t值大于一个单位;一组新变量进入模型当且仅当其联合显著性的F值大于一个单位;4)R̅2有时为负数。应用修正R2来选择非嵌套模型非嵌套模型(nonnestedmodels)是指任意一个模型并不是其它模型的特例。有时变量间的共线性会使得本来显著的变量变成不显著,那么我们只能互斥性地选择其中的部分变量。此时,修正R-方比起R-方和F统计量都较优。但要注意,修正R-方只能在因变量都相同的非嵌套模型间做出选择。在回归分析中控制了太多因素有时引入一个变量难以让人理解,或者根本就控制不住,这些变量就不应该被引入。记住一句话,不同的模型服务于不同的目的。加入回归元来减少标准误如果一个自变量和其它自变量不相关,那么引入它通常可以减少回归标准误。6.4预测和残差分析预测(Predictions)受限于抽样方差,本节讨论因变量预测的置信区间。残差分析也能提供额外的信息。预测的置信区间(ConfidenceIntervalsforPredictions)有关于被预测变量某点取值的总体方程:θ0=β0+β1c1+⋯+βkck=E(y|x1=c1,x2=c2,…,xk=ck),其样本方程为:θ̂0=β̂0+β̂1c1+⋯+β̂kck,如何得到该点的置信区间?方法是将被预测变量某点取值的总体方程代入总体模型,消去β0得:y=θ0+β1(x1−c1)+⋯+βk(xk−ck)+u.然后估计即可。上述方法可以得到均值方程的区间估计。对于某个样本值y0,其置信区间(预测区间,predictioninterval)还受扰动项的影响,即:y0=β0+β1c1+⋯+βkck+u0=θ0+u0,由于θ̂0和u0相互独立和预测误差(predictionerror)为û0=θ0+u0−θ̂0,从而,Var(û0)=Var(u0)+Var(θ̂0)=⁡σ2+Var(θ̂0),从而有û0的标准误:⁡se(û0)=√σ̂2+Var(θ̂0).由此基于构造βk的置信区间的同样方法,可构造y0的置信区间。残差分析(residualanalysis)残差的用途:1)正的和负的信号的作用;2)评价排序;3)司法判决;因变量是log(y)时对y的预测假定总体模型是log⁡(y)=β0+β1x1+β2x2+⋯+βkxk+u,其回归方程为:log⁡(y)̂=β̂0+β̂1x1+β̂2x2+⋯+β̂kxk,用ŷ=exp⁡(log⁡(y)̂)来预测将系统地低估y的值。事实上,满足CLM假定则有:E(y|𝐱)=exp(σ22)exp⁡(β0+β1x1+β2x2+⋯+βkxk),其中exp(σ22)1.对于u只满足独立于各自变量而不一定满足正态分布时,上式可调整为:E(y|𝐱)=αexp⁡(β0+β1x1+β2x2+⋯+βkxk),其中α=E(exp(u))1.如果得到了α̂,那么y的预测值为:ŷ=α̂exp⁡(log⁡(y)̂)(是y的一致估计量,但不是无偏的).α̂有两种估计方法。1)矩法估计:α̂=∑exp⁡(ûi)ni=1n,这是一个一致估计量,但不是无偏的,这被Duan(1983)称为污染估计值(Smearingestimate).2)过原点回归估计。事实上,由E(yi|𝐱)=αexp(β0+β1xi1+β2xi2+⋯+βkxik)=αmi,先得到mi的估计m̂i,然后利用过原点回归来得到α̌,该估计也是一致估计量,但不是无偏的,并且不能保证α̌总大于1。关于对数模型的拟合优度,可以通过估计m̂i和yi之间的相关系数,并取其平方后获得。

1 / 8
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功