1第3章多元回归分析:估计C3.1使用数据bwght.dta(i)2的符号应该为正,更高的收入一般意味着母亲有更好的营养和更好的产前照顾。(ii)一方面,收入增加通常会增加对物品的消费,所以cigs和faminc正相关。另一方面,高收入家庭会有更高的教育水平,而教育水平与吸烟数量可能是负相关的。Cigs和faminc这两个变量的样本相关系数是-0.173,这显示它们是负相关的。(iii)包含faminc和不包含faminc的回归结果分别是2ˆ119.770.5141388,0.023bwghtcigsnR2和2ˆ116.970.4630.093min1388,0.030bwghtcigsfacnR当faminc被加入回归后,吸烟数量对婴儿体重的效应轻微缩小了,与未加入faminc的回归相比,cigs的系数仅仅从-0.514上升到-0.463,因此cigs对bwght的影响并没有发生实质差别。这是因为cigs和faminc相关性较小,faminc的系数实际上也是比较小的。(变量faminc的衡量单位是千美元,因此以1988年美元计算的收入每增加10000美元,婴儿体重的预测值仅仅增加0.93盎司。)C3.2使用数据hprice1.dta(i)估计方程是2ˆ19.320.12815.2088,0.632pricesqrftbdrmsnR(ii)保持住房平方尺数不变,ˆ15.20pricebdrms,所以ˆprice会增加15.20,即15200美元。(iii)现在ˆ0.2815.200.12814015.2033.12pricesqrftbdrms,或者说33120美元。因为房子的面积增加了,这个效应比(ii)中的效应大得多。(iv)大约63.2%。(v)3第1套住房的预测价格是354.605,或者说354605美元。(vi)残差是-54.605。这说明买者在某种程度上少支付了一部分钱。但是,住房的很多其他特征也影响价格,有些因素我们甚至无法量化,我们不能完全控制这些因素。因此,我们不能说购买者为这套住房支付了过低或过高的价格。C3.3使用数据ceosal2.dta(i)常弹性方程是2ˆlog()4.620.162log()0.107log()177,0.299salarysalesmktvalnR(ii)4我们不能把利润的对数形式加入模型是因为样本中有9家企业的利润是负值。我们在回归模型加入利润的水平形式,可以得到2ˆlog()4.690.161log()0.098log()0.000036177,0.299salarysalesmktvalprofitsnRProfits的系数非常小。这里,profits的度量单位是百万美元。所以如果利润增加10亿美元,这意味着1000profits,这是一个很大的变动,但是预测这个变动只会使salary增加大约3.6%。当然,记得我们需要保持sales和mktval的值不变。总体来看,这些变量(我们可以舍去profits,这并不会有任何不同)只解释了log(salary)的样本变异的大约30%。这肯定谈不上解释CEO薪水变异中的“大部分”。(iii)5增加ceoten后方程变为2ˆlog()4.560.162log()0.102log()0.0000290.012177,0.318salarysalesmktvalprofitsnR这意味着CEO每增加1年任期,预测salary增加大约1.2%。(iv)Log(mktval)和profits的样本相关系数是大约0.78,这是相当高的。我们知道,这不影响OLS估计量的无偏性,但会使得它的方差变大。由于市场价值和企业利润有如此高的相关性,回归时加入利润根本无助于解释CEO的薪水。而且,profits是一个短期术语,它衡量了企业当前经营的方式;而mktval的大小则基于企业过去、当前和预期未来的利润获取能力。C3.4使用数据attend.dta(i)这3个变量的最小值、最大值和平均值如下表变量平均值最小值最大值atndrte81.716.25100priGPA2.590.863.93ACT22.511332(ii)估计方程是62ˆ75.7017.261.72680,0.291atndrtepriGPAACTnR这里的截距意味着对一个学生来说,如果他以前学期的GPA为0,并且他的ACT成绩也是0,那么预测他的出勤率为75.7%。很显然这没有什么意义。(事实上,在大学的总体中,没有任何学生priGPA=0,ACT=0)(iii)priGPA的系数意味着,如果一个学生以前学期的GPA提高1个点(如从2.0提高到3.0),出勤率大约会提高17.3个百分点。上面的结论需要保持ACT不变。ACT的系数为负,也许这有点奇怪。ACT提升5个点会在给定priGPA水平下使得出勤率降低8.6个百分点。由于priGPA衡量大学成绩(至少可以部分反映过去的出勤率),而ACT可以衡量大学潜力,这显示hadmorepromise(这意味着天赋能力更高)的学生认为他们即使上课次数较少也可以通过考试。(iv)我们有ˆ75.7017.263.651.7220104.299atndrte。当然,一个学生的出勤率不可能超过100%。当使用存在自然上界和下界的因变量进行回归时经常会得到这样的预测值。在实践中,我们可以预测这个学生的出勤率为100%。(实际上,这个学生的出勤率仅为87.5%)(v)对于A和B来说,预测出勤率的是22.26.C3.5使用数据wage1.dta用educ对exper和tenure作回归,得到12ˆ13.570.0740.048526,0.101educexpertenurernR7现在我们用log(wage)对1ˆr作回归,得到12ˆˆlog()1.620.092526,0.207wagernR我们得到式(3.19)2log()0.2840.0920.0040.022526,0.316wageeducexpertenurenR和预期的一样,第二次回归中1ˆr的系数等于式(3.19)中educ的系数。注意到第二次回归的R2小于式(3.19)的R2。事实上,对1ˆr的回归仅仅使用educ中与exper和tenure不相关的那部分来解释log(wage)。C3.6使用数据wage2.dta(i)8用IQ对educ的简单回归的斜率系数13.53383(ii)用log(wage)对educ作回归的斜率系数10.05984(iii)用log(wage)对educ和IQ做回归的斜率系数分别是1ˆ0.03912和2ˆ0.00586。(iv)我们有121ˆˆ0.039120.005863.533830.05983,它非常接近于0.05984。9C3.7使用数据meap93(i)回归结果是2ˆ1020.366.23log()0.305408,0.180mathexpendlnchprgnR斜率系数的符号意味着在给定lnchprg的情况下,更多的支出将会提高通过率;并且在支出给定的情况下,更高的贫困率(用lnchprg代表)会降低通过率。(ii)一般来说,截距是当所有解释变量为0时因变量的预测值。如果贫困率很低,那么lnchprg=0是可以理解的。但log(expend)=0是没有道理的,因为此时expend=1,spend衡量的是每个学生支出的美元数。显然,这个假设超过了合理范围。毫不奇怪,此时预测值-20.36是没有意义的。(iii)这个简单回归的结果是2ˆ1069.3411.16log()408,0.030mathexpendnR这里估计的支出效应超过第(i)部分,这是值得怀疑的。(iv)10这里lexpend和lnchprg之间的样本相关系数是大约-0.19,这意味着,平均来说,贫困学生更多的高中每个学生的支出较少。这是有道理的,特别是在1933年,密歇根州的学校所需资金完全取决于当地的财产税筹集情况。(v)我们可以使用式3.23。因为corr(x1,x2)0,这意味着10,而且2ˆ0,简单回归系数1大于多元回归估计量1ˆ。直觉上来看,没有考虑贫困率导致对支出效应的过度估计(overestimate)。C3.8使用数据discrim.dta(i)样本中prpblck的平均值约为0.113,标准差约为0.182;income的平均值为47053.78,标准差为13179.29。prpblck的度量单位是比值,income的单位应是美元。(ii)回归结果是112ˆ0.9560.1150.0000016401,0.0642psodaprpblckincomenRprpblck的系数的含义是在income保持不变时,人口中黑人比例如果增加十个百分点(比如从0.20上升到0.30),那么苏打的价格会上升0.0115美元。这个数字在经济上是个很小的数字。(iii)回归结果:2ˆ1.0370.065401,0.0181psodaprpblcknR在控制收入变量后,这种歧视效应更大了。(iv)常弹性方程的回归结果是:2ˆlog()0.7940.1220.077log()401,0.0681psodaprpblckincomenR若prpblck提高0.01,即1个百分点,估计会使得psoda上升0.122%;因此,若prpblck提高0.20,即20个百分点,估计会使得psoda上升2.44%。(v)12回归结果是:2ˆlog()0.4630.0730.137log()0.380401,0.0681psodaprpblckincomeprppovnR加入变量prppov后,ˆprpblck由0.122下降到0.073,几乎下降了一半。(vi)Log(income)和prppov的相关系数大约是-0.84。大致符合我的预期。因为prppov是各邮区的贫困率,显然,若某邮区的贫困率(prppov)较高,则该邮区平均家庭收入的中位数(income)就会较低,进而log(income)也较低。因此,log(income)和prppov有较强的负相关性。(vii)尽管log(income)和prppov相关性较强,但我们并不能断定它会带来严重的问题,特别是在样本容量较大时。这里的样本容量为401,并不是太小,因此这两个变量可以同时进入回归方程。C3.9使用数据charity.dta(i)13简单回归的估计方程是2ˆ2.012.654268,0.0138giftmailsyearnR估计方程是:2ˆ4.552.170.005915.364268,0.0834giftmailsyeargiftlastproprespnR现在的R2是大约0.083,而不包括giftlast和propresp的简单回归得到的R2是大约0.014。所以,相比于简单回归,变量giftlast和propresp有助于更多的解释gifts的变动。(尽管仍然只有8%多一点)(ii)保持giftlast和propresp不变,每年寄出的邮件每增加1封,估计gift将增加2.17盾。简单回归的系数是2.65,所以多元回归中mailsyear的系数略有下降。需要记住,简单回归的估计量并没有保持其他任何因素不变。(iii)因为propresp是个比值,所以增加1个单位是没有意义的,只有从0增加到1才能发生这种情况。我们考虑propresp增加0.10,这意味着增加了10个百分点。估计gift会增加15.36×0.10=1.536盾。(iv)14估计方程是2ˆ7.331.200.26116.200.5274268,0.2005giftmailsyeargiftlastproprespavggiftnR在控制了过去收到礼物