第6章多重共线性的情形及其处理思考与练习参考答案6.1试举一个产生多重共线性的经济实例。答:例如有人建立某地区粮食产量回归模型,以粮食产量为因变量Y,化肥用量为X1,水浇地面积为X2,农业投入资金为X3。由于农业投入资金X3与化肥用量X1,水浇地面积X2有很强的相关性,所以回归方程效果会很差。再例如根据某行业企业数据资料拟合此行业的生产函数时,资本投入、劳动力投入、资金投入与能源供应都与企业的生产规模有关,往往出现高度相关情况,大企业二者都大,小企业都小。6.2多重共线性对回归参数的估计有何影响?答:1、完全共线性下参数估计量不存在;2、近似共线性下OLS估计量非有效;3、参数估计量经济含义不合理;4、变量的显著性检验失去意义;5、模型的预测功能失效。6.3具有严重多重共线性的回归方程能不能用来做经济预测?答:虽然参数估计值方差的变大容易使区间预测的“区间”变大,使预测失去意义。但如果利用模型去做经济预测,只要保证自变量的相关类型在未来期中一直保持不变,即使回归模型中包含严重多重共线性的变量,也可以得到较好预测结果;否则会对经济预测产生严重的影响。6.4多重共线性的产生于样本容量的个数n、自变量的个数p有无关系?答:有关系,增加样本容量不能消除模型中的多重共线性,但能适当消除多重共线性造成的后果。当自变量的个数p较大时,一般多重共线性容易发生,所以自变量应选择少而精。6.5自己找一个经济问题来建立多元线性回归模型,怎样选择变量和构造设计矩阵X才可能避免多重共线性的出现?答:请参考第三次上机实验题——机场吞吐量的多元线性回归模型,注意利用二手数据很难避免多重共线性的出现,所以一般利用逐步回归和主成分回归消除多重共线性。如果进行自己进行试验设计如正交试验设计,并收集数据,选择向量使设计矩阵X的列向量(即X1,X2,Xp)不相关。6.6对第5章习题9财政收入的数据分析多重共线性,并根据多重共线性剔除变量。将所得结果与逐步回归法所得的选元结果相比较。附5.9在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元),x2为工业增加值(亿元),x3为建筑业增加值(亿元),x4为人口数(万人),x5为社会消费总额(亿元),x6为受灾面积(万公顷)。据《中国统计年鉴》获得1978—1998年共21个年份的统计数据,见表5.4(P167)。由定性分析知,所有自变量都与y有较强的相关性,分别用后退法和逐步回归法作自变量选元。解:逐步回归法Coefficientsa715.30990.5747.898.000.179.004.99440.739.0001010.840136.0277.431.000.308.0481.7066.367.000-.405.152-.714-2.665.016865.929103.7258.348.000.639.0863.5417.439.000-.601.119-1.059-5.057.000-.361.086-1.493-4.216.001(Constant)x5(Constant)x5x1(Constant)x5x1x2Model123BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:ya.回归方程为:y=865.929—0.601x1-0.361x2+0.639x5但是回归系数的解释不合理。解:(1)分析数据的多重共线性。直接进行Y与四个变量的线性回归方程,并做多重共线性的诊断,由SPSS分析得相应输出结果如下:a方差扩大因子法,由表1中VIF值,可知x1,x2,x3,x5的方差扩大因子远大于10,这几个自变量之间存在很高的线性相关性,即回归方程存在严重的多重共线性。b.特征根和条件数判定法。输出结果如表2:表1表2其中最大的条件数k7=290.443,说明自变量间存在严重的多重共线性,这与方差扩大因子法的结果一致。其中x0,x2,x4,x5在第五行同时较大,表明其间存在多重共线性。(2)消除多重共线性。下面根据多重共线性剔除变量。先剔除VIF值最大的自变量2x,得:Coefficientsa-1503.1751546.931-.972.347-.717.163-1.264-4.391.001.004268.990-.801.467-.526-1.713.107.003305.769.029.017.1021.695.111.08511.701.487.0782.7016.238.000.002609.067-.010.008-.026-1.177.258.6161.624(Constant)x1x3x4x5x6Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.ToleranceVIFCollinearityStatisticsDependentVariable:ya.从上表可以看出,VIF的值中,除了6x以外,其余的均大于10,故回归方程依然存在严重的多重共线性。继续剔除VIF值最大的自变量5x,得:Coefficientsa-3011.2042804.617-1.074.299-.075.233-.131-.321.753.006161.9881.515.521.9952.909.010.009112.777.040.031.1411.286.217.08611.573.002.015.007.167.869.6521.533(Constant)x1x3x4x6Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.ToleranceVIFCollinearityStatisticsDependentVariable:ya.从上表可以看出,VIF的值中,除了6x以外,其余的均大于10,故回归方程还存在严重的多重共线性。继续剔除VIF值最大的自变量1x,得:Coefficientsa-2349.3381848.340-1.271.2211.351.096.88714.119.000.2494.018.032.019.1131.705.106.2224.509.003.014.009.234.818.6731.485(Constant)x3x4x6Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.ToleranceVIFCollinearityStatisticsDependentVariable:ya.由上表可以看出,所有自变量的VIF值都小于10,故回归方程的多重共线性已经被消除。但自变量6x没有通过T检验,说明不显著,剔除6x后再做回归分析得:Coefficientsa-2358.8091798.722-1.311.2061.351.093.88714.505.000.2494.018.034.017.1191.939.068.2494.018(Constant)x3x4Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.ToleranceVIFCollinearityStatisticsDependentVariable:ya.从上表可以看出,得到的回归方程为34ˆ1.3510.0342358.809yxx回归方程的多重共线性虽然被消除,但是模型的自变量4x的t检验P值为0.0680.05,说明在95%的置信度下4x对y的线性影响不显著。模型只剩下x3,Coefficientsa1123.404112.01710.029.0001.508.050.99030.316.000(Constant)x3Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:ya.(3)所得结果与逐步回归结果比较。对逐步回归选出的三个自变量做多重共线性的分析,得到:Coefficientsa865.929103.7258.348.000-.601.119-1.059-5.057.000.005188.019-.361.086-1.493-4.216.001.002537.151.639.0863.5417.439.000.001971.012(Constant)x1x2x5Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.ToleranceVIFCollinearityStatisticsDependentVariable:ya.从上表可以看出,尽管用逐步回归的方法选出的自变量为125,,xxx,但是回归方程还是存在多重共线性。但是根据多重共线性剔除变量后,模型只剩下x3,损失了很多信息,得到的模型国家财政收入只与x3建筑业增加值有关,显然不符合建模的初衷。(4)主成分回归法标准化所有自变量,做主成分分析得输出结果如下:由上表,第一个主成分包含有原始6个变量近85.546%的信息量,故只选此一个主成分。ComponentMatrix(a)主成分Component1Zscore(x1).991Zscore(x2).985Zscore(x3).983Zscore(x4).929Zscore(x5).990Zscore(x6).610由上表得第一个主成分表达式为:Z1=(0.991x1*+0.983x3*+0.929x4*+0.990x5*+0.610x6*+0.985x5*)/5.133,即:*118839.0*192870.0*180986.0*191506.0*191896.0*193064.06543211xxxxxxZ作Y*与Z1的最小二乘估计,输出结果如下:Coefficientsa,b.984.040.98424.325.000REGRfactorscore1foranalysis1Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:Zscore(y)a.LinearRegressionthroughtheOriginb.得主成分回归的回归方程为:*118839.0*192870.0*180986.0*191506.0*191896.0*193064.0984.0*654321xxxxxxYNMinimumMaximumMeanStd.Deviationx1211018.4014599.605473.90004597.02194x2211607.0033429.8010351.761910778.83808x321138.205262.001510.26191712.26984x42196259.00124810.00110744.04769211.51254x5212239.1046405.9014964.042914452.56642x62131890.0055470.0045293.52386967.40751y211132.309876.003400.44292608.15723根据标准化的均值和标准差还原变量后最终方程为:y=-6175.44+0.1078x1+0.0457x2+0.