第3章多元线性回归模型3.1多元线性回归模型的估计3.1.1多元线性回归模型及其矩阵表示在计量经济学中,将含有两个以上解释变量的回归模型叫做多元回归模型,相应地,在此基础上进行的回归分析就叫多元回归分析。在计量经济学中,将含有两个以上解释变量的回归模型叫做多元回归模型,相应地,在此基础上进行的回归分析就叫多元回归分析。如果总体回归函数描述了一个因变量与多个解释变量之间的线性关系,由此而设定的回归模型就称为多元线性回归模型。它是解释变量的多元线性函数,称为多元线性总体回归方程。假定通过适当的方法可估计出未知参数的值,用参数估计值替换总体回归函数的未知参数,就得到多元线性样本回归方程:它代表了总体变量间的依存规律。3.1.2多元线性回归模型的基本假定假设6:解释变量之间不存在多重共线性假设1用矩阵形式表示:3.1.3多元线性回归模型的估计1.参数的最小二乘估计上述(k+1)个方程称为正规方程。用矩阵表示就是:将上述过程用矩阵表示如下:根据矩阵求导法则可得:例3.3.1某地区居民家庭可支配收入与家庭消费支出的资料如下表所示(单位:百元)。某地区居民家庭收入支出资料t例3.1.2经过研究,发现家庭书刊消费水平受家庭收入及户主受教育年数的影响。现对某地区的家庭进行抽样调查,得到样本数据如表3.1.1所示,其中y表示家庭书刊消费水平(元/年),x表示家庭收入(元/月),T表示户主受教育年数。下面我们估计家庭书刊消费水平同家庭收入、户主受教育年数之间的线性关系。表3.1.1某地区家庭书刊消费水平及影响因素的调查数据表家庭书刊消费y家庭收入x户主受教育年数T450.01027.28507.71045.29613.91225.812563.41312.29501.51316.47781.51442.415541.81641.09611.11768.8101222.11981.218793.21998.614660.82196.010792.72105.412580.82147.48612.72154.010890.82231.4141121.02611.8181094.23143.4161253.03624.620因变量观测值向量和解释变量观测值矩阵分别为从而参数估计向量(最小二乘估计量)为:借助于计量经济软件EViews对表3.1.1进行分析,具体步骤为(1)建立工作文件;(2)输入数据;(3)回归分析表3.1.2回归结果图3.1.1观测值、拟合值与残差(a)图3.1.1观测值、拟合值与残差(b)2.最小二乘估计量的性质用最小二乘法得到的多元线性回归的参数估计量具有线性、无偏性、最小方差性。3.1.4随机误差项方差的估计若记3.1.5中心化和标准化1.中心化多元线性回归模型的一般形式为2.标准化回归系数例3.1.3利用表3.1.1数据,建立标准化回归方程,说明标准化回归系数的经济含义。利用表3.1.1数据和SPSS软件,得到表3.1.3回归结果。表3.1.3回归结果Coefficients(a)ModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1(Constant)-50.01649.460-1.011.328X.086.029.2342.944.010T52.3705.202.79810.067.000aDependentVariable:Y根据表3.1.3结果可知,某家庭书刊消费水平Y同家庭收入X、户主受教育年数T之间的线性关系,即未标准化回归方程为:由标准化回归系数可知,对家庭书刊消费水平影响最大的因素是户主受教育年数,其次是家庭收入水平回归结果。户主受教育年数每增加1%,家庭书刊消费水平增加0.798%;家庭收入每增加1%,家庭书刊消费水平增加0.234%。与样本回归系数相比,标准化回归系数有较合理的经济解释。3.1.6极大似然估计法1.似然函数称为似然函数。可以看出,联合密度函数与似然函数表达形式相同,但含义不同。联合密度函数参数已知,是随机变量y的函数;似然函数随机变量y的取值已经给定,是未知参数的函数。2.极大似然估计法的基本思想极大似然估计法的基本思想:选取适当的未知参数的值,使得随机抽到实际获得的那个样本的概率值为最大。3.2多元线性回归模型的检验3.2.1拟合优度检验拟合优度是指样本回归直线与观测值之间的拟合程度。1.多重决定系数总离差平方和=残差平方和+回归平方和自由度:(n-1)=(n-k-1)+kESS:由回归直线(即解释变量)所解释的部分,表示x对y的线性影响。RSS:是未被回归直线解释的部分,由解释变量x对y影响以外的因素而造成的。多重决定系数或决定系数是指解释变差占总变差的比重,用来表述解释变量对被解释变量的解释程度:2.修正的决定系数(1)用自由度调整后,可以消除拟合优度评价中解释变量多少对决定系数计算的影响;(2)对于包含的解释变量个数不同的模型,可以用调整后的决定系数直接比较它们的拟合优度的高低。修正的决定系数与未经修正的多重决定系数之间有如下关系:3.2.2赤池信息准则和施瓦茨准则为了比较所含解释变量个数不同的多元回归模型的拟合优度,常用的标准还有赤池信息准则(Akaikeinformationcriterion,AIC)和施瓦茨准则(Schwarzcriterion,SC),其定义分别为这两个准则均要求仅当所增加的解释变量能够减少AIC或SC值时才能在原模型中增加该解释变量。3.2.3偏相关系数3.2.3回归模型的总体显著性检验:F检验假设检验的基本任务是根据样本所提供的信息,对未知总体分布的某些方面的假设作出合理的判断。其基本思想是:在某种原假设成立的条件下,利用适当的统计量和给定的显著性水平,构造—个小概率事件,可以认为小概率事件在一次观察中基本不会发生,如果该事件竟然发生了,就认为原假设不真,从而拒绝原假设,接受备择假设。回归模型的总体显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。检验模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立,即是检验方程:F检验的具体步骤为:借助于计量经济软件EViews对表3.1.1中的样本回归方程作F检验。F统计量的值:F=146.2973,n=18,n-k-1=18-2-1=15,在5%的显著性水平下,查自由度为(2,15)的F分布表,得临界值3.2.4回归参数的显著性检验:t检验回归参数的显著性检验,目的在于检验当其他解释变量不变时,该回归系数对应的解释变量是否对因变量有显著影响。由参数估计量的分布性质可知,回归系数的估计量服从如下正态分布:用t统计量进行回归参数的显著性检验,其具体过程如下:p值判别法:在前面阐述的统计假设检验的基本原理中,是通过比较t统计量与临界值的大小来判断拒绝还是接受原假设的。与查找临界值的一个等价判别方法就是p值判别法。EViews软件提供了这种判别方法。借助于计量经济软件EViews对表3.1.1中的样本回归方程的系数作显著性检验:至此,我们已全面分析了例3.1.1所提出的问题。现将从例3.1.1的回归分析结果整理如下:3.3.2区间预测3.预测评价对于已经建立的模型,可以直接预测各样本的拟合值,Eviews软件提供了一系列对模型的评价指标,可以对模型预测精度进度量。常用的判断模型拟合效果的检验统计量是:平均绝对误差(MAE)、平均相对误差(MPE)均方根误差(RMSE)和Theil不等系数(TheilIC)。其计算公式为Theil不等系数(TheilIC)总是介于0和1之间,数值越小表明拟合值和实际值间的差异越小,预测精度越高。图3.3.1例3.1.1中家庭书刊消费水平的预测图在例3.1.1中,在方程窗口,点击Forecast,可以得到如图3.3.1预测图。图中实线表示因变量的预测值,上下两条虚线给出的是近似95%的置信区间。图右边的附表提供了一系列预测评价指标。从图3.3.1看,回归的平均相对误差MPE为5.389,Theil不等系数为0.035,说明此次回归的预测精度相当高,预测值十分接近真实值。3.4非线性回归模型3.4.1可线性化模型在非线性回归模型中,有一些模型经过适当的变量变换或函数变换就可以转化成线性回归模型,从而将非线性回归模型的参数估计问题转化成线性回归模型的参数估计,称这类模型为可线性化模型。在计量经济分析中经常使用的可线性化模型有对数线性模型、半对数线性模型、倒数线性模型、多项式线性模型、成长曲线模型等。1.对数模型模型形式:模型适用对象:对观测值取对数,将取对数后的观测值(lnx,lny)描成散点图,如果近似为一条直线,则适合于对数线性模型来描述x与y的变量关系。容易推广到模型中存在多个解释变量的情形。例如,柯布——道格拉斯生产函数形式:年份GDPLK19804517.842361910.919814862.443725961.019825294.7452951230.419835934.5464361430.119847171.0481971832.919858964.4498732543.2198610202.2512823120.6例3.4.1根据表3.4.1给出的中国1980-2003年间总产出(用国内生产总值GDP度量,单位:亿元),劳动投入L(用从业人员度量,单位为万人),以及资本投入K(用全社会固定投资度量,单位:亿元)。表3.4.11980-2003年中国GDP、劳动投入与资本投入数据年份GDPLK198711962.5527833791.7198814928.3543344753.8198916909.2553294410.4199018547.9639094517.0199121617.8647995594.5199226638.1655548080.1199334634.46637313072.3199446759.46719917042.1199558478.16794720019.3199667884.66885022913.5199774462.66960024941.1199878345.26995728406.2199982067.57139429854.7200089442.27208532917.7200195933.37302537213.52002102398.07374043499.92003117251.97443255566.6利用EViews软件解题如下:首先建立工作文件,其次输入样本数据Q、L、K,再次,在EViews软件的命令窗口,依次键入:GENRlnGDP=LOG(GDP)GENRlnL=LOG(L)GENRlnK=LOG(K)LSlnGDPClnLlnK输出结果如下(表3.4.2):表3.4.2回归结果2.半对数模型在对经济变量的变动规律研究中,测定其增长率或衰减率是一个重要方面。在回归分析中,我们可以用半对数模型来测度这些增长率。模型形式:3.倒数模型例3.4.2某硫酸厂生产的硫酸透明度一直达不到优质要求,经分析透明度低与硫酸中金属杂质的含量太高有关。影响透明度的主要金属杂质是铁、钙、铅、镁等。通过正交试验的方法发现铁是影响硫酸透明度的最主要原因。测量了47组样本值,数据见表3.4.3。试建立硫酸透明度(y)与铁杂质含量(x)的回归模型。表3.4.3硫酸透明度(y)与铁杂质含量(x)数据表3.4.3硫酸透明度(y)与铁杂质含量(x)数据根据表3.4.3,可得硫酸透明度(y)与铁杂质含量(x)的散点图如图3.4.1所示,可以建立非线性回归模型。图3.4.1硫酸透明度(y)与铁杂质含量(x)散点图1.通过线性化的方式估计非线性回归模型表3.4.4回归结果实际上,建立指数模型函数,拟合效果会更好。在命令窗口键入:LSlog(y)c1/x结果如表3.4.5所示。表3.4.5回归结果散点图与拟合的指数曲线见图3.4.4。EViews软件操作步骤是:打开x、y数据组窗口,点击View键,选择Gr