三、最小二乘法最小二乘法是根据最小二乘准则,利用样本数据估计回归方程的一种方法。(一)残差设是被解释变量的第次样本观测值,是相应的第次样本估计值。将与之间的偏差记作称为第次样本观测值的残差。(二)最小二乘准则使全部样本观测值的残差平方和达到最小,即来确定未知参数估计量的准则,称为最小二乘准则。(三)最小二乘估计量未知参数的最小二乘估计量的计算公式为最小二乘估计量的推导设残差平方和其中它是阶残差列向量。为了得到最小二乘估计量,我们对上式进行极小化移项后,得正规方程组根据基本假定5.,存在,用左乘正规方程组两边,得的最小二乘估计量式(四)的无偏估计量随机误差项的方差的无偏估计量为称作回归估计的均方误差,而称作回归估计的标准误差。(五)的方差其中,,于是每个的方差为,而是矩阵对角线上对应的第个元素,。(六)方差的估计量方差的估计量为则每个方差的估计量为,标准差的估计量为,四、拟合优度检验拟合优度检验是样本回归方程对样本观测值拟合程度的检验。(一)总离差平方和的分解公式其中—总离差平方和,—回归平方和,—残差平方和。于是,可以将平方和的分解公式写成离差形式(二)多元样本决定系数1.多元样本决定系数所谓多元样本决定系数,也称多元样本判定系数或多元样本可决系数,是指被解释变量中的变异性能被样本回归方程解释的比例,即2.修正的样本决定系数与有如下关系:在样本容量一定的情形下,可以看出有性质:(1),;(2)可能出现负值。例如,,,时,。显然负的拟合优度没有任何意义,在这种情形时,我们取。(三)三个平方和的计算公式于是有因为,所以。作为度量回归值对样本观测值拟合优度的指标,显然的数值越大越好。的数值越接近于1,表示中的变异性能被估计的回归方程解释的部分越多,估计的回归方程对样本观测值就拟合的越好;反之,的数值越接近于0,表示中的变异性能被估计的回归方程解释的部分越少,估计的回归方程对样本观测值就拟合的越差。五、检验检验是对回归方程总体显著性的检验,就是从总体上检验解释变量对被解释变量是否有显著影响的一种统计检验方法。:;:至少有一个不等于零。检验的统计量否定规则如果检验的统计量,则否定,即认为在显著性水平下,被解释变量与解释变量之间存在显著的线性关系;否则,不否定。这里是水平的分子自由度为,分母自由度为的分布的上侧分位数。六、检验检验是对线性回归模型的系数进行显著性检验,也就是说是检验模型的每个解释变量是否对被解释变量有影响显著的一种统计检验方法。::,检验的统计量其中,是标准差的估计量,而是矩阵对角线上对应的第个元素,。否定规则如果或者,则否定,即认为在显著性水平下,第个解释变量对被解释变量存在显著的影响;否则,不否定。这里是水平的自由度为的分布的双侧分位数。七、预测多元线性回归分析的一个重要应用是利用样本回归方程进行预测。预测分为点预测和区间预测两种情形。(一)点预测点预测就是对于给定的解释变量的一组特定值估计对应的被解释变量的值。假设利用最小二乘法建立的样本回归方程为其中,将代入样本回归方程中,得就是被解释变量的点预测值或点估计值。(二)区间预测在实际应用中,人们不仅关心被解释变量的估计值,而且希望得到一个以相当大的概率包含真值的区间。这个区间就是数理统计中的置信区间,我们称为预测区间或估计区间。的置信度为预测区间为,其中,是预测误差标准差的估计量,是回归估计标准误差,是自由度为,水平为的分布的双侧分位数。的置信度为预测区间的推导对于给定的解释变量的一组特定值根据多元线性回归模型,有其中,。根据估计的样本回归模型,有其中,若将看作是的个别值的点估计值时,它们的预测误差记为因为=所以,是的个别值的无偏估计量。接着我们考察的方差。因为与有关,而只与有关,所以根据随机误差项彼此之间不相关的基本假定3.,与也不相关。于是有==因为,=,所以==于是,方差的估计量为因为和都服从正态分布,因此也服从正态分布,即所以有由于是未知的,我们用它的无偏估计量代替,则由概率统计知识有对于预先给定的显著性水平,可从分布表中查出自由度为,水平为的双侧分位数,使即或者于是有最后,得的置信度为预测区间式,即,八、案例分析例8.128.128.128.12我国1988–1998年的城镇居民人均全年耐用消费品支出、人均全年可支配收入和耐用消费品价格指数的统计资料如下表所示。试建立城镇居民人均全年耐用消费品支出关于可支配收入和耐用消费品价格指数的回归模型,并进行回归分析。表8.88.88.88.8我国1988198819881988––––1998199819981998年间城镇居民人均全年耐用消费品支出、人均全年可支配收入和耐用消费品价格指数的统计资料年份人均耐用消费品支出(元)人均全年可支配收入(元)耐用消费品价格指(1987年=100)1988137.161181.4115.961989124.561375.7133.351990107.911510.2128.211991102.961700.6124.851992125.242026.6122.491993162.452577.4129.861994217.433496.2139.521995253.424283.0140.441996251.074838.9139.121997285.855160.3133.351998327.265425.1126.39资料来源:《中国统计年鉴》解根据经济理论和对实际情况的分析可以知道,城镇居民人均全年耐用消费品支出依赖于可支配收入和耐用消费品价格指数的变化,因此我们设定回归模型为1.估计模型未知参数由原始数据,计算得,,,,,,,,将上述计算结果代入公式,得即,,。最后,得估计的回归方程接着,计算残差平方和=所以的无偏估计量为从而得到回归估计标准误差为2.经济意义检验,表示城镇居民全年人均耐用消费品支出是随着可支配收入的增长而增加,并且介于0和1之间,因此该回归系数的符号、大小都与经济理论和人们的经验期望值相符合;,表示城镇居民全年人均耐用消费品支出随着耐用消费品价格指数的降低而增加,虽然我国在1988–1998年的短短几年间,耐用消费品价格指数经历了由高到低,又由低到高,再由高到低的激烈变化,但总的走势是呈下降态势,所以该回归系数的符号和大小也与经济理论和人们的经验期望值相一致。