一元线性回归分析和多元线性回归分析一元线性回归分析1.简单介绍当只有一个自变量时,称为一元回归分析(研究因变量y和自变量x之间的相关关系);当自变量有两个或多个时,则称为多元回归分析(研究因变量y和自变量1x,2x,…,nx之间的相关关系)。如果回归分析所得到的回归方程关于未知参数是线性的,则称为线性回归分析;否则,称为非线性回归分析。在实际预测中,某些非线性关系也可以通过一定形式的变换转化为线性关系,所以,线性回归分析法成为最基本的、应用最广的方法。这里讨论线性回归分析法。2.回归分析法的基本步骤回归分析法的基本步骤如下:(1)搜集数据。根据研究课题的要求,系统搜集研究对象有关特征量的大量历史数据。由于回归分析是建立在大量的数据基础之上的定量分析方法,历史数据的数量及其准确性都直接影响到回归分析的结果。(2)设定回归方程。以大量的历史数据为基础,分析其间的关系,根据自变量与因变量之间所表现出来的规律,选择适当的数学模型,设定回归方程。设定回归方程是回归分析法的关键,选择最优模型进行回归方程的设定是运用回归分析法进行预测的基础。(3)确定回归系数。将已知数据代入设定的回归方程,并用最小二乘法原则计算出回归系数,确定回归方程。这一步的工作量较大。(4)进行相关性检验。相关性检验是指对已确定的回归方程能够代表自变量与因变量之间相关关系的可靠性进行检验。一般有R检验、t检验和F检验三种方法。(5)进行预测,并确定置信区间。通过相关性检验后,我们就可以利用已确定的回归方程进行预测。因为回归方程本质上是对实际数据的一种近似描述,所以在进行单点预测的同时,我们也需要给出该单点预测值的置信区间,使预测结果更加完善。3.一元线性回归分析的数学模型用一元线性回归方程来描述ix和iy之间的关系,即iiixaay10(i=1,2,…,n)(2-1)式中,ix和iy分别是自变量x和因变量y的第i观测值,0a和1a是回归系数,n是观测点的个数,i为对应于y的第i观测值iy的随机误差。假设随机误差i满足如下条件:①服从正态分布;②i的均值为零,即0iE;③i的方差等于2;④各个i间相互独立,即对于任何两个随机误差i和j,其协方差等于零,即,jiji0,cov。基于上述假定,随机变量的数学期望和方差分别是iixEaayE10(2-2)I2如果不考虑式中的误差项,我们就得到简化的式子iixaay10(2-3)该式称为y对x的一元回归模型或一元回归方程,其相应的回归分析称为一元线性回归分析。依据这一方程在直角坐标系中所作的直线就称为回归直线。4.回归参数的估计回归模型中的参数0a与1a在一般情况下都是未知数,必须根据样本观测数据iiyx,来估计。确定参数0a与1a值的原则是要使样本的回归直线同观察值的拟合状态最好,即要使得偏差最小。为此,可以采用最小二乘法的办法来解决。对应于每一个ix,根据回归直线方程式(2-3)可以求出一个iy,它就是iy的一个估计值。估计值和观测值之间的偏差iiiyy。要使模型的拟合状态最好,就是说要使n个偏差平方和最小为标准来确定回归模型。为了方便起见,记nyyyy21,n21,nxxxB11121,10aaa则式(2-1)用矩阵形式表示为aBy(2-4)设V为误差的负估值,称为y的改正数或残差,a为回归参数a的估值,则可以写出类似于参数平差的误差方程yaBV(2-5)根据最小二乘原理minVVT,求自由极值,得02BVaVVTT即0VBT(2-6)将误差方程(2-5)代入,即得法方程为yBaBBTT(2-7)记niixnx11,niiyny11,niiniixxxnxxxS12212,niiniiyyynyyyS12212,yxnyxyyxxSiniiniiixy11则2xnSxnxnnBBxxT,yxnSynyBxyT于是可得回归参数的最小二乘估值为yBBBaTT1(2-8)即xyxyxxxxxyxxxxSSxSySyxnSynxxnxnSSx1112参数0a与1a的具体表达形式为xxxySSxya/0(2-9)xxxySSa1求出参数0a与1a以后,就可以得到一元线性回归模型xaay10(2-10)由此,只要给定了一个ix值,就可以根据回归模型求得一个iy作为实际值iy的预测值。5.精度分析对于给定的ix,根据回归模型就可以求出iy的预测值。但是用iy来预测y的精度如何,产生的误差有多大是我们所关心的。这里采用测量上常用的精度指标来度量回归方程的可靠性。一个回归模型的精度或剩余标准离差定义式为22112nVVyynTniii(2-11)由于参数的个数是2,观测值总数是n,多余观测是2n,因此式中分母是2n。运用估计平均误差可以对回归方程的预测结果进行区间估计。若观察值围绕回归直线服从正态分布,且方差相等,则有68.27%的点落在的范围内,有95.45%的点落在2的范围内,有99.73%的点落在3的范围内。根据参数平差理论可知,a的协因数矩阵为1121xxnxnSSBBQxxxxTaa(2-12)从而,a的方差估值为xxaSxn220210(2-13)xxaS120216.线性回归效果的显著性检验对一元线性回归模型的统计检验包括两个内容:一是线性回归方程的显著性检验;二是对回归系数进行统计推断。在一元线性回归分析中,线性回归效果的好坏取决于y与x的线性关系是否密切。若||1a越大,y随x的变化趋势就越明显;若||1a越小,y随x的变化趋势就越不明显。特别的,当01a时,意味着y与x之间不存在线性相关关系,所建立的线性回归方程没有意义。所以,只有当01a时,y与x之间才有线性相关关系,所建立的线性回归方程才有实际意义。因此,对线性回归效果好坏的检验,就归结为对统计假设0:;0:1110aHaH的检验。若拒绝0H,就认为线性回归有意义;若不能拒绝0H,就认为线性回归无意义。下面介绍两种检验方法:F检验法和相关系数检验法。1.F检验法进行F检验的关键在于确定一个合适的统计量及其所服从的分布。当原假设成立时,根据F分布的定义可知2,1~2/1212nFnyyyyFniiinii(2-14)当给定显著性水平=0.05或0.01,由F分布分位数值表得临界值2,11nF,由样本观测值计算出统计量F的实测值。若2,11nFF,则以显著水平拒绝0H;若2,11nFF则以显著水平接受0H。一般按下述标准判断。(1)若2,199.0nFF,则认为线性回归方程效果极显著。(2)若2,12,199.095.0nFFnF,则认为线性回归方程效果显著。(3)若2,195.0nFF,则认为线性回归效果不显著。2.相关系数检验法相关系数检验法是通过y与x之间的相关系数对回归方程的显著性进行检验的,由样本观测值,即nnyxyxyx,,,,,,2211,可以得到相关系数的实测值为niiniiniiiyyxxxyyyxxyyxxSSSr12121(2-15)相关系数10r,现作如下进一步分析。(1)当0r时,0xyS,因而01a,此时线性回归方程010axaay,表明y与x之间不存在线性相关关系。(2)当1||0r时,y与x之间存在一定的线性相关关系,当0r时,01a,此时称y与x正相关;当0r时,01a,此时称y与x负相关;当||r越接近于0时,此时y与x的线性关系越微弱;当||r越接近于1时,此时y与x的线性关系越强。(3)当||r=1时,y与x完全线性相关,表明y与x之间存在确定的线性函数关系;当r=1时,称y与x正相关;当r=-1时,称y与x负相关。当给定显著性水平=0.05或0.01,由12||1nrrP(2-16)来判断线性回归方程的效果。若本观测值算出的相关关系实测值21nrr,则以显著性水平的关系拒绝0H;若21nrr,则以显著性水平的关系接受。一般按下述标准判断。(1)若299.0nrr,则认为线性回归方程效果极显著。(2)若2299.095.0nrrnr,则认为线性回归方程效果显著。0H(3)若295.0nrr,则认为线性回归效果不显著。临界值21nr可由下式确定22,12,12111nnFnFnr(2-17)7.[实例解算]设某线性回归问题的自变量ix和观测值iy的数据如表2-1所示,试求其回归方程。表2-1序号12345678910252729323436353942452.82.93.23.23.43.23.33.73.94.2[解]⑴回归方程的建立。由表中数据计算得4.341034411niixnx,38.3108.3311niiyny4.37236.1183101220821212xnxxxSniiniixx716.1244.1141096.11521212ynyyySniiniiyy18.2472.11629.118611yxnyxyyxxSniiiniiixy06493.04.37218.241xxxySSa1464.14.3406493.038.310xaya于是,就得到一元线性回归模型xy06493.01464.1ixiy计算y值。结果列于表2-2中。表2-2序号12345678910ix25272932343635394245iy2.82.93.23.23.43.23.33.73.94.2iy2.772.903.033.223.353.483.423.683.874.07iV0.030.000.17-0.020.05-0.28-0.120.020.030.13⑵精度评定——单位权中误差为134.081437.02112niiiyyn——回归方程系数中误差计算如下。a的权倒数0027.04.37211,192.04.3724.341011102xxaxxaSQSxnQa的方差估值为520222021084.4010.01,0034.0110xxaxxaSSxn其中误差为022.0,059.010aa⑶显著性检验设原假设0:10aH;备选假设0:11aH当原假设为真时,有7.938/134.05693.12/1212niiiniinyyyyF因多余观测(自由度)是8,查表得26.118,199.0F,显然8,199.0FF,原假设不成立,所求得的线性回归效果极显著。如果本例用相关系数检验法对线性回归效果进行显著性检验,可用式(2-15)计算,即9565.0716.14.37218.24yyxxxySSSr由式(2-17)计算相关系数临界值765.021nr,由于765.09565.0