线性回归分析的数学模型摘要在实际问题中常常遇到简单的变量之间的关系,我们会遇到多个变量同处于一个过程之中,它们之间互相联系、互相制约.这些问题中最简单的是线性回归.线性回归分析是对客观事物数量关系的分析,是一种重要的统计分析方法,被广泛的应用于社会经济现象变量之间的影响因素和关联的研究.由于客观事物的联系错综复杂经济现象的变化往往用一个变量无法描述,故本篇论文在深入分析一元线性回归及数学模型的情况下,又详细地介绍了多元线性回归方程的参数估计和其显著性检验等.全面揭示了这种复杂的依存关系,准确测定现象之间的数量变动.以提高预测和控制的准确度.本文中详细的阐述了线性回归的定义及其线性模型的简单分析并应用了最小二乘法原理.具体介绍了线性回归分析方程参数估计办法和其显著性检验.并充分利用回归方程进行点预测和区间预测.但复杂的计算给分析方法推广带来了困难,需要相应的操作软件来计算回归分析求解操作过程中的数据.以提高预测和控制的准确度.从而为工农业生产及研究起到强有力的推动作用.关键词:线性回归;最小二乘法;数学模型目录第一章前言…………………………………………………………………1第二章线性模型……………………………………………………………2第一节一元线性模型……………………………………………………2第二节多元线性模型……………………………………………………4第三章参数估计……………………………………………………………5第一节一元线性回归方程中的未知参数的估计………………………5第二节多元线性回归模型的参数估计…………………………………8第四章显著性检验……………………………………………………………13第一节一元线性回归方程的显著性检验………………………………13第二节多元线性回归方程的显著性检验………………………………20第五章利用回归方程进行点预测和区间预测………………………………21第六章总结……………………………………………………………………26致谢……………………………………………………………………………27参考文献…………………………………………………………………………第一章前言回归分析是对客观事物数量依存关系的分析.是数理统计中的一个常用的方法.是处理多个变量之间相互关系的一种数学方法.在现实世界中,我们常与各种变量打交道,在解决实际问题过程中,我们常常会遇到多个变量同处于一个过程之中,它们之间互相联系、互相制约.常见的关系有两种:一类为“确定的关系”即变量间有确定性关系,其关系可用函数表达式表示.例如:路程s,时间t,与速度v之间有关系式:s=vt在圆体给与半径r之间有关系式v=另外还有一些变量.他们之间也有一定的关系,然而这种关系并不完全确定,不能用函数的形式来表达,在这种关系中至少有一个变量是随机的.例如:人的身高与体重有一定的关系,一般来讲身高高的人体重相对大一些.但是它们之间不能用一个确定的表达式表示出来.这次变量(或至少其中有一个是随机变量)之间的关系.我们称之为相关关系.又如环境因素与农作物的产量也有相关关系,因为在相同环境条件下农作物的产量也有区别,这也就是说农作物的产量是一个随机变量.回归分析就是研究相关关系的一种数学方法,是寻找不完全确定的变量间的数学关系式并进行统计推断的一种方法.它能帮助我们从一个变量取得的值去估计另一个变量的值.在这种关系中最简单的是线性回归.线性回归分析是对客观事物数量关系的分析,是一种重要的统计分析方法,被广泛的应用于社会经济现象变量之间的影响因素和关联的研究.由于客观事物的联系错综复杂经济现象的变化往往用一个变量无法描述,故本篇论文在深入分析一元线性回归及数学模型的情况下,又详细地介绍了多元线性回归方程的参数估计和其显著性检验等.全面揭示了这种复杂的依存关系,准确测定现象之间的数量变动.以提高预测和控制的准确度.第二章线性模型第一节一元线性模型在工农业生产及科研中最常遇到的配直线问题,就是回归分析的统计推断方法来求经验公式(线性回归)的问题.如:例1今有某种大豆脂肪含量x(%)与蛋白质含量y(%)的测定结果如下表所示:试求它们之间的关系(检验公式).x16.517.518.519.520.521.522.5y43.542.642.640.640.338.737.2首先将这组数据在直角坐标系上描成点,如下图:一般的,按此方法描点所得的图成为散点图.从图上可以看出:这些数据描出的点分布在一条直线附近.于是推出他们大致可以表示为线性关系这里再y上加“^”是为了区别于他的实际值y,因为y与x一般不具有确定的函数关系,这样,在散点图的启发下,我们选定了回归方程是线性的.然后根据统计推断方法来估计出未知数和从而确定所求的经验公式.一般的,设随机变量y与x之间的相关关系可以用线性模型,~N(0,)(1)来表示.这里x是试验或观察中可以控制或精确观测的变量.即非随机变量,y是可观测的随机变量是不可观测的随机变量(它表示模型误差,是除去x对Y的先行影响之外的且不能测出的其它各个随机因素对Y的影响的总和)通过实验观测可得到关于变量x和Y的一组数据(,),(,),……(,)因为对于任意一个(i=1,2,……n),在的观测值在取定前不能精确预言它一定能取什么值,故把看作是随机变量Y的观测值.而相互独立的随机变量,,……为Y的样本.我们知道,样本与样本观测值之间的区别是:前者是随机变量,后者为取定的数值,但为了叙述方便,今后把样本观察值也成为样本.在符号上均用,,……来表示.具体表示的意义也可由上下文分析清楚,设观测值与样本之间满足关系式:=(i=1,2,……,n)(2)其中~(i=1,2,……,n)且相互独立.如果两个变量间的关系用上述线性模型描述,则它们之间存在线性相关关系由(1)有:E(Y)=我们希望根据观测的数据,求出,的估计量,这样就可以利用方程(3)去估计随机变量Y的数学期望E(Y).也就是说,将,代入方程(1)并略去误差,就得到了随机变量Y和变量x的线性关系式(3).方程(3)通常称为Y对x的线性回归方程或回归方程,其图形称为回归直线.[1]对于(1)和(2)所确定的线性模型,所考虑的统计推断主要问题是:未知参数和的估计:检验x和Y之间的关系是否可确信是线性关系,即对假设(1)进行检验,对Y进行预测等.第二节多元线性模型一般来讲,影响结果Y的因素往往不止一个.设有,……共p个元素.这时要用图来确定它们的关系是困难的.常可根据经验做出假设.其中最简单的是假设它们之间有线性关系:……(4)式中,……都是可精确测量或可控制的一般变量,Y是可观测的随机变量,,,……,都是未知参数,是服从分布的不可观测的随机误差.我们对(4)获得了n组相互独立的观测值(样本).(;,,……)(i=1,2,……,n)(5)于是由(4)式可知具有数据结构式:i=1,2,……,n(6)其中各个(i=1,2,……,n)相互独立,且均服从.这就是p元线性回归模型.对于(4)所确定的模型.统计推断的主要问题是:根据样本去估计未知参数,,……,、,从而建立Y与,……间的数量关系式和对比得到的数量关系式的可信度进行统计检验;检验各变量,……分别对指标是否有显著影响.[2]第二章参数的估计第一节一元线性回归方程参数的估计有多种确定回归方程也就是确定未知参数,的估计量,,的方法其中最常用的是“最小二乘法”.我们将采用“最小二乘法原理”来求出,也就是求,使误差(i=1,2,……,n)的平方和Q==(7)为最小的,值作为参数,的估计量.由(7)知Q是,的二元函数.即Q=Q(,).按二元函数求极值的方法可得联立方程组:(8)这个方程组称为正规方程组即:(9)解此方程组.由(9)的第一式得因此的估计量为:(10)其中,将(10)式代入(9)中的第二式可解得的估计量为(11)这样:利用(10)和(11)确定的,使平方和Q达到最小,从而求出回归方程这里,分别表示由(10)和(11)确定的,的值并称为经验截距;为经验回归系数,简称为回归系数,而是的无偏估计量.由(10)可得回归方程的另一种形式:(12)由此可知,回归直线通过点(,),即通过由馆测值的平均值组成的点,并且回归方程由回归系数完全确定.一般的,把由回归方程确定的x的对应值称为回归值.根据观测数据,利用(10)和(11)来求回归直线时,常把(11)中的分子和分母分别记为和,且按下面的公式计算:所以(10)和(11)两式可记作:(13)(14)又有公式:==(15)然而,对总体中的未知参数进行估计,其主要目的还是建立一元线性回归方程.虽然有一个正规方程组存在实际上并不研究它.以下是建立一元线性回归方程的具体步骤:(1)计算,,,,;(2)计算,,(在回归方程作显著性检验时用);(3)计算和写出一元线性回归方程.[3]序号116.543.5272.251892.25717.75217.542.6306.251814.76745.50318.542.6342.251814.76788.10419.540.6380.251648.36791.70520.540.3420.251624.09826.15621.538.7462.251497.69832.05722.537.2506.251383.84837.00823.536.0552.251296.00846.00924.534.0600.251156.00833.00184.5355.53842.2514127.757217.25从而可求得=20.5,=39.5,=60,=-70.5,-1.175,=-=63.588所求回归方程为63.588-1.175x例2设两个变量x与Y由某种相关关系,测得它的一组数据如下表所示,试求其回归方程.x49.250.049.349.049.049.549.849.950.250.2Y16.717.016.816.616.716.816.817.017.017.1解:根据计算得=49.61,=16.85,=24613.51,=8359.94=0.3293,=-=0.5129所以回归方程为0.5129+0.3293x.第二节多元线性回归模型的参数估计设,……,Y有一组观测值(样本);(,……,)(i=1,2,……n).我们希望由估计,,……,所决定出的回归方程能使一切与之间的偏差达到最小.根据最小二乘法的原理即:要求=所以只要求偏离平方和达到最小的为书写方便以下把“”书写成“”根据微积分中值原理和最小二乘法估计是下列方程组的解(j=1,2,…,n)(16)经整理即得关于的一个线性方程组………………………(17)此方程组(17)称为正规方程组.借此方程组就可求得参数的回归值为了求解方便我们将(17)是写成矩阵的形式,令1…X=1…,Y=,B=…………………1…记(17)式的系数矩阵为A,常数项矩阵为B,则A恰为,B恰为即:11…11…=…1…………………………1…n…=…=A……………11…1=…==B…………………因此用矩阵的形式可表式为=在回归分析中通常存在这时最小二乘估计可表式为:=(18)当我们求出了的最小二乘估计后,就可以建立多元回归方程.[5]例3某地区所产原棉的纤维能力Y与纤维的公制支数,纤维的成熟度有关,现实测得28组数据(见下表)试建立Y关于,的二元线性回归方程.ii154151.584.031562081.703.81257001.384.011657981.594.00356741.574.001755511.614.19456981.554.091860591.573.81561651.523.731960601.533.96659291.604.092060591.553.93775051.142.952163701.453.72859201.503.902261021.493.84976461.182.892362451.503.881065561.273.482466441.453.381164751.503.602561911.583.761259071.503.77