§11.2一元线性回归两个变量之间的相关系数能表明两者之间关系的密切程度,但无法用一个变量去估计另一个变量。回归分析则可做到这一点,用自变量去估计或预测因变量。回归分析首先要区分自变量和因变量,自变量是“因”,因变量是“果”,然后建立一个方程去描述这个因果关系,即要找出两者之间关系的数学表达式,这就是一元回归;如果两个变量是线性关系.称为一元线性回归。设相关关系的两个变量为和,的值由两部分构成:一部分由的影响确定,用的函数表示,称为回归函数;另一部分则由众多不确定性因素影响产生,可看成取值的随机波动,记为,并且假定其平均值为零,即。于是得到数学模型:上式称为回归模型,它表明当取某个数值时,并不必然表现为一个确定的值,而是在附近波动,但其平均数在大量观察下趋向于确定的值。xyyxx)(xfy0)(E)(2.11)(xfyxy()fx()fx图11-1企业产量与生产费用散点图我们容易看出企业产量和生产费用之间的散点图大致呈直线关系。但图形中的各点并不都在—条直线上,而是围绕着直线上下波动,有的在直线上面,有的在直线下面。iyix各散点的坐标满足方程对于这样的散点图,我们认为与之间线性相关,回归函数是线性函数,即此时,回归模型为(11.3)式称为一元线性回归函数,(11.4)称为一元线性回归模型。iiibxay),,2,1(niyx()fx)(3.11)(bxaxf)(4.11bxayiiibxay直线截距直线斜率也叫做对的回归系数,它表示每变动一个单位所引起的的平均变动量yxxy残差(也称为回归误差或预测误差),代表除外的其它次要因素形成的随机扰动。x当样本量较大时,正负干扰可相互抵消,所以我们认为的均值为0。i回归分析的主要任务就是确定回归方程的参数、并判定回归函数(11.3)式是否合理。abi怎样确定??越小越好常用的方法是最小二乘法(Leastsquares,简记为LS)。它使残差平方和(residualssumofsquares:RSS)最小,即使最小22()iiiyabx在计算上应先求再求。用最小二乘法拟合的回归方程有三个性质:22ˆ()ˆˆiiiiiiiinxyxybnxxybxan(11.5)ba(1),即回归误差可以相互抵消。(2)所拟合的回归线通过均值点,即通过散点图的重心,因而预测值的均值等于实际值的均值。(3)残差和、之间无相关关系。0i,xy()ˆiyiyiixiy利用求极值的方法可解得:案例11.2根据表11.2中有关数据,确定该企业生产费用对产量的回归方程,并说明产量对生产费用的影响大小。表11-2企业生产费用与产量相关系数计算表解:由于产量多少决定着生产费用的多少,所以以产量x为自变量,生产费用y为因变量。54.207,880,4.36,6.4544,82xyxxyn又知:代入(11.4),得222ˆ()84544.636.488012.8968207.54(36.4)nxyxybnxxˆ88012.89636.4ˆ51.3238ybxanˆ51.32312.896yx所求的生产费用对产量的回归方程为:它说明该企业产量每增加1千吨,生产费用平均增加12.896万元。案例11.3某省1990-2000年工业产值y与农业产值x的统计数据(单位:亿元)如表中第2、3列所示。试求工业产值对农业产值的回归函数。年份xyxyx2y2199019911992199319941995199619971998199920006871727076777678798188686970818586100108114120133462448995040567064606622760084249006972011704462450415184490057765929577660846241656177444624476149006561722573961000011664129961440017689∑83610347976963860102216平均7694解:建立y对x的一元线性回归方程,由表可知836103476941111xy,根据公式(11.5),有222797691176943.657638601176xynxybxnxˆ943.67576183.932a从而y对x的线性回归方程为:ˆ183.9323.657yx可线性化的一元回归问题常见的非线性函数及其转化为线性函数的方法:1、双曲线(图11-8)1bayx令,则有11yxyx,yabx2、幂函数曲线(图11-9)(0)byaxa令,则有lnlnlnyyxxaa,,yabx3、数函数曲线(图11-10)lnlnyyaa,yabx(0)bxyaea令,则有4、负指数函数曲线(图11-11)令,则有bxyae1lnlnyyxaax,,yabx5、对数曲线(图11-11)令,则有lnyabxlnxxyabx案例11.4某商店历年销售肥皂统计资料如下:年度x1990199119921993199419951996销售量y(箱)95104110120140165200试用指数曲线预测1998年的肥皂销量。解:设令为了计算方便,再定义,列表计算如下:bxyaelnyy1993xx1-3954.55399-13.66162-21044.64444-9.28883-11104.70051-4.7005401204.787500.0000511404.941614.9416621655.1059410.2119732005.2983915.8950∑093434.0321283.3976xylnyy2xxy由公式(11.5)有73.397634.03210.12134.86177287ba,所以0.1213ln4.86170.1213129.2437xyxye已知1996年的序号是,那么1998年应为3x5x所以预计1998年的销量为0.12135129.2437237ye(箱)回归模型的拟合优度和显著性YiˆYiˆ(YY)ii=一、回归模型的拟合优度yoxˆiu12ˆˆiXYiX{}}SRF总离差来自残差ˆ(YY)ii=来自回归图11-13总变异分解为两部分可以证明,对最小二乘法,如下等式成立:222)ˆ()ˆ()(yyyyyyiiiii)6.11()ˆ(22yyii总平方和SST残差平方和SSE回归平方和SSR越大,则越小,因而回归方程的拟合程度越高。2ˆiyy2i定义即称为可决系数(也叫做判定系数)。越大,说明回归平方和占总平方和的比例越大,残差平方和占总平方和的比例越小,回归直线拟合优度越好。22222ˆ1iiiiyyRyyyy)7.11(12SSTSSESSTSSRR2R2R二、回归模型的显著性检验为了分析Y与X之间是否存在线性关系,我们可以对回归模型进行显著性检验。通常也称为F检验。其检验步骤如下:(1)假设回归方程是不显著的,即原假设:方程不显著对立假设:方程显著(2)计算回归方程的F统计量)(8.11)2/()ˆ(1/)ˆ()2/(1/22nyyyynSSESSRFFFFFF(3)根据给定的显著性水平和两个自由度1和(n一2)查F分布表中相应的临界值若,则拒绝原假设,说明回归方程显著;若,则接受原假设,说明回归方程不显著。案例11.5讨论案例11.2中回归方程的显著性并分析回归模型的拟合优度。解:通过计算可得:2ˆ=6970.7224iSSRyy2ˆ=442.2224iiSSEyy根据公式(11.8)6970.7224/194.5776442.2224/6F若查表得,由于实际的F值大于5.59,拒绝原假设,说明生产费用与产量之间的线性关系是显著的。再根据公式(11.7)可得。0.05,0.055.59F222442.2224110.9403457412.945iiRyy说明回归方程的拟合程度是较高的。随堂练习1、直线回归方程中,参数的经济意义。ab、ˆyabx答:参数的经济意义,代表经济现象经过修匀的基础水平;称为回归系数,表示:每变动一个单位时.影响平均变动的数量。ab、yabx2、某企业生产的某种产品的产量与单位成本资料如下表月份产量X(千台)单位成本y(元)13822481358044825578667777768678(1)确定直线回归方程,并说明回归系数的意义。(2)测算产量为6500台时,单位成本为多少?解:由已知条件可计算出:228,40,634,212,50282,3150nxyxyxy22ˆ()1.67iiiiiinxyxybnxx(1)由式11.5可计算出:ˆˆ87.56iiybxan1.67bˆ87.561.67yx的意义:当产量每增加1干台时,单位成本平均下降约1.67元(2)当x=6.5时,代入回归方程有:87.561.676.576.71()y元所以产量为6500台时,单位成本为76.71元3、试述相关分析与回归分析的关系。答:(2)对两个变量x与y而言,相关分析只能计算一个反映两变量相关密切程度的相关系效,回归分析有时可根据研究目的不同分别建立两个不同的回归方程;二者的区别有(1)相关分析所研究的两个变量是对等关系,回归分析所研究的两个变量不是对等关系,必须根据研究目的确定自变量和因变量(3)相关分析的两变量都必须是随机变量.回归分析的自变量是给定的变量,而因变量是随机变量。(1)相关分析是回归分析的基础和前提;(2)回归分析是相关分析的深人和继续。二者的联系: