第九章回归分析变量间的关系有两类:一是函数关系:变量间有确定关系如:正方形的边长与面积水的体积与重量二是统计关系或相关关系:变量间的联系不确定如:平均收入与某商品的消费量树木直径与高度产品的价格与需求量有确定关系的变量,由于试验误差的影响,也表现出一定程度的不确定性。由一个或一组非随机变量来估计或预测某一个随机变量的观察值时,所建立的数学模型及所进行的统计分析,称为回归分析。如果模型是线性的,称为线性回归分析。它研究如何建立变量间的数学表达式,即经验公式。利用概率统计知识进行分析讨论,判断所建立经验公式的有效性进行预测或估计。§1一元线性回归方程用以近似描述具有相关关系的变量之间联系的函数称为回归函数。最简单的是两个变量间的模型yf(x)yx其中是随机变量,是普通变量,是随机项iixx,y对于给定的的取值用表示试验结果iiiyf(x)i1,2,...,n常用的是线性关系01yxi01iiyx或1.21.21ii以家庭为单位,某种商品年需求量与该种商品价格之间的一组调查数据如下表:价格p1222.32.52.62.833.33.5需求量d53.532.72.42.521.5例其数据散点图为:4pd12312345001yx以直线近似表述变量间的关系。01如何选择与?应使误差尽可能地小。11nn(x,y),...,(x,y)若为一组样本2i01ii1yxn应使Q=-()尽可能小001Q1使得达到最小值的与,分别称为与的最小二乘估计。此方法也称为最小二乘法。求Q的最小值点。ni01ii10ni01iii11Q2y(x)0Q2y(x)x0整理后可得方程组nn0i1ii1i1nnn2i0i1iii1i1i1nxyxxxy求解可得nniiiii1i11nn222iii1i101(xx)(yy)xynxy(xx)xnxyx01可以证明,,使Q达到最小。01所求的回归直线为y=+x2iiiii为计算方便,可先列出x,y,xy,x及它们的和,再用上述公式计算。所列的表称为回归计算表。例1中需求量与价格的关系:iiii2iP1222.32.52.62.833.33.525d53.532.72.42.521.51.21.225pd5766.2166.55.64.53.964.254.97p1445.296.256.767.84910.8912.2567.28价格需求niii11n22ii1pdnpdpnp254.97102.52.567.28102.51.601dp2.5(1.6)2.56.5故回归方程应为d=6.5-1.6px102030405060y150100400612000由下述数据求出变量间的回归例方程解:列出回归计算表iiii2ix102030405060210y15010040060100130xy1500200012000300060004300x100400900160025003600910012430063521.6791006355.06021.67(5.06)35198.77即回归方程为y=198.77-5.06x§2相关性检验任意一组数据都可用最小二乘法找出一条直线。但y与x之间真的有近似线性关系吗?011yx0若中的参数=则x值的变化对y没有影响不宜用回归直线描述两变量间的关系。提出待检假设:01H:011nn(x,y),...,(x,y)设为一组样本i01iyx记为寻找检验H0的方法,将x对y的线性影响与随机波动引起的变差分开。可以证明nnn222iiii1i1i1(yy)(yyi)(yy)n2iyyi1(yy)S记n22ii1yny1ny,...,y它反映了的分散程度。i1Un2i记(y-y)n221ii1U(xx)可以证明1n1n它反映了由x,...,x变化引起的y,...,y的分散程度称为回归平方和n2iii1(yy)Q记它表示由总误差中分离出x对y的线性影响之外的其余因素产生的误差。称为残差平方和或剩余平方和yySQU即n2xxii1S(xx)记n22ii1xnxnxyiii1S(xx)(yy)niii1xynxy则可以证明2xyxxUSS2xyyyyyxxyySQSUS1SSUFQ(n2)选取统计量0HFF(1,n2)若成立,则(1,n2)对于给定的,可找出临界值F0FF,H,若则否定即认为x与y之间存在线性相关关系。对例1做相关性检验。列表iiii2i2ip1222.32.52.62.833.33.525d53.532.72.42.521.51.21.225pd5766.2166.55.64.53.964.254.97p1445.296.256.767.84910.8912.2567.28d2512.2597.295.766.2542.251.441.4474.68n22ppii1Spnp267.28102.5=4.78n22ddii1Sdnd274.68102.5=12.18npdiii1Spdnpd54.97102.52.5=-7.532pdppUSS2(7.53)4.78=11.86ddQSU=12.18-11.86=0.32列出方差计算表0.05查表知:F(1,8)=5.32F296.55.32故否定H0即认为p与d之间近似地存在线性关系。方差来源离差平方和自由度F的值11.868回归和U=11.861F=0.32余和Q=0.328=296.5总和S=12.189§3可线性化的回归方程两个变量之间未必能用线性关系近似描述。其中有些回归方程可转化为线性回归方程。利用变量替换,就可利用线性回归的结果。经济领域中常用如下一些回归曲线:(一)双曲线型10yx011u,yux令得(二)指数曲线型ax1yce、若c0,令v=lny00vax,lnc得其中=c0,vln(y)若令00vaxln(c)得其中=bx2yce、1c0,vlny,ux若令00vbulnc得其中=(三)幂函数型(x0)by=cxc0,vlnyulnx若令00vbulnc得其中=(四)S曲线型x011yex1v,uey令01vu得(五)对数曲线型1、双对数型lnylnablnx0vlny,ulnx,lna令0vbu得0(1)y=+blnx2、半对数型0ulnxybu令得01(2)lnyx01vlny,vx令得10yxyx1ii同一面积土地上作物单位产品的成本与产量间近似满足双曲线型关系:试用下列资料求出对的回归曲线方程。x5.674.453.843.843.732.18y17.718.518.918.818例.319.11ux解:令01yu则回归方程为列出回归计算表iii2iiix5.674.453.843.843.732.18y17.718.518.918.818.319.1111.3u0.180.220.260.260.270.461.65u0.03244840.06760.06760.07290.21160.5005uy3.8164.074.9144.8884.9418.78630.785u0.275y18.551230.78560.27518.550.500560.2753.80018.553.800.275=17.5053.80y17.505x故回归曲线为