[自主梳理]一、回归分析回归分析是对有__________的两个变量进行统计分析的常用方法,对两个具有_______关系的变量进行回归分析,我们采用求线性回归方程的方法.相关关系相关二、线性回归方程y=a+bx中几个相关量的求法对于几对数据(x1,y1),(x2,y2),…,(xn,yn).x=______________,y=______________b=i=1nxi-xyi-yi=1nxi-x2=i=1nxiyi-nxyi=1nx2i-nx2a=y-bxx1+x2+…+xnny1+y2+…+ynn三、相关系数为了刻画变量间的线性相关关系,我们可以通过计算两个随机变量的线性相关系数r,来判断它们之间线性相关程度的大小.计算r=i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2=i=1nxiyi-nxyi=1nx2i-nx2i=1ny2i-ny2范围r∈______性质线性相关程度(1)|r|越大,线性相关程度________;(2)|r|越接近于0,线性相关程度________;(3)当r0时,两个变量______相关;(4)当r0时,两个变量______相关;(5)当r=0时,两个变量线性_______[-1,1]越高越低正负不相关[双基自测]1.下面两个变量间的关系不是函数关系的是()A.正方体的棱长与体积B.角的弧度数与它的正弦值C.单产为常数时,土地面积与粮食总产量D.日照时间与水稻亩产量解析:A、B、C均是确定性的函数关系,D不是.D2.随机抽样中测得四个样本点为(1,2),(2,3),(3,4),(4,5),则y与x之间的回归直线方程为()A.y=x+1B.y=x+2C.y=2x+1D.y=x-1解析:x=1+2+3+44=52,y=2+3+4+54=72,∴回归直线过(52,72),代入验证即可.A探究一求线性回归方程学生学科ABCDE数学成绩(x)8876736663物理成绩(y)7865716461(1)作出散点图;(2)求物理成绩y对数学成绩x的线性回归方程;(3)一名学生的数学成绩是96,试预测他的物理成绩.[解析](1)散点图如图.(2)由图看出变量x、y具有明显的线性相关关系,因此可用线性回归方程刻画它们的关系.x=15×(88+76+73+66+63)=73.2,y=15×(78+65+71+64+61)=67.8.i=15xiyi=88×78+76×65+73×71+66×64+63×61=25054.i=15x2i=882+762+732+662+632=27174.所以b=i=15xiyi-5xyi=15x2i-5x2=25054-5×73.2×67.827174-5×73.22≈0.625.a=y-bx≈67.8-0.625×73.2=22.05.所以y对x的回归直线方程是y=0.625x+22.05.(3)x=96,则y=0.625×96+22.05≈82,即可以预测他的物理成绩是82.散点图大部呈线性,求出的回归方程才有实际意义.1.某医院用光电比色计检验尿汞时,得尿汞含量(毫克/升)与消光系数如下表:汞含量x246810消光系数y64138205285360(1)作出散点图;(2)如果y与x之间具有线性相关关系,求线性回归方程.解析:(1)散点图如图.(2)由散点图可知,y与x呈线性相关关系,设线性回归方程为:y=bx+a.经计算,得x=6,y=210.4,∑5i=1x2i=220,∑5i=1xiyi=7790.∴b=7790-5×6×210.4220-5×62=36.95,a=210.4-36.95×6=-11.3.∴线性回归方程为:y=36.95x-11.3.探究二相关系数[例2]下面的数据是从年龄在40岁到60岁的男子中随机抽出的6个样本,分别测定了心脏的功能水平y(满分100),以及每天花在看电视上的平均时间x(小时).看电视的平均时间x4.44.62.75.80.24.6心脏功能水平y525369578965(1)求心脏功能水平y与每天花在看电视上的平均时间x之间的样本相关系数r;(2)求心脏功能水平y与每天花在看电视上的平均时间x的线性回归方程,并讨论方程是否有意义;(3)估计平均每天看电视3小时的男子的心脏功能水平.[解析]n=6,x=16(4.4+4.6+…+4.6)≈3.7167,y=16(52+53+…+65)≈64.1667,∑6i=1x2i-6x2≈(4.42+4.62+…+4.62)-6×3.71672≈19.7668,∑6i=1y2i-6y2≈(522+532+…+652)-6×64.16672≈964.8077,∑6i=1xiyi-6xy≈(4.4×52+4.6×53+…+4.6×65)-6×3.7167×64.1667≈-124.6302.(1)心脏功能水平y与每天花在看电视上的平均时间x之间的相关系数:r≈-124.630219.7668×964.8077≈-0.9025.(2)b≈-124.630219.7668≈-6.3050,a=y-bx≈87.6005,心脏功能水平y与每天花在看电视上的平均时间x的线性回归方程为y=87.6005-6.3050x.由(1)知y与x之间有较强的线性关系,这个方程是有意义的.(3)将x=3代入线性回归方程y=87.6005-6.3050x,可得y≈68.7,即平均每天看电视3小时,心脏功能水平约为68.7.求解两个变量的相关系数及它们的线性回归方程的计算量较大,需要细心、谨慎地计算.如果会使用含统计的科学计算器,能简单得到∑ni=1xi,∑ni=1yi,∑ni=1x2i,∑ni=1y2i,∑ni=1xiyi这些量,也就无需制表这一步,直接算出结果就行了.另外,利用计算机中有关应用程序也可以对这些数据进行处理.2.下表为某地近几年机动车辆数与交通事故数的统计资料,请判断交通事故数与机动车辆数是否有线性相关关系?机动车辆数x/千台95110112120129135150180交通事故数y/千件6.27.57.78.58.79.810.213.0解析:将数据列成下表:ixiyix2iy2ixiyi1956.2902538.44589.021107.51210056.25825.031127.71254459.29862.441208.51440072.251020.051298.71664175.691122.361359.81822596.041323.0715010.222500104.041530.0818013.032400169.002340.0∑103171.6137835671.009611.7由此可得x=128.875,y=8.95.进而求得r=9611.7-8×128.875×8.95137835-8×128.8752×671.00-8×8.952≈0.9927.因为r0.75,所以可以得出,交通事故数y和机动车辆数x有较强的线性相关关系.探究三非线性回归分析[例3]在摄影技术彩色显影中,形成染料的光学密度y与析出银的光学密度x由公式y=Aebx(b0)表示.现测得试验数据如下:xi0.050.060.250.310.070.100.380.430.140.200.47yi0.100.141.001.120.230.371.191.250.590.791.29试求y关于x的回归方程.[解析]由题意知,对于公式y=Aebx(b0)两边取自然对数,得lny=lnA+bx.与线性回归方程相对照可以看出,只要取v=1x,u=lny,a=lnA,就有u=a+bv,这是u对v的线性回归直线方程,对此我们再套用相关性检验,求回归系数b和a.题目中所给的数据由变量置换v=1x,u=lny,变为如下表所示的数据:vi20.00016.6674.0003.22614.28610.0002.6322.3267.1435.0002.128ui-2.303-1.96600.113-1.470-0.9940.1740.223-0.528-0.2360.255可以求得r=0.998,由于|r|=0.9980.75,可知u与v具有很强的线性相关关系.再求出b=-0.15,a=0.55,∴u=0.55-0.15v.把u和v回代可得lny=0.55-0.15x.即y=e0.150.55x-=e0.55·e0.15x-≈1.73e0.15x-.所以回归方程为y=1.73e0.15x-.函数模型为指数型,可两边取对数转化为线性函数关系,再求出回归直线方程.3.一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据如下表:温度x/℃21232527293235产卵个数y/个711212466115325求y与x之间的回归方程.解析:画出散点图.两变量符合指数函数y=aebx.令u=lny,c=lna,则u=c+bx.x21232527293235u1.9462.3983.0453.1784.1904.7455.784∑7i=1xi=192,∑7i=1ui≈25.286,∑7i=1x2i=5414,∑7i=1xiui≈733.741,x≈27.4286,u≈3.6123.b=∑7i=1xiui-7xu∑7i=1x2i-7x2≈733.741-7×27.4286×3.61235414-7×27.42862≈0.2720,c=u-bx≈-3.848,∴u=-3.848+0.2720x,y=e-3.848·e0.2720x.=e0.2720x-3.848.求线性回归方程的方法技巧【典例】某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份20062008201020122014需求量/万吨236246257276286(1)利用所给数据求年需求量与年份之间的线性回归方程y=bx+a;(2)利用(1)中所求出的线性回归方程预测该地2016年的粮食需求量.[解析](1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求线性回归方程,先将数据处理如下:年份-2010-4-2024需求-257-21-1101929对处理的数据,容易算得x=0,y=3.2.b=-4×-21+-2×-11+2×19+4×29-5×0×3.2-42+-22+22+42-5×02=26040=6.5,a=y-bx=3.2,由上述计算结果,知所求线性回归方程为y-257=6.5(x-2010)+3.2,即y=6.5(x-2010)+260.2.(2)利用所求得的线性回归方程,可预测2016年的粮食需求量大约为6.5×(2016-2010)+260.2=6.5×6+260.2=299.2(万吨).[感悟提高]求线性回归方程时,重点考查的是计算能力.若本题用一般法去解,计算更烦琐(如年份、需求量,不做如上处理),所以平时训练时遇到数据较大的题目时,要考虑有没有更简便的方法解决.对于x与y有如下观测数据:x1825303941424952y356788910(1)作出散点图;(2)对x与y作回归分析;(3)求出y对x的线性回归方程;(4)根据线性回归方程,预测y=20时x的值.解析:(1)作出散点图,如图.(2)作相关性检验.x=18×(18+25+30+39+41+42+49+52)=2968=37,y=18×(3+5+6+7+8+8+9+10)=7,i=18x2i=182+252+302+392+412+422+492+522=11920,i=18y2i=32+52+62+72+82+82+92+102=428,i=18xiyi=18×3+25×5+30×6+39×7+41×8+42×8+49×9+52×10=2257,i=18xiyi-8xy=2257-8×37×7=185,i=18x2i-8x2=11920-8×372=968,i=18y2i-8y2=428-8×72=36,所以r=i=18xiyi-8xyi=18x2i-8