第三章统计案例§1回归分析1.1回归分析1.2相关系数1.3可线性化的回归分析学习目标核心素养1.了解回归分析的思想和方法.(重点)2.掌握相关系数的计算和判断线性相关的方法.(重点)3.了解常见的非线性回归模型转化为线性回归模型的方法.(难点)通过对回归分析的学习,培养“逻辑推理”、“数学抽象”、“数学运算”的数学素养.自主预习探新知1.回归分析设变量y对x的线性回归方程为y=a+bx,由最小二乘法知系数的计算公式为:b=lxylxx=________________=______________,a=____________.i=1nxi-xyi-yi=1nxi-x2i=1nxiyi-nxyi=1nx2i-nx2y-bx思考:在回归分析中,通过线性回归方程求出的函数值一定是实数值吗?为什么?[提示]不一定是实数值,例如,人的体重与身高存在一定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食情况,是否喜欢运动等.2.相关系数(1)相关系数r的计算假设两个随机变量的数据分别为(x1,y1),(x2,y2),…,(xn,yn),则变量间线性相关系数r=lxylxxlyy=____________________=______________________.i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2i=1nxiyi-nxyi=1nx2i-nx2i=1ny2i-ny2(2)相关系数r与线性相关程度的关系①r的取值范围为____________;②|r|值越大,误差Q越小,变量之间的线性相关程度越__;③|r|值越接近0,误差Q越大,变量之间的线性相关程度越__.[-1,1]高低3.相关性的分类①当______时,两个变量正相关;②当______时,两个变量负相关;③当______时,两个变量线性不相关.r0r0r=04.可线性化的回归分析(1)非线性回归分析对不具有线性相关关系的两个变量做统计分析,通过变量代换,转化为线性回归模型.(2)非线性回归方程曲线方程曲线图形变换公式变换后的线性函数y=axb(a=1,b>0)(a=1,b<0)c=lnav=lnxu=lny____________u=c+bvy=aebx(a>0,b>0)(a>0,b<0)c=lnau=lny____________y=aebx(a>0,b>0)(a>0,b<0)c=lnav=1xu=lny____________u=c+bxu=c+bvy=a+blnx(b>0)(b<0)v=lnxu=y____________u=a+bv1.判断下列命题是否正确.(正确的打“√”,错误的打“×”)(1)两个变量的相关系数r>0,则两个变量正相关.()(2)两个变量的相关系数越大,它们的相关程度越强.()(3)若两个变量负相关,那么其回归直线的斜率为负.()[答案](1)√(2)×(3)√2.相关系数r的取值范围是()A.[-1,1]B.[-1,0]C.[0,1]D.(-1,1)[答案]A3.下列数据x,y符合哪一种函数模型()x12345678910y22.6933.383.63.844.084.24.3A.y=2+13xB.y=2exC.y=2e1xD.y=2+lnxD[分别将x的值代入解析式判断知满足y=2+lnx.]4.已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得线性回归方程可能为()A.y=0.4x+2.3B.y=2x-2.4C.y=-2x+9.5D.y=-0.3x+4.4A[本题考查了线性回归方程,由已知变量x与y正相关,排除C,D选项.将点(3,3.5)代入A、B选项的方程中可知,选项A成立,所以选A.]合作探究提素养变量间的相关关系及判断【例1】(1)两个变量x,y与其线性相关系数r有下列说法:①若r>0,则x增大时,y也随之相应增大;②若r<0,则x增大时,y也相应增大;③若r=1或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上,其中正确的有()A.①②B.②③C.①③D.①②③(2)有五组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③某人每日吸烟量和其身体健康情况;④正方形的边长和面积;⑤汽车的重量和百公里耗油量.其中两个变量成正相关的是()A.①③B.②④C.②⑤D.④⑤[解](1)根据两个变量的相关性与其相关系数r之间的关系知,①③正确,②错误,故选C.(2)其中①③成负相关关系,②⑤成正相关关系,④成函数关系,故选C.[答案](1)C(1)C(2)C1.线性相关系数是从数值上来判断变量间的线性相关程度,是定量的方法.与散点图相比较,线性相关系数要精细得多,需要注意的是线性相关系数r的绝对值小,只是说明线性相关程度低,但不一定不相关,可能是非线性相关.2.利用相关系数r来检验线性相关显著性水平时,通常与0.75作比较,若r0.75,则线性相关较为显著,否则为不显著.1.下列两变量中具有相关关系的是()A.正方体的体积与边长B.人的身高与体重C.匀速行驶车辆的行驶距离与时间D.球的半径与体积B[选项A中正方体的体积为边长的立方,有固定的函数关系;选项C中匀速行驶车辆的行驶距离与时间成正比,也是函数关系;选项D中球的体积是43π与半径的立方相乘,有固定函数关系.只有选项B中人的身高与体重具有相关关系.]线性回归方程【例2】某班5名学生的数学和物理成绩如下表:学生学科ABCDE数学成绩(x)8876736663物理成绩(y)7865716461(1)画出散点图;(2)求物理成绩y对数学成绩x的线性回归方程;(3)一名学生的数学成绩是96,试预测他的物理成绩.[解](1)散点图如图.(2)x=15×(88+76+73+66+63)=73.2,y=15×(78+65+71+64+61)=67.8.∑5i=1xiyi=88×78+76×65+73×71+66×64+63×61=25054.∑5i=1x2i=882+762+732+662+632=27174.所以b=∑5i=1xiyi-5xy∑5i=1x2i-5x2=25054-5×73.2×67.827174-5×73.22≈0.625.a=y-bx≈67.8-0.625×73.2=22.05.所以y对x的回归直线方程是y=22.05+0.625x.(3)x=96,则y=0.625×96+22.05≈82,即可以预测他的物理成绩是82.求回归直线方程的基本步骤2.从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得∑10i=1xi=80,∑10i=1yi=20,∑10i=1xiyi=184,∑10i=1x2i=720.(1)求家庭的月储蓄y对月收入x的线性回归方程y=bx+a;(2)判断变量x与y之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.[解](1)由题意知n=10,x=1n∑ni=1xi=8010=8,y=1n∑ni=1yi=2010=2.又∑ni=1x2i-nx2=720-10×82=80,∑ni=1xiyi-nxy=184-10×8×2=24,由此可得b=∑ni=1xiyi-nxy∑ni=1x2i-nx2=2480=0.3,a=y-bx=2-0.3×8=-0.4,故所求回归方程为y=0.3x-0.4.(2)由于变量y的值随x的值增加而增加(b=0.30),故x与y之间是正相关.(3)将x=7代入回归方程可以预测该家庭的月储蓄为y=0.3×7-0.4=1.7(千元).可线性化的回归分析[探究问题]1.如何解答非线性回归问题?[提示]非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:2.已知x和y之间的一组数据,则下列四个函数中,模拟效果最好的为哪一个?x123y35.9912.01①y=3×2x-1;②y=log2x;③y=4x;④y=x2.[提示]观察散点图中样本点的分布规律可判断样本点分布在曲线y=3×2x-1附近,所以模拟效果最好的为①.【例3】某地区不同身高的未成年男性的体重平均值如下表:身高x(cm)60708090100110体重y(kg)6.137.909.9912.1515.0217.50身高x(cm)120130140150160170体重y(kg)20.9226.8631.1138.8547.2555.05(1)试建立y与x之间的回归方程;(2)如果一名在校男生身高为168cm,预测他的体重约为多少?思路探究:先由散点图确定相应的拟合模型,再通过对数变换将非线性相关转化为线性相关的两个变量来求解.[解](1)根据表中的数据画出散点图,如下:由图看出,这些点分布在某条指数型函数曲线y=c1ec2x的周围,于是令z=lny,列表如下:x60708090100110z1.812.072.302.502.712.86x120130140150160170z3.043.293.443.663.864.01作出散点图,如下:由表中数据可求得z与x之间的回归直线方程为z^=0.693+0.020x,则有y=e0.693+0.020x.(2)由(1)知,当x=168时,y=e0.693+0.020×168≈57.57,所以在校男生身高为168cm,预测他的体重约为57.57kg.两个变量不具有线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y=c1ec2x,我们可以通过对数变换把指数关系变为线性关系,令z=lny,则变换后样本点应该分布在直线z=bx+a(a=lnc1,b=c2)的周围.3.在一次抽样调查中测得样本的5个样本点,数据如下表:x0.250.5124y1612521试建立y与x之间的回归方程.[解]作出变量y与x之间的散点图如图所示.t4210.50.25y1612521由图可知变量y与x近似地呈反比例函数关系.设y=kx,令t=1x,则y=kt.由y与x的数据表可得y与t的数据表:作出y与t的散点图如图所示.由图可知y与t呈近似的线性相关关系.又t=1.55,y=7.2,i=15tiyi=94.25,i=15t2i=21.3125,b=i=15tiyi-5tyi=15t2i-5t2=94.25-5×1.55×7.221.3125-5×1.552≈4.1344,a=y-bt=7.2-4.1344×1.55≈0.8,∴y=4.1344t+0.8.所以y与x的回归方程是y=4.1344x+0.8.1.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.2.判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就必须利用线性相关系数来判断.3.回归直线y=a+bx过点(x,y),其中x=1n∑ni=1xi,y=1n∑ni=1yi.4.相关系数r可以定量地反映出变量间的相关程度,明确的给出有无必要建立两变量间的线性回归方程.当堂达标固双基1.下列结论正确的是()①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A.①②B.①②③C.①②④D.①②③④C[函数关系和相关关系的区别是前者是确定性关系,后者是非确定性关系,故①②正确;回归分析是对具有相关关系的两个变量进行统计分析的一种方法,故③错误,④正确.]2.下表是x和y之间的一组数据,则y关于x的线性回归方程必过点()x1234