第三章统计案例3.1回归分析的基本思想及其初步应用梳理知识夯实基础自主学习导航1.了解回归分析的基本思想,会对两个变量进行回归分析,会求两个具有线性相关关系的变量的回归直线方程.2.了解最小二乘法的思想方法,理解回归方程与一般函数的区别与联系.3.了解回归分析的初步应用—相关检验.‖知识梳理‖1.函数关系是一种__________关系,而相关关系是一种非确定性关系,回归分析是对具有__________的两个变量进行统计分析的一种常用方法2.在回归模型中,y的值由x和随机因素e共同确定,即x只能解释部分y的变化,x称为__________,y称为预报变量,e称为__________.它的均值E(e)=0,方差D(e)=σ20.确定性相关关系解释变量随机误差3.在回归分析中,可以用R2=1-i=1nyi-y^i2i=1nyi-y-2来刻画回归的效果,它表示解释变量对于预报变量变化的__________,R2越接近于__________,表示回归的效果越好.贡献率1解剖难点探究提高重点难点突破利用回归直线方程可以进行预测估计总体,但是只有当散点图大致呈线性时,求出的回归方程才有实际意义,否则就毫无意义.因此,对一组数据作线性回归分析时,应先看其散点图是否成线性,若成线性,再按求回归方程的步骤求解.建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型;(4)按一定规则(如最小二乘法)估计回归方程中的参数;(5)得出结果后分析残差图是否有异常.归纳透析触类旁通课堂互动探究题型一求线性回归方程在我国某地的一个县城,近期发现了好几个癌症村.政府部门十分震惊,马上组成调查组调查病因,经调查发现致癌的罪魁祸首是水源中的金属砷,它们来自附近的几家化工厂,化工厂排出的废水中含有金属砷,废水污染了水源,人食用了这种水就会致癌.下面就是调查组对几个癌症村水源中的砷超标的倍数和患癌症的人数统计的数据:砷超标的倍数x345.54.25.863.5患癌症人数y15202824354434(1)画出表中数据的散点图;(2)求y对x的回归方程;(3)若一个村的水源中砷超标的倍数为7,试估计这个村的患癌症的人数.【思路探索】由散点图可判断两个变量是否线性相关,通过求出a^,b^便可得出回归方程,求出回归方程,便可求出(3).【解】(1)散点图如图所示.(2)观察散点图,可知x,y成线性相关关系.计算得x-=327,y-=2007,根据求b^公式代入数据计算得b^≈6.065,a^=2007-6.065×327≈0.846.所以患癌症人数y对水源中砷超标的倍数x的回归直线方程为y^=6.065x+0.846.(3)根据上面求得的回归直线方程,当水源中砷超标的倍数为7时,y^=6.065×7+0.846=43.301.即该村患癌症的人数约为43人.[名师点拨]求回归直线方程时,先利用公式b^=i=1nxiyi-nx-y-i=1nx2i-nx-2,再由a^=y--b^x-求出a^的值,最后写出回归方程y^=b^x+a^.(2019·广州高三综合测试)科研人员在对人体脂肪含量和年龄之间关系的研究中,获得年龄和脂肪含量的样本数据,如下表:年龄x/岁26273941495356586061脂肪含量y/%14.517.821.225.926.329.631.433.535.234.6根据上表中的样本数据得到如下的散点图.(1)根据上表中的样本数据及散点图:①求x-;②计算样本的相关系数(精确到0.01),并推断脂肪含量和年龄的相关程度;(2)若y关于x的线性回归方程为y^=1.56+b^x,求b^的值(精确到0.01),并根据回归方程估计年龄为50岁时人体的脂肪含量.附:参考数据:y-=27,i=110xiyi=13527.8,i=110x2i=23638,i=110y2i=7759.6,43≈6.56,2935≈54.18.参考公式:相关系数r=i=1nxi-x-yi-y-i=1nxi-x-2i=1nyi-y-2=i=1nxiyi-nx-y-i=1nx2i-nx-2i=1ny2i-ny-2,回归直线y^=a^+b^x中斜率和截距的最小二乘估计分别为b^=i=1nxi-x-yi-y-i=1nxi-x-2,a^=y--b^x-.解:(1)①x-=26+27+39+41+49+53+56+58+60+6110=47.②样本的相关系数r=i=110xiyi-10x-y-i=110x2i-10x-2i=110y2i-10y-2=13527.8-10×47×2723638-10×472×7759.6-10×272=13527.8-1269023638-22090×7759.6-7290=837.81548×469.6=8378643×42935.因为43≈6.56,2935≈54.18,所以r≈0.98.由样本的相关系数r≈0.98,可以推断脂肪含量和年龄的相关程度很强.(2)因为y关于x的线性回归方程为y^=1.56+b^x,所以a^=1.56,所以b^=y--a^x=27-1.5647≈0.54或利用b^=i=110xi-x-yi-y-i=110xi-x-2=i=110xiyi-10x-y-i=110x2i-10x-2=837.81548≈0.54.所以y关于x的线性回归方程为y^=0.54x+1.56.将x=50代入线性回归方程得y^=0.54×50+1.56=28.56.所以根据回归方程估计年龄为50岁时人体的脂肪含量为28.56%.题型二线性回归分析在一段时间内,某种商品的价格x(元)和需求量y(件)之间的几组数据如下表:价格x/元1416182022需求量y/件1210753求出y与x的回归直线方程,并说明拟合效果的好坏.【思路探索】从表格中的数据可直观看出x与y呈线性相关关系,利用公式可求出回归系数b^和a^便可确定回归直线方程.用R2=1-i=1nyi-y^i2i=1nyi-y-2的值来判断拟合效果.【解】由题意得x-=15(14+16+…+22)=18,y-=15(12+10+…+3)=7.4,i=15x2i=142+162+…+222=1660,i=15y2i=122+102+…+32=327,i=15xiyi=14×12+16×10+…+22×3=620,∴b^=i=15xiyi-5x-y-i=15x2i-5x2=620-5×18×7.41660-5×182=-1.15,a^=7.4+1.15×18=28.1.∴回归直线方程为y^=-1.15x+28.1.列出残差表:yi-y^i00.3-0.4-0.10.2yi-y-4.62.6-0.4-2.4-4.4∴i=15(yi-y^i)2=0.3,i=15(yi-y-)2=53.2.∴R2=1-i=1nyi-y^i2i=1nyi-yi2=1-0.353.2≈0.994,非常接近于1.∴拟合效果较好.[名师点拨]当两个变量呈线性相关时,求出的回归方程,可通过R2来判断拟合效果的好坏,R2越接近1,说明拟合效果越好.给出下列说法,其中说法正确的序号是________.①R2可以刻画回归模型的拟合效果,R2越接近于1,说明回归模型的拟合效果越好;②在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示解释变量和预报变量的线性相关关系越强;解析:由回归分析的相关概念,知①②③④都正确.答案:①②③④题型三非线性回归分析我市物价监督部门为调研某公司新开发上市的一种产品销售价格的合理性,对该公司的产品的销售与价格进行了统计分析,得到如下数据和散点图:定价x(元/kg)102030405060年销售y(kg)115064342426216586z=2lny14.112.912.111.110.28.9图(1)为xy散点图,图(2)为xz散点图.(1)根据散点图判断y与x,z与x哪一对具有较强的线性相关性(不必证明);(2)根据(1)的判断结果和参考数据,建立y关于x的回归方程(线性回归方程中的斜率和截距均保留2位有效数字);(3)定价为多少时,年销售额的预报值最大?(注:年销售额=定价×年销售)参考数据:x=35,y=455,z=11.55,i=16(xi-x)2=1750,i=16(yi-y)2=776840,i=16(xi-x)(yi-y)=-34580,i=16(xi-x)(zi-z)=-175.5,i=16(yi-y)(zi-z)=3465.2,参考公式:b^=i=1nxi-xyi-yi=1nxi-x2,a^=y-b^x.【解】(1)由散点图知,z与x具有的线性相关性较强.(2)由条件,得b^=i=16xi-xzi-zi=16xi-x2=-175.51750≈-0.10,a^=z-b^x=11.55-(-0.10)×35=15.05≈15,所以z^=-0.10x+15,又z=2lny,得2lny^=-0.10x+15,故y关于x的回归方程为y^=e-0.10x+152.(3)设年销售额为P元,设P=f(x)=xy^=xe-0.10x+152,x∈(0,+∞),f′(x)=(1-0.05x)e-0.10x+152,令f′(x)0,得0x20;令f′(x)0,得x20,则f(x)在(0,20)单调递增,在(20,+∞)单调递减,在x=20取得最大值,因此,定价为20元/kg时,年销售额的预报值最大.[名师点拨]非线性回归模型通过变换可以转化为线性回归模型,常见的转化模型有:①y=a+bx,令y′=y,x′=1x,则有y′=a+bx′;②y=bx2+a,令y′=y,x′=x2,则有y′=bx′+a;③y=axb,令y′=lny,x′=lnx,a′=lna,则有y′=a′+bx′;④y=aebx,令y′=lny,x′=x,a′=lna,则有y′=a′+bx′;⑤y=a+blnx,令y′=y,x′=lnx,则有y′=a+bx′.如图是依据某集团1996年至2016年的出口贸易额的原始数据得到的散点图.给出下列经验公式:①y=ax+b;②y=ax2+b;③y=a·ebx,则依据该散点图的特征,可知拟合程度最不好的经验公式的序号为________.解析:由散点图,可知数据分布呈单调递增趋势,且递增的速度越来越快,并且可观察到样本数据点并不分布在一条直线的周围,因此不宜用线性回归方程来拟合,所以直线y=ax+b拟合程度最不好.答案:①即学即练稳操胜券课堂基础达标1.观察下列各图形:其中两个变量x,y具有相关关系的图是()A.①②B.①④C.③④D.②③解析:由散点图知③④具有相关关系.答案:C2.已知x,y的取值如表所示,若y与x线性相关,且线性回归方程为y^=b^x+6,则b^的值为()x123y645A.110B.12C.-110D.-12解析:依题意,x=13(1+2+3)=2,y=13(6+4+5)=5,∴5=b^×2+6,解得b^=-12,故选D.答案:D3.已知变量x与y负相关,且由观测数据算得样本平均数x-=3,y-=3.5,则由该观测数据算得的线性回归方程可能是()A.y^=0.4x+2.3B.y^=2x-2.5C.y^=-2x+9.5D.y^=-0.4x+4.4解析:因为变量x,y负相关,排除A,B,将x-=3,y-=3.5分别代入C,D,可知满足y^=-2x+9.5,故选C.答案:C4.下表是降耗技术改造后,生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对应数据,根据表中提供的数据,得到y关于x的线性回归方程为y^=0.7x+0.35,那么表中m的值为()x3456y2.5m44.5A.3.5B.3C.2.5D.2解析: