复习课(一)统计案例回归分析(1)变量间的相关关系是高考解答题命题的一个,主要考查变量间相关关系的判断,求解回归方程并进行预报估计,题型多为解答题,有时也有小题出现.(2)掌握回归分析的步骤的是解答此类问题的关键,另外要掌握将两种非线性回归模型转化为线性回归分析求解问题.[考点精要]1.一个重要方程对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其线性回归直线方程为y^=b^x+a^.其中b^=i=1nxi-xyi-yi=1nxi-x2,a^=y-b^x.2.重要参数相关指数R2是用来刻画回归模型的回归效果的,其值越大,残差平方和越小,模型的拟合效果越好.3.两种重要图形(1)散点图:散点图是进行线性回归分析的主要手段,其作用如下:一是判断两个变量是否具有线性相关关系,如果样本点呈条状分布,则可以断定两个变量有较好的线性相关关系;二是判断样本中是否存在异常.(2)残差图:残差图可以用来判断模型的拟合效果,其作用如下:一是判断模型的精度,残差点所分布的带状区域越窄,说明模型的拟合精度越高,回归方程的预报精度越高.二是确认样本点在采集中是否有人为的错误.[典例](全国卷Ⅲ)如图是我国2008年到2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:i=17yi=9.32,i=17tiyi=40.17,i=17yi-y2=0.55,7≈2.646.参考公式:相关系数r=i=1nti-tyi-yi=1nti-t2i=1nyi-y2,回归方程y^=a^+b^t中斜率和截距的最小二乘估计公式分别为:b^=i=1nti-tyi-yi=1nti-t2,a^=y-b^t.[解](1)由折线图中数据和附注中参考数据得t=4,i=17(ti-t)2=28,i=17yi-y2=0.55,i=17(ti-t)(yi-y)=i=17tiyi-ti=17yi=40.17-4×9.32=2.89,r≈2.892×2.646×0.55≈0.99.因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.(2)由y=9.327≈1.331及(1)得b^=i=17ti-tyi-yi=17ti-t2=2.8928≈0.103,a^=y-b^t≈1.331-0.103×4≈0.92.所以y关于t的回归方程为y^=0.92+0.10t.将2016年对应的t=9代入回归方程得y^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨.[类题通法]回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤是先画出散点图,并对样本点进行相关性检验,在此基础上选择适合的函数模型去拟合样本数据,从而建立较好的回归方程,并且用该方程对变量值进行分析;有时回归模型可能会有多种选择(如非线性回归模型),此时可通过残差分析或利用相关指数R2来检查模型的拟合效果,从而得到最佳模型.[题组训练]1.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()A.r2r10B.0r2r1C.r20r1D.r2=r1解析:选C画散点图,由散点图可知X与Y是正相关,则相关系数r10,U与V是负相关,相关系数r20,故选C.2.寒假中,某同学为组织一次爱心捐款,在网上给网友发了张帖子,并号召网友转发,下表是发帖后一段时间收到帖子的人数统计:天数x1234567人数y711212466115325(1)作出散点图,并猜测x与y之间的关系.(2)建立x与y的关系,预报回归模型.(3)如果此人打算在帖子传播10天时进行募捐活动,根据上述回归模型,估计可去多少人.解:(1)画出散点图如图所示.从散点图可以看出x与y不具有线性相关关系,同时可发现样本点分布在某一个函数曲线y=kemx的周围,其中k,m是参数.(2)对y=kemx两边取对数,把指数关系变成线性关系.令z=lny,则变换后的样本点分布在直线z=bx+a(a=lnk,b=m)的周围,这样就可以利用线性回归模型来建立x与y之间的非线性回归方程了,数据可以转化为:天数x1234567人数的对数z1.9462.3983.0453.1784.1904.7455.784求得回归直线方程为z^=0.620x+1.133,所以y^=e0.620x+1.133.(3)当x=10,此时y^=e0.620×10+1.133≈1530(人).所以估计可去1530人.独立性检验(1)近几年高考中对独立性检验的考查频率有所降低,题目多以解答题形式出现,一般为容易题,多与概率、统计等内容综合命题.(2)独立性检验的基本思想类似于数学中的反证法,要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值k很大,则在一定程度上说明假设不合理,根据随机变量K2的含义,可以通过概率P(K2≥6.635)≈0.01来评价该假设不合理的程度,由实际计算出的k6.635,说明该假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.[考点精要]在实际问题中常用的几个数值(1)K2≥6.635表示认为“X与Y有关系”犯错误的概率不超过0.01.(2)K2≥3.841表示认为“X与Y有关系”犯错误的概率不超过0.05.(3)K2≥2.706表示认为“X与Y有关系”犯错误的概率不超过0.1.[典例]某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食为肉类为主.)(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯.(2)根据以上数据完成如表所示的2×2列联表.主食蔬菜主食肉类总计50岁以下50岁以上总计(3)在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”?[解](1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主.(2)2×2列联表如表所示:主食蔬菜主食肉类总计50岁以下481250岁以上16218总计201030(3)随机变量K2的观测值k=30×8-128212×18×20×10=30×120×12012×18×20×10=106.635,故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”.[类题通法]独立性检验问题的求解策略(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.(2)K2统计量法:通过公式K2=nad-bc2a+bc+da+cb+d先计算观测值k,再与临界值表作比较,最后得出结论.[题组训练]1.下表是某地区的一种传染病与饮用水的调查表:得病不得病总计干净水52466518不干净水94218312总计146684830(1)能否在犯错误概率不超过0.01的前提下认为这种传染病与饮用水的卫生程度有关,请说明理由.(2)若饮用干净水得病的有5人,不得病的有50人,饮用不干净水得病的有9人,不得病的有22人.按此样本数据分析能否在犯错误概率不超过0.025的前提下认为这种疾病与饮用水有关.解:(1)把表中的数据代入公式得K2的观测值k=830×52×218-466×942146×684×518×312≈54.21.∵54.21>6.635,所以在犯错误的概率不超过0.01的前提下,认为该地区这种传染病与饮用水不干净有关.(2)依题意得2×2列联表:得病不得病总计干净水55055不干净水92231总计147286此时,K2的观测值k=86×5×22-50×9214×72×55×31≈5.785.因为5.785>5.024,所以能在犯错误概率不超过0.025的前提下认为该种疾病与饮用水不干净有关.2.2016年第三十一届奥运会在巴西首都里约热内卢举行,为调查某高校学生是否愿意提供志愿者服务,用简单随机抽样方法从该校调查了60人,结果如下:是否愿意提供志愿者服务性别愿意不愿意男生2010女生1020(1)用分层抽样的方法在愿意提供志愿者服务的学生中抽取6人,其中男生抽取多少人?(2)在(1)中抽取的6人中任选2人,求恰有一名女生的概率.(3)你能否在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关?下面的临界值表供参考:P(K2≥k0)0.150.100.050.0250.0100.0050.001k02.0722.7063.8415.0246.6357.87910.828独立性检验统计量K2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d.解:(1)由题意,男生抽取6×2020+10=4(人),女生抽取6×1020+10=2(人).(2)在(1)中抽取的6人中任选2人,恰有一名女生的概率P=C14C12C26=815.(3)K2=60×20×20-10×10230×30×30×30≈6.667,由于6.6676.635,所以能在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关.1.在两个学习基础相当的班级实行某种教学措施的实验,测试结果见下表,则实验效果与教学措施()优、良、中差总计实验班48250对比班381250总计8614100A.有关B.无关C.关系不明确D.以上都不正确解析:选A随机变量K2的观测值k=100×48×12-38×2250×50×86×14≈8.3066.635,则有99%的把握认为“实验效果与教学措施有关”.2.下列说法中正确的有:()①若r0,则x增大时,y也相应增大;②若r0,则x增大时,y也相应增大;③若r=1或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上.A.①②B.②③C.①③D.①②③解析:选C若r0,表示两个相关变量正相关,x增大时,y也相应增大,故①正确.r0,表示两个变量负相关,x增大时,y相应减小,故②错误.|r|越接近1,表示两个变量相关性越高,|r|=1表示两个变量有确定的关系(即函数关系),故③正确.3.有下列数据()x123y35.9912.01下列四个函数中,模拟效果最好的为()A.y=3×2x-1B.y=log2xC.y=3xD.y=x2解析:选A分别把x=1,2,3,代入求值,求最接近y的值.即为模拟效果最好,故选A.4.若两个变量的残差平方和是325,i=1n(yi-y)2=923,则随机误差对预报变量的贡献率约为()A.64.8%B.60%C.35.2%D.40%解析:选C由题意可知随机误差对预报变量的贡献率约为325923≈0.352.5.已知x与y之间的几组数据如下表:x123456y021334假设根据上表数据所得线性回归直线方程为y^=b^x+a^,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y′=b′x+a′,则以下结论正确的是()A.b^b′,a^a′B.b^b′,a^a′C.b^b′,a^a′D.b^b′,a^a′解析:选C过(1,0)和(2,2)的直线方程为y=2x-2,画出六点的散点图,回归直线的大概位置如图所示