模块复习提升课一统计案例模块复习提升课1.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y^=b^x+a^,其中b^=∑ni=1xiyi-nx-y-∑ni=1x2i-nx-2,a^=y--b^x-.(3)通过求Q=i=1n(yi-bxi-a)2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.2.独立性检验假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+dK2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)(其中n=a+b+c+d为样本容量).1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x-,y-)点,可能所有的样本数据点都不在直线上.3.利用回归方程分析问题时,所得的数据易误认为是准确值,而实质上是预测值(期望值).主题1线性回归分析以下是某地搜集到的新房屋的销售价格y和房屋面积x的数据:房屋面积x(m2)11511080135105销售价格y(万元)248216184292220(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中画出回归直线;(3)据(2)的结果估计当房屋面积为150m2时的销售价格.【解】(1)数据对应的散点图如图所示:(2)x-=15∑5i=1xi=109,∑5i=1(xi-x-)2=1570,y-=15∑5i=1yi=232,∑5i=1(xi-x-)(yi-y-)=3080.设所求回归直线方程为y^=b^x+a^,则b^=∑5i=1(xi-x-)(yi-y-)∑5i=1(xi-x-)2=30801570≈1.962,a^=y--b^x-=232-109×1.962=18.142.故所求线性回归方程为y^=1.962x+18.142.回归直线如图所示.(3)据(2),当x=150时,销售价格的估计值为y^=1.962×150+18.142=312.442(万元).求线性回归方程的基本步骤[提醒]只有在散点图大致呈直线时,求出的线性回归方程才有实际意义,否则求出的回归方程毫无意义.某市一水电站的年发电量y(单位:亿千瓦时)与该市的年降雨量x(单位:毫米)有如下统计数据:2013年2014年2015年2016年2017年降雨量x(毫米)15001400190016002100发电量y(亿千瓦时)7.47.09.27.910.0(1)若从统计的5年中任取2年,求这2年的发电量都高于7.5亿千瓦时的概率;(2)由表中数据求得线性回归方程为y^=0.004x+a^.该水电站计划2019年的发电量不低于8.6亿千瓦时,现由气象部门获悉2019年的降雨量约为1800毫米.请你预测2019年能否完成发电任务?解:(1)从统计的5年发电量中任取2年,基本事件为{7.4,7.0},{7.4,9.2},{7.4,7.9},{7.4,10.0},{7.0,9.2},{7.0,7.9},{7.0,10.0},{9.2,7.9},{9.2,10.0},{7.9,10.0},共10个;其中这2年的发电量都高于7.5亿千瓦时的基本事件为{9.2,7.9},{9.2,10.0},{7.9,10.0},共3个.所以这2年的发电量都高于7.5亿千瓦时的概率为P=310.(2)因为x-=1500+1400+1900+1600+21005=85005=1700.y-=7.4+7.0+9.2+7.9+10.05=41.55=8.3,又直线y^=0.004x+a^过点(x-,y-),所以8.3=0.004×1700+a^,解得a^=1.5,所以y^=0.004x+1.5.当x=1800时,y^=0.004×1800+1.5=8.7>8.6,所以预测该水电站2019年能完成发电任务.主题2非线性回归分析某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x-y-w-i=18(xi-x-)2i=18(wi-w-)2i=18(xi-x-)(yi-y-)i=18(wi-w-)(yi-y-)46.65636.8289.81.61469108.8表中wi=xi,w-=18i=18wi.(1)根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为β^=∑ni=1(ui-u-)(vi-v-)∑ni=1(ui-u-)2,α^=v--β^u-.【解】(1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程.由于d^=∑8i=1(wi-w-)(yi-y-)∑8i=1(wi-w-)2=108.81.6=68,c^=y--d^w-=563-68×6.8=100.6,所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.非线性回归问题的求解策略(1)画散点图:首先画出已知数据的散点图.(2)拟合数据:把散点图与学过的各种函数(幂函数、指数函数、对数函数等)图象进行比较,挑选一种跟这些散点拟合得最好的函数.(3)变量代换:采用适当的变量置换,把问题化为线性回归分析问题,使之得到解决.在试验中得到变量y与x的数据如下:x0.06670.03880.03330.02730.0225y39.442.941.043.149.2由经验知,y与1x之间具有线性相关关系,试求y与x之间的回归曲线方程;当x0=0.038时,预测y0的值.解:令u=1x,由题目所给数据可得下表所示的数据:序号uiyiu2iuiyi115.039.4225591225.842.9665.641106.82330.041.09001230436.643.11339.561577.46544.449.21971.362184.48合计151.8215.65101.566689.76计算得b^=0.29,a^=y--b^x-=34.32,y^=34.32+0.29u,所求回归曲线方程为y^=34.32+0.29x,当x0=0.038时,y^0=34.32+0.290.038≈41.95.主题3独立性检验思想的应用为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2)表1:注射药物A后皮肤疱疹面积的频数分布表疱疹面积[60,65)[65,70)[70,75)[75,80]频数30402010表2:注射药物B后皮肤疱疹面积的频数分布表疱疹面积[60,65)[65,70)[70,75)[75,80)[80,85]频数1025203015完成下面2×2列联表,判断能否在犯错误的概率不超过0.001的前提下,认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.表3:疱疹面积小于70mm2疱疹面积不小于70mm2总计注射药物Aa=b=注射药物Bc=d=总计n=【解】列出2×2列联表疱疹面积小于70mm2疱疹面积不小于70mm2总计注射药物Aa=70b=30100注射药物Bc=35d=65100总计10595n=200K2的观测值为k=200×(70×65-35×30)2100×100×105×95≈24.56,由于k>10.828,所以能在犯错误的概率不超过0.001的前提下,认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.解决一般的独立性检验问题的步骤(1)通过列联表确定a,b,c,d,n的值,根据实际问题需要的可信程度确定临界值k0.(2)利用K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)求出K2的观测值k.(3)如果k≥k0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过α;否则就认为在犯错误的概率不超过α的前提下不能推断“两个分类变量有关系”.(2018·南海中学、普宁二中、中山一中、潮阳一中、仲元中学第一次联考)某淘宝店经过对“十一”七天假期的消费情况进行统计,发现在金额不超过1000元的消费者中男女之比约为1∶4,该店按此比例抽取了100名消费者进行进一步分析,得到下表.女性消费情况:消费金额/元(0,200)[200,400)[400,600)[600,800)[800,1000]人数51015473男性消费情况:消费金额/元(0,200)[200,400)[400,600)[600,800)[800,1000]人数231032若消费金额不低于600元的消费者称为“网购达人”、低于600元的消费者称为“非网购达人”.(1)分别计算女性和男性消费的平均数,并判断平均消费水平高的一方“网购达人”出手是否更阔绰?(2)根据以上统计数据填写如下2×2列联表,并回答能否在犯错误的概率不超过0.005的前提下认为“是否为‘网购达人’与性别有关”.女性男性总计“网购达人”“非网购达人”总计附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.P(K2≥k0)0.100.050.0250.0100.005k02.7063.8415.0246.6357.879解:(1)女性消费的平均数为180(100×5+300×10+500×15+700×47+900×3)=582.5(元).男性消费的平均数为120(100×2+300×3+500×10+700×3+900×2)=500(元).虽然女性消费者的平均消费水平较高,但“女网购达人”的平均消费水平(为712元)低于“男网购达人”的平均消费水平(为780)元,所以平均消费水平高的一方“网购达人”出手不一定更阔绰.(2)2×2列联表如下表:女性男性总计“网购达人”50555“非网购达人”301545总计8020100K2的观测值为k=100×(50×15-30×5)255×45×80×20≈9.091,因为9.0917.879,所以在犯错误的概率不超过0.005的前提下可以认为“是否为‘网购达人’与性别有关”.1.如果某地的财政收