学案4用样本估计总体与变量间的相关关系考点1考点2考点3填填知学情课内考点突破规律探究考纲解读考向预测考点4考点5考点6考纲解读1.用样本估计总体(1)了解分布的意义和作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.(2)理解样本数据标准差的意义和作用,会计算数据标准差(不要求记忆公式).(3)能从样本数据中提取基本的数字特征(如平均数、标准差),并给出合理的解释.(4)会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.(5)会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.2.变量的相关性(1)会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.(2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).返回目录2012年高考,试题难度仍以中低档题为主.对总体分布的估计、线性回归很可能在选择、填空题中考查.对于频率分布直方图,求线性回归方程以及回归分析、独立性检验与假设检验等,由于计算量大,因此考解答题的可能性不大,但也不排除给出数据、公式,以选择题形式考查.考向预测返回目录1.用样本的频率分布估计总体分布(1)频率分布表与频率分布直方图频率分布表和频率分布直方图,是从各个小组数据在样本容量中所占的角度,来表示数据分布规律,它可以使我们看到整个样本数据的频率分布情况.比例大小返回目录(2)频率分布折线图连接频率分布直方图中各小长方形,就得到频率分布折线图.(3)总体密度曲线总体密度曲线反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息.(4)茎叶图2.用样本的数字特征估计总体的数字特征(1)众数、中位数、平均数上端的中点返回目录众数:在样本数据中,频率分布最大值所对应的样本数据;中位数:样本数据中,累积频率为0.5时所对应的样本数据值(累积频率:样本数据小于某一数值的频率叫做该数值点的累积频率);平均数:样本数据的算术平均数,即x=.(2)标准差的计算公式:s=.3.从散点图上看,点散布在就称这种相关关系为正相关,如果点散布在)xx(xn1n21+…++从左下角到右上角的区域内从左上角到右下角的区域内就称这种相关关系为负相关.[]2n2221x)-(xx)-(xx)-(xn1+…++返回目录4.如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有,这条直线叫做回归直线,回归直线方程常记作.5.对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),用最小二乘法,求回归直线系数a,b的公式为b==,a=.其中,x=,y=.y-bxxn1in1i∑=yn1in1i∑=线性相关关系x)-(xy)-x)(y-(x2in1iiin1i∑∑==nx-xyxn-yx22in1iiin1i∑∑==bx+a=yˆ返回目录通过求Q=的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法.(y1-bx1-a)2+(y2-bx2-a)2+…+(yn-bxn-a)2返回目录[2010年高考安徽卷]某市2010年4月1日—4月30日对空气污染指数的监测数据如下(主要污染物为可吸入颗粒物):61,76,70,56,81,91,92,91,75,81,88,67,101,103,95,91,77,86,81,83,82,82,64,79,86,85,75,71,49,45.考点1绘制频率分布直方图返回目录【分析】按要求列表、绘图,用样本的分布估计总体的分布.(1)完成频率分布表;(2)作出频率分布直方图;(3)根据国家标准,污染指数在0~50之间时,空气质量为优;在51~100之间时,为良;在101~150之间时,为轻微污染;在151~200之间时,为轻度污染.请你依据所给数据和上述标准,对该市的空气质量给出一个简短评价.返回目录分组频数频率[41,51)2[51,61)1[61,71)4[71,81)6[81,91)10[91,101)5[101,111)2【解析】(1)频率分布表如下:3023013043023063010302返回目录(2)频率分布直方图如图.返回目录(3)答对下述两条中的一条即可:①该市一个月中空气污染指数有2天处于优的水平,占当月天数的;有26天处于良的水平,占当月天数的;处于优或良的天数为28,占当月天数的.说明该市空气质量基本良好.②轻微污染有2天,占当月天数的;污染指数在80以上的接近轻微污染的天数15,加上处于轻微污染的天数17,占当月天数的,超过50%;说明该市空气质量有待进一步改善.151151315141513017返回目录(1)列频率分布表时要注意区分频数、频率的意义.(2)画频率分布直方图时要注意纵、横坐标代表的意义及单位.(3)通过本题可以掌握总体分布估计的各种常见步骤和方法.(4)解决总体分布估计问题的一般步骤如下:①先确定分组的组数;②分别计算各组的频数及频率(频率=);③画出频率分布直方图,并作出相应的估计.频数总数返回目录对某电子元件进行寿命追踪调查,情况如下:(1)列出频率分布表;(2)画出频率分布直方图;(3)估计电子元件寿命在[100,400)以内的概率;(4)估计电子元件寿命在400h以上的概率.寿命(h)[100,200)[200,300)[300,400)[400,500)[500,600)个数(个)2030804030返回目录寿命(h)频数频率[100,200)200.10[200,300)300.15[300,400)800.40[400,500)400.20[500,600)300.15合计2001.00【解析】(1)样本频率分布表如下:返回目录(2)频率分布直方图如图(3)由频率分布表可以看出,寿命在[100,400)内的电子元件出现的频率为0.65,所以我们估计电子元件寿命在[100,400)内的概率为0.65.(4)由频率分布表可知,寿命在400h以上的电子元件出现的频率为0.20+0.15=0.35,故我们估计电子元件寿命在400h以上的概率为0.35.返回目录考点2频率分布直方图的应用[2010年高考陕西卷]为了解学生身高情况,某校以10%的比例对全校700名学生按性别进行分层抽样调查,测得身高情况的统计图如图:(1)估计该校男生的人数;(2)估计该校学生身高在170~185cm之间的概率;(3)从样本中身高在180~190cm之间的男生中任选2人,求至少有1人身高在185~190cm之间的概率.返回目录【解析】(1)样本中男生人数为40,由分层抽样比例为10%估计全校男生人数为400.(2)由统计图知,样本中身高在170~185cm之间的学生有14+13+4+3+1=35(人),样本容量为70,所以样本中学生身高在170~185cm之间的频率f==0.5.故由f估计该校学生身高在170~185cm之间的概率p=0.5.【分析】在频率直方图中,频率等于矩形的面积,每一小组的频率等于这小组的频数与样本容量的商.7035返回目录(3)样本中身高在180~185cm之间的男生有4人,设其编号为①②③④,样本中身高在185~190cm之间的男生有2人,设其编号为⑤⑥.从上述6人中任选2人的树状图为:故从样本中身高在180~190cm之间的男生中任选2人的所有可能结果数为15,至少有1人身高在185~190cm之间的可能结果数为9.因此,所求概率p2=.53159返回目录解决该类问题时应正确理解图表中各个量的意义,识图掌握信息是解决该类问题的关键.频率分布指的是一个样本数据在各个小范围内所占比例的大小,一般用频率分布直方图反映样本的频率分布.其中,①频率分布直方图中纵轴表示,频率=;②频率分布直方图中,各小长方形的面积之和为1,因此在频率分布直方图中,组距是一个固定值,所以长方形高的比也就是频率之比;③频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观;④众数为最高矩形的中点;⑤中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.频率组距频数样本容量返回目录[2010年高考湖北卷]为了了解一个小水库中养殖的鱼的有关情况,从这个水库中多个不同位置捕捞出100条鱼,称得每条鱼的质量(单位:km),并将所得数据分组,画出频率分布直方图(如图所示).返回目录(1)在下面表格中填写相应的频率;分组频率[1.00,1.05)[1.05,1.10)[1.10,1.15)[1.15,1.20)[1.20,1.25)[1.25,1.30)返回目录(2)估计数据落在[1.15,1.30)中的概率为多少;(3)将上面捕捞的100条鱼分别作一记号后再放回水库.几天后再从水库的多处不同位置捕捞出120条鱼,其中带有记号的鱼有6条.请根据这一情况来估计该水库中鱼的总条数.【解析】(1)根据频率分布直方图可知,频率=组距×(频率/组距),故可得下表:返回目录(2)0.30+0.15+0.02=0.47,所以数据落在[1.15,1.30)中的概率约为0.47.(3)=2000,所以水库中鱼的总条数约为2000.分组频率[1.00,1.05)0.05[1.05,1.10)0.20[1.10,1.15)0.28[1.15,1.20)0.30[1.20,1.25)0.15[1.25,1.30)0.026100120返回目录甲、乙两台机床同时加工直径为10mm的零件,为了检验产品的质量,从产品中各随机抽取6件进行测量,测得数据如下(单位:mm)甲:99,100,98,100,100,103乙:99,100,102,99,100,100(1)分别计算上述两组数据的平均数和方差;(2)根据(1)的计算结果,说明哪一台机床加工的这种零件更符合要求.考点3用样本的数字特征估计总体的数字特征返回目录【解析】(1)x甲==100,x乙==100,=[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=.=[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1.(2)因为,说明甲机床加工零件波动比较大,因此乙机床加工零件更符合要求.61031001009810099+++++61001009910210099+++++2s甲61372s乙612s甲2s乙【分析】已知一组数据x1,x2,…,xn,其平均数为x,方差为s2=,标准差为.x)-x(n12i1∑ni=【分析】已知一组数据x1,x2,…,xn,其平均数为x,方差为s2=,标准差为.x)-x(n12i1∑ni=返回目录两个机床加工零件的平均数相等,平均数描述了数据的平均水平,要说明哪一台机床加工的零件更符合要求,可再用方差来判断.平均数和标准差超过了规定界限时,说明这批产品质量与生产要求有较大偏差.返回目录甲、乙两种冬小麦试验品种连续x年的平均单位面积产量如下:试根据这组数据,估计哪一种小麦品种产量较稳定.品种第1年第2年第3年第4年第5年甲9.89.910.11010.2乙9.410.310.89.79.8返回目录甲品种的样本平均数为10,样本方差为[(9.8-10)2+(9.9-10)2+(10.1-10)2+(10-10)2+(10.2-10)2]÷5=0.02;乙品种的样本平均数也是10,样本方差为[(9.4-10)2+(10.3-10)2+(10.8-10)2+(9.7-10)2+(9.8-10)2]÷5=0.24>0.02.所以,由这组数据可以认为甲种小麦的产量比乙种小麦的产量较稳定.返回目录某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30min抽取一包产品,称其重量,分别记录抽查数据如下:甲:102,101,99,98,103,98,99;乙: