2.2用样本估计总体2.2.1用样本的频率分布估计总体分布第二章统计课前自主预习一、用样本估计总体的两种情况通过随机抽样抽取到具有代表性的样本,对样本数据进行列表,制图、计算分析,从数据中找到它所包含的信息和规律,然后对总体作出估计.估计一般分为两种:估计总体的分布;(如平均数、标准差等)估计总体的数字特征.□01样本的频率分布□02样本的数字特征1.频率分布直方图在频率分布直方图中,纵轴表示,数据落在各小组内的频率用来表示,各小长方形的面积的总和等于.□03频率/组距□04各小组频数样本容量□0512.频率分布折线图和总体密度曲线(1)频率分布折线图连接频率分布直方图中各小长方形,就得到了频率分布折线图.□06上端的中点(2)总体密度曲线随着样本容量的增加,作图时所分的增加,组距减小,相应的频率折线图就会越来越接近于一条,统计中称之为总体密度曲线,它反映了□07组数□08光滑曲线□09总体在各个范围内取值的百分比.二、茎叶图1.茎叶图的适用范围当样本数据较少时,用茎叶图表示数据的效果较好.2.茎叶图的优点它不但可以,而且可以,给数据的和都能带来方便.□10保留所有信息□11随时记录□12记录□13表示3.茎叶图的缺点当时,枝叶就会很长,茎叶图就显得不太方便.□14样本数据较多1.判一判(正确的打“√”,错误的打“×”)(1)频率分布直方图的纵轴表示频率.()(2)频率分布折线图是总体密度曲线的特殊情形.()(3)茎叶图不能表示一位数.()√××2.做一做(1)下列关于茎叶图的叙述正确的是()A.将数组的数按位数进行比较,将数大小基本不变或变化不大的位作为一个主杆(茎),将变化大的位的数作为分枝(叶),列在主杆的后面B.茎叶图只可以分析单组数据,不能对两组数据进行比较C.茎叶图更不能表示三位数以上的数据D.画图时茎要按照从小到大的顺序从下向上列出,共茎的叶可随意同行列出解析由茎叶图的概念易知选A.(2)将容量为100的样本数据分为8个组,如下表:组号12345678频数1013x141513129则第3组的频率为()A.0.03B.0.07C.0.14D.0.21解析由题意得x=100-(10+13+14+15+13+12+9)=14,所以第3组的频率为14100=0.14.(3)(教材改编P70例题)如图是甲、乙两名篮球运动员某赛季一些场次得分的茎叶图,据图可知()A.甲运动员的成绩好于乙运动员B.乙运动员的成绩好于甲运动员C.甲、乙两名运动员的成绩没有明显的差异D.甲运动员的最低得分为0分解析由茎叶图可以看出甲的成绩都集中在30~50分,且高分较多.而乙的成绩只有一个高分52分,其他成绩比较低,故甲运动员的成绩好于乙运动员的成绩.(4)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有______株树木的底部周长小于100cm.24解析60×(0.015+0.025)×10=24.课堂互动探究探究1列频率分布表、画频率分布直方图及折线图例1为了了解某中学高二女生的身高情况,该校对高二女生的身高(单位:cm)进行了一次随机抽样测量,所得数据整理后列出了频率分布表如下:分组频数频率[150.5,154.5)10.02[154.5,158.5)40.08[158.5,162.5)200.40[162.5,166.5)150.30[166.5,170.5)80.16[170.5,174.5]mn合计MN(1)表中m,n,M,N所表示的数分别是多少?(2)绘制频率分布折线图;(3)估计该校女生身高小于162.5cm的百分比.[解](1)由于频率和为1,所以N=1,所以n=1-(0.02+0.08+0.40+0.30+0.16)=0.04,所以M=10.02=50,m=50-(1+4+20+15+8)=2,故有m=2,n=0.04,M=50,N=1.00.(2)频率分布折线图如图中的折线:(3)该校女生身高小于162.5cm的百分比为(0.02+0.08+0.4)×100%=50%.拓展提升绘制频率分布直方图的注意事项(1)计算极差,需要找出这组数的最大值和最小值,当数据很多时,可选一个数当参照.(2)将一批数据分组,目的是要描述数据分布规律,要根据数据多少来确定分组数目,一般来说,数据越多,分组越多.(3)将数据分组,决定分点时,一般使分点比数据多一位小数,并且把第一组的起点稍微减小一点.(4)列频率分布表时,可通过逐一判断各个数据落在哪个小组内,以“正”字确定各个小组内数据的个数.(5)画频率分布直方图时,纵坐标表示频率与组距的比值,一定不能标成频率.【跟踪训练1】美国历届总统中,就任时年龄最小的是罗斯福,他于1901年就任,当时年仅42岁;就任时年龄最大的是特朗普,他于2016年就任,当时70岁.下面按时间顺序(从1789年的华盛顿到2016年的特朗普,共45任)给出了历届美国总统就任时的年龄:57,61,57,57,58,57,61,54,68,51,49,64,50,48,65,52,56,46,54,49,51,47,55,55,54,42,51,56,55,51,54,51,60,62,43,55,56,61,52,69,64,46,54,47,70.(1)将数据分为7组,列出频率分布表,并画出相应的频率分布直方图和频率分布折线图;(2)用自己的语言描述一下历届美国总统就任时年龄的分布情况.解(1)以4为组距,列频率分布表如下:分组频数频率[42,46)20.0444[46,50)70.1555[50,54)80.1778[54,58)160.3556[58,62)50.1111[62,66)40.0889[66,70]30.0667合计451.0000画出相应的频率分布直方图和频率分布折线图,如图所示.(2)从频率分布表中可以看出,将近60%的美国总统就任时的年龄在50岁至60岁之间,45岁及45岁以下和65岁以上就任的总统所占的比例相对较小.探究2频率分布直方图的应用例2为了迎接某市作为全国文明城市的复查,爱卫会随机抽取了60位路人进行问卷调查,调查项目是自己对该市各方面卫生情况的满意度(假设被问卷的路人回答是客观的),以分数表示问卷结果,并统计他们的问卷分数,把其中不低于50分的分成五段:[50,60),[60,70),…,[90,100]后画出如图所示的部分频率分布直方图,观察图形信息,回答下列问题:(1)求出问卷调查分数低于50分的被问卷人数;(2)估计全市市民满意度在60分及以上的百分比.[解](1)因为各组的频率和等于1,故低于50分的频率为f=1-(0.015×2+0.030+0.025+0.005)×10=0.1,故低于50分的人数为60×0.1=6.(2)依题意,60分及以上的频率和为(0.015+0.030+0.025+0.005)×10=0.75,所以抽样满意度在60分及以上的百分比为75%.于是,可以估计全市市民满意度在60分及以上的百分比为75%.拓展提升频率分布直方图的应用频率分布指的是一个样本数据在各个小范围内所占比例的大小,一般用频率分布直方图反映样本的频率分布,其中:(1)频率分布直方图中纵轴表示频率组距;(2)频率分布直方图中,各个小长方形的面积等于频率,各个小长方形的面积之和为1;(3)长方形的高的比也就是频率之比.【跟踪训练2】从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图所示),由图中数据可知a=________.若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140,150]内的学生中选取的人数应为________.0.0303解析因为频率分布直方图中各小长方形的面积之和为1,所以10×(0.005+0.035+a+0.020+0.010)=1,解得a=0.030.由图可知身高在[120,150]内的学生人数为100×10×(0.030+0.020+0.010)=60,其中身高在[140,150]内的学生人数为10,所以从身高在[140,150]内的学生中选取的人数为1860×10=3.探究3茎叶图的绘制及应用例3某中学甲、乙两名同学最近几次的数学考试成绩情况如下:甲的得分:95,81,75,89,71,65,76,88,94,110,107;乙的得分:83,86,93,99,88,103,98,114,98,79,101.画出两人数学成绩的茎叶图,并根据茎叶图对两人的成绩进行比较.[解]甲、乙两人数学成绩的茎叶图如图所示.从这个茎叶图上可以看出,乙同学的得分情况是大致对称的,中位数是98分;甲同学的得分情况除一个特殊得分外,也大致对称,但分数分布相对于乙来说,趋向于低分阶段.因此乙同学总体得分情况比甲同学好.拓展提升(1)画茎叶图时,用中间的数表示数据的十位和百位数,两边的数分别表示两组数据的个位数.要先确定中间的数取数据的哪几位,填写数据时边读边填.比较数据时从数据分布的对称性、中位数、稳定性等几方面来比较.(2)绘制茎叶图的关键是分清茎和叶,一般地说数据是两位数时,十位数字为“茎”,个位数字为“叶”;如果是小数的,通常把整数部分作为“茎”,小数部分作为“叶”,解题时要根据数据的特点合理选择茎和叶.【跟踪训练3】为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:服用A药的20位患者日平均增加的睡眠时间:0.61.22.71.52.81.82.22.33.23.52.52.61.22.71.52.93.03.12.32.4服用B药的20位患者日平均增加的睡眠时间:3.21.71.90.80.92.41.22.61.31.41.60.51.80.62.11.12.51.22.70.5根据两组数据完成如图所示的茎叶图,从茎叶图看,哪种药的疗效更好?解由观测结果可绘制茎叶图如图所示.从以上茎叶图可以看出,A药疗效的试验结果有710的叶集中在茎2,3上,而B药疗效的试验结果有710的叶集中在茎0,1上,由此可看出A药的疗效更好.1.频率分布直方图的绘制与特征(1)频率分布直方图的绘制①将数据分组时,组数应力求合适,使数据的分布规律能较清楚地呈现出来.一般样本容量越大,所分组数越多,为方便起见,组距的选择力求“取整”,当样本容量不超过120时,按照数据的多少,通常分成5~12组.若极差组距为整数,则极差组距=组数,若极差组距不为整数,则极差组距+1=组数.(注:[x]表示不大于x的最大整数)②频率分布直方图中,横轴表示样本数据,纵轴表示频率/组距,在横轴上以数据分组的两个端点所组成的线段为底,在纵轴上以频率/组距为高作小长方形.(2)频率分布直方图的特征①频率分布表中的数字和频率分布直方图的形状都与分组数(组距)有关.频率分布直方图的外观和坐标系的单位长度有关.②频率分布表和频率分布直方图由样本决定,因此它们会随着样本的改变而改变.③频率分布直方图直观、形象地反映了样本的分布规律.但是从频率分布直方图中得不出原始的数据内容.把数据绘制成频率分布直方图后,原有的具体数据信息就被抹掉了.2.频率分布折线图和总体密度曲线的特征频率分布折线图反映了数据的变化趋势.总体密度曲线能够精确地反映总体在各个范围内取值的百分比,能给我们提供更加精细的信息.3.茎叶图的制作及特征(1)茎叶图的制作茎是指中间的一列数,叶就是从茎的旁边生长出来的数,茎叶图通常用来记录两位数的数据,其可用来分析单组数据,也可对两组数据进行比较.(2)茎叶图的特征茎叶图能够保留原始数据,并且展示数据的分布情况,便于记录与读取,但当样本数据较多或数据位数较多时,茎叶图就显得不太方便.随堂达标自测1.下列关于样本