第二章统计2.2.2用样本的数字特征估计总体的数字特征考点学习目标核心素养众数、中位数、平均数、标准差、方差会求样本的众数、中位数、平均数、标准差、方差数学抽象估计总体数字特征理解用样本的数字特征来估计总体数字特征的方法数据分析实际问题会应用相关知识解决简单的统计实际问题数据分析、数学建模、数学运算第二章统计问题导学(1)什么是众数、中位数、平均数、方差、标准差?(2)如何从频率分布直方图中估计众数、中位数、平均数?(3)方差与标准差的联系与区别是什么?1.众数、中位数、平均数的概念(1)众数:在一组数据中,出现________最多的数据(即频率分布最大值所对应的样本数据)叫这组数据的众数.若有两个或两个以上的数据出现得最多,且出现的次数一样,则这些数据都叫众数;若一组数据中每个数据出现的次数一样多,则没有众数.次数(2)中位数:将一组数据按大小依次排列,把处在________位置的一个数据(或中间两个数据的平均数)叫这组数据的中位数.(3)平均数:指样本数据的算术平均数.即x-=_________________.2.标准差与方差(1)标准差:标准差是样本数据到平均数的一种平均距离,一般用s表示,计算时通常用公式s=__________________________________________________.显然,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.最中间1n(x1+x2+…+xn)1n[(x1-x-)2+(x2-x-)2+…+(xn-x-)2](2)方差:标准差s的平方s2,即s2=____________________________________叫做这组数据的方差,同标准差一样,方差也是用来测量样本数据的分散程度的特征数.3.平均数、方差的性质若x1,x2,x3,…,xn的平均数为x-,方差为s2那么ax1+b,ax2+b,ax3+b,…,axn+b的平均数为x-′=ax-+b;方差s′2=a2s2.众数、中位数、平均数、方差(标准差)特征数的含义:它们都是描述一组数据集中趋势的量.1n[(x1-x-)2+(x2-x-)2+…+(xn-x-)2]■名师点拨(1)众数:体现了样本数据最大集中点,当一组数据中部分数据多次重复出现时,众数往往更能反映问题.(2)中位数:它与样本数据的排列位置有关,不受样本中某些极端值的影响,它可能在所给的样本数据中,也可能不在其中.(3)平均数:它与样本中每一个数据都有关系,它反映数据的平均值,但极易受极端值的影响.(4)方差(标准差):描述一组数据围绕平均数波动程度的大小,方差(标准差)越大(小),则样本数据的离散程度越大(小).判断正误(对的打“√”,错的打“×”)(1)数据5,4,4,3,5,2的众数为4.()(2)数据2,3,4,5的标准差是数据4,6,8,10的标准差的一半.()(3)方差与标准差具有相同的单位.()(4)如果一组数中每个数减去同一个非零常数,则这组数的平均数改变,方差不变.()解析:(1)中的众数应为4和5;(2)正确;(3)二者单位不一致;(4)正确,平均数也应减去该常数,方差不变.答案:(1)×(2)√(3)×(4)√(2017·高考全国卷Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,…,xn的平均数B.x1,x2,…,xn的标准差C.x1,x2,…,xn的最大值D.x1,x2,…,xn的中位数解析:选B.标准差能反映一组数据的稳定程度.故选B.下列说法中正确的个数为()①数据的极差越小,样本数据分布越集中、稳定;②数据的平均数越小,样本数据分布越集中、稳定;③数据的标准差越小,样本数据分布越集中、稳定;④数据的方差越小,样本数据分布越集中、稳定.A.1B.2C.3D.4解析:选C.由数据的极差、标准差、方差的定义可知,它们都可以影响样本数据的分布和稳定性,而数据的平均数则与之无关,故②不正确,①③④正确.已知五个数据3,5,7,4,6,则该样本的标准差为________.解析:因为x-=15×(3+5+7+4+6)=5,所以s=15×[(3-5)2+…+(6-5)2]=2.答案:2某工厂人员及月工资构成如下:人员经理管理人员高级技工工人学徒合计月工资(元)22000250022002000100029700人数16510123合计22000150001100020000100069000(1)指出这个表格中的众数、中位数、平均数;(2)这个表格中,平均数能客观地反映该工厂的月工资水平吗?为什么?众数、中位数、平均数的计算及应用【解】(1)由表格可知,众数为2000元.把23个数据按从小到大(或从大到小)的顺序排列,排在中间的数应是第12个数,其值为2200,故中位数为2200元.平均数为(22000+15000+11000+20000+1000)÷23=69000÷23=3000(元).(2)虽然平均数为3000元/月,但由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平.(1)如果样本平均数大于样本中位数,说明数据中存在较大的极端值.在实际应用中,如果同时知道样本中位数和样本平均数,可以使我们了解样本数据中的极端数据信息,帮助我们作出决策.(2)众数、中位数、平均数三者比较,平均数更能体现每个数据的特征,它是各个数据的重心.(2019·四川省宜宾市教学质量监测)某校高二年级学生身体素质考核成绩(单位:分)的频率分布直方图如图所示:(1)求频率分布直方图中a的值;(2)根据频率分布直方图估计成绩的众数和平均数.解:(1)因为10(2a+3a+6a+7a+2a)=1,所以a=0.005.(2)由图可知众数的估计值为75,平均数的估计值x-=55×0.1+65×0.15+75×0.35+85×0.3+95×0.1=76.5.甲、乙两机床同时加工直径为100cm的零件,为检验质量,从中抽取6件测量数据为:甲:9910098100100103乙:9910010299100100(1)分别计算两组数据的平均数及方差;(2)根据计算说明哪台机床加工零件的质量更稳定.标准差、方差的计算及应用【解】(1)x-甲=16×(99+100+98+100+100+103)=100,x-乙=16×(99+100+102+99+100+100)=100,s2甲=16×[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=73,s2乙=16×[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1.(2)由(1)知x-甲=x-乙,比较它们的方差,因为s2甲>s2乙,故乙机床加工零件的质量更稳定.用样本的标准差、方差估计总体的方法(1)用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.实际应用中,当所得数据的平均数不相等时,需先分析平均水平,再计算标准差(方差)分析稳定情况.(2)标准差、方差的取值范围是[0,+∞).(3)因为标准差与原始数据的单位相同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的离散程度上是一样的,但在解决实际问题时,一般多采用标准差.从甲、乙两种玉米苗中各抽10株,分别测它们的株高如下:(单位:cm)甲:25414037221419392142乙:27164427441640401640问:(1)哪种玉米苗长得高?(2)哪种玉米苗长得齐?解:(1)x-甲=110×(25+41+40+37+22+14+19+39+21+42)=110×300=30(cm),x-乙=110×(27+16+44+27+44+16+40+40+16+40)=110×310=31(cm).所以x-甲<x-乙.即乙种玉米苗长得高.(2)s2甲=110×[(25-30)2+(41-30)2+(40-30)2+(37-30)2+(22-30)2+(14-30)2+(19-30)2+(39-30)2+(21-30)2+(42-30)2]=110×(25+121+100+49+64+256+121+81+81+144)=110×1042=104.2(cm2),s2乙=110×[2×(27-31)2+3×(16-31)2+2×(44-31)2+3×(40-31)2]=110×1288=128.8(cm2).所以s2甲<s2乙.即甲种玉米苗长得齐.从高三抽出50名学生参加数学竞赛,由成绩得到如下的频率分布直方图.统计图中的数字特征由于一些数据丢失,试利用频率分布直方图求:(1)这50名学生成绩的众数与中位数;(2)这50名学生的平均成绩.【解】(1)由众数的概念可知,众数是出现次数最多的数.在直方图中高度最高的小长方形的底边中点的横坐标即为所求,所以众数应为75.由于中位数是所有数据中的中间值,故在频率分布直方图中体现的是中位数的左右两边频数应相等,即频率也相等,从而就是小矩形的面积和相等.因此在频率分布直方图中将所有小矩形的面积一分为二的垂直于横轴的直线与横轴交点的横坐标所对应的成绩即为所求.因为0.004×10+0.006×10+0.02×10=0.04+0.06+0.2=0.3,所以前三个小矩形面积的和为0.3.而第四个小矩形面积为0.03×10=0.3,0.3+0.3>0.5,所以中位数应位于第四个小矩形内.设其底边为x,高为0.03,所以令0.03x=0.2,得x≈6.7,故中位数应约为70+6.7=76.7.(2)样本平均值应是频率分布直方图的“重心”,即所有数据的平均值,即每个小矩形底边的中点的横坐标乘以每个小矩形的面积求和即可.所以平均成绩为45×(0.004×10)+55×(0.006×10)+65×(0.02×10)+75×(0.03×10)+85×(0.024×10)+95×(0.016×10)=76.2.(1)频率分布直方图的数字特征①众数:众数一般用频率分布表中频率最高的一小组的组中值来显示,即在样本数据的频率分布直方图中,最高矩形的底边中点的横坐标;②中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等;③平均数:平均数在频率分布表中等于组中值与对应频率之积的和.(2)频率分布折线图、条形图中的数字特征这两种图中的数字特征都与图的横纵坐标的统计意义有关.①可根据图中的折点(或条形图中每条的横纵坐标)得出相应的样本数据,然后按公式定义得出特征数据;②也可根据图形的趋势大体估计出样本的数据特征.1.样本数为9的四组数据,它们的平均数都是5,条形图如图所示,则标准差最大的一组是()A.第一组B.第二组C.第三组D.第四组解析:选D.法一:第一组中,样本数据都为5,标准差为0;第二组中,样本数据为4,4,4,5,5,5,6,6,6,标准差为63;第三组中,样本数据为3,3,4,4,5,6,6,7,7,标准差为253;第四组中,样本数据为2,2,2,2,5,8,8,8,8,标准差为22,故标准差最大的一组是第四组.法二:从四个图形可以直观看出第一组数据没有波动性,第二、三组数据的波动性都比较小,而第四组数据的波动性相对较大,利用标准差的意义可以直观得到答案.2.甲、乙两人参加某体育项目训练,近期的五次测试成绩得分情况如图所示.(1)分别求出两人得分的平均数与方差;(2)根据图和(1)中计算结果,对两人的训练成绩作出评价.解:(1)由图可得甲、乙两人五次测试的成绩分别为甲:10,13,12,14,16;乙:13,14,12,12,14.x-甲=10+13+12+14+165=13,x-乙=13+14+12+12+145=13,s2甲=15×[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13