9.3统计案例公司员工的肥胖情况调查分析第九章统计考点学习目标核心素养众数、中位数、平均数、标准差、方差会求样本的众数、中位数、平均数、标准差、方差数学抽象总体集中趋势的估计会用众数、中位数、平均数估计总体集中趋势数据分析总体离散程度的估计会用标准差、方差估计总体离散程度数据分析第九章统计预习教材P203-P213的内容,思考以下问题:1.平均数、中位数、众数各有什么应用?有什么优缺点?2.平均数、中位数与频率分布直方图有什么关系?3.方差和标准差有什么区别和联系?其作用是什么?问题导学1.平均数和中位数的特点(1)样本平均数与每一个样本数据有关,样本中的任何一个数据的改变都会引起平均数的改变.(2)中位数只利用了样本数据中间位置的一个或两个值,并未利用其他数据,所以不是任何一个样本数据的改变都会引起中位数的改变.(3)与中位数相比较,平均数反映出样本数据中的更多信息,对样本中的极端值更加敏感.2.中位数、平均数与频率分布直方图的关系一般来说,对一个单峰的频率分布直方图来说,如果直方图的形状是对称的(图(1)),那么平均数和中位数应该大体上差不多;如果直方图在右边“拖尾”(图(2)),那么__________大于__________;如果直方图在左边“拖尾”(图(3)),那么__________小于__________.也就是说,和中位数相比,平均数总是在“__________”那边.平均数中位数平均数中位数长尾巴3.众数的特点众数只利用了______________的那个值的信息.众数只能告诉我们它比其他值出现的次数多,但并未告诉我们它比别的数值多的程度.因此,众数只能传递数据中的信息的很少一部分,对极端值也不敏感.出现次数最多■名师点拨一般地,对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;而对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用众数.4.总体方差与总体标准差如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为,则称S2=_____________为总体方差,S=_______为总体标准差.与总体均值类似,总体方差也可以写成加权的形式.如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为S2=______________.1N∑Ni=1(Yi-Y-)2S21N∑ki=1fi(Yi-Y-)2.5.样本方差与样本标准差如果一个样本中个体的变量值分别为y1,y2,…yn,样本平均数为y-,则称s2=1n∑ni=1(yi-y-)2为样本方差,s=s2为样本标准差.■名师点拨(1)若x1,x2,x3,…,xn的平均数为x-,方差为s2那么ax1+b,ax2+b,ax3+b,…,axn+b的平均数为x-′=ax-+b;方差s′2=a2s2.(2)标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.显然,在刻画数据的分散程度上,方差和标准差是一样的.但在解决实际问题中,一般多采用标准差.判断(正确的打“√”,错误的打“×”)(1)数据5,4,4,3,5,2的众数为4.()(2)数据2,3,4,5的标准差是数据4,6,8,10的标准差的一半.()(3)方差与标准差具有相同的单位.()(4)如果一组数中每个数减去同一个非零常数,则这组数的平均数改变,方差不变.()解析:(1)中的众数应为4和5;(2)正确;(3)二者单位不一致;(4)正确,平均数也应减去该常数,方差不变.×√×√为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,…,xn的平均数B.x1,x2,…,xn的标准差C.x1,x2,…,xn的最大值D.x1,x2,…,xn的中位数解析:选B.标准差能反映一组数据的稳定程度.故选B.下列说法中正确的个数为()①数据的极差越小,样本数据分布越集中、稳定;②数据的平均数越小,样本数据分布越集中、稳定;③数据的标准差越小,样本数据分布越集中、稳定;④数据的方差越小,样本数据分布越集中、稳定.A.1B.2C.3D.4解析:选C.由数据的极差、标准差、方差的定义可知,它们都可以影响样本数据的分布和稳定性,而数据的平均数则与之无关,故②不正确,①③④正确.已知五个数据3,5,7,4,6,则该样本的标准差为________.解析:因为x-=15×(3+5+7+4+6)=5,所以s=15×[(3-5)2+…+(6-5)2]=2.答案:2众数、中位数、平均数的计算及应用某工厂人员及月工资构成如下:人员经理管理人员高级技工工人学徒合计月工资(元)22000250022002000100029700人数16510123合计22000150001100020000100069000(1)指出这个表格中的众数、中位数、平均数;(2)这个表格中,平均数能客观地反映该工厂的月工资水平吗?为什么?【解】(1)由表格可知,众数为2000元.把23个数据按从小到大(或从大到小)的顺序排列,排在中间的数应是第12个数,其值为2200,故中位数为2200元.平均数为(22000+15000+11000+20000+1000)÷23=69000÷23=3000(元).(2)虽然平均数为3000元/月,但由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平.(1)如果样本平均数大于样本中位数,说明数据中存在较大的极端值.在实际应用中,如果同时知道样本中位数和样本平均数,可以使我们了解样本数据中的极端数据信息,帮助我们作出决策.(2)众数、中位数、平均数三者比较,平均数更能体现每个数据的特征,它是各个数据的重心.(2019·四川省宜宾市教学质量监测)某校高二年级学生身体素质考核成绩(单位:分)的频率分布直方图如图所示:(1)求频率分布直方图中a的值;(2)根据频率分布直方图估计成绩的众数和平均数.解:(1)因为10(2a+3a+6a+7a+2a)=1,所以a=0.005.(2)由图可知众数的估计值为75,平均数的估计值x-=55×0.1+65×0.15+75×0.35+85×0.3+95×0.1=76.5.利用频率分布直方图求众数、中位数、平均数从高三抽出50名学生参加数学竞赛,由成绩得到如下的频率分布直方图.由于一些数据丢失,试利用频率分布直方图求:(1)这50名学生成绩的众数与中位数;(2)这50名学生的平均成绩.【解】(1)由众数的概念可知,众数是出现次数最多的数.在直方图中高度最高的小长方形的底边中点的横坐标即为所求,所以众数应为75.由于中位数是所有数据中的中间值,故在频率分布直方图中体现的是中位数的左右两边频数应相等,即频率也相等,从而就是小矩形的面积和相等.因此在频率分布直方图中将所有小矩形的面积一分为二的垂直于横轴的直线与横轴交点的横坐标所对应的成绩即为所求.因为0.004×10+0.006×10+0.02×10=0.04+0.06+0.2=0.3,所以前三个小矩形面积的和为0.3.而第四个小矩形面积为0.03×10=0.3,0.3+0.3>0.5,所以中位数应位于第四个小矩形内.设其底边为x,高为0.03,所以令0.03x=0.2,得x≈6.7,故中位数应约为70+6.7=76.7.(2)样本平均值应是频率分布直方图的“重心”,即所有数据的平均值,即每个小矩形底边的中点的横坐标乘以每个小矩形的面积求和即可.所以平均成绩为45×(0.004×10)+55×(0.006×10)+65×(0.02×10)+75×(0.03×10)+85×(0.024×10)+95×(0.016×10)=76.2.频率分布直方图的数字特征(1)众数:众数一般用频率分布表中频率最高的一组的组中值来显示,即在样本数据的频率分布直方图中,最高矩形的底边中点的横坐标;(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等;(3)平均数:平均数在频率分布表中等于组中值与对应频率之积的和.为了调查某厂工人生产某种产品的能力,随机抽查了20位工人某天生产该产品的数量得到频率分布直方图如图,则:(1)这20名工人中一天生产该产品数量在[55,75)的人数是______;(2)这20名工人中一天生产该产品数量的中位数为______;(3)这20名工人中一天生产该产品数量的平均数为______;解析:(1)在[55,75)的人数为(0.040×10+0.025×10)×20=13.(2)设中位数为x,则0.2+(x-55)×0.04=0.5,x=62.5.(3)0.2×50+0.4×60+0.25×70+0.1×80+0.05×90=64.答案:(1)13(2)62.5(3)64标准差、方差的计算及应用甲、乙两机床同时加工直径为100cm的零件,为检验质量,从中抽取6件测量数据为:甲:9910098100100103乙:9910010299100100(1)分别计算两组数据的平均数及方差;(2)根据计算说明哪台机床加工零件的质量更稳定.【解】(1)x-甲=16×(99+100+98+100+100+103)=100,x-乙=16×(99+100+102+99+100+100)=100,s2甲=16×[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=73,s2乙=16×[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1.(2)由(1)知x-甲=x-乙,比较它们的方差,因为s2甲>s2乙,故乙机床加工零件的质量更稳定.用样本的标准差、方差估计总体的方法(1)用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.实际应用中,当所得数据的平均数不相等时,需先分析平均水平,再计算标准差(方差)分析稳定情况.(2)标准差、方差的取值范围是[0,+∞).(3)因为标准差与原始数据的单位相同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的离散程度上是一样的,但在解决实际问题时,一般多采用标准差.1.样本数为9的四组数据,它们的平均数都是5,条形图如图所示,则标准差最大的一组是()A.第一组B.第二组C.第三组D.第四组解析:选D.法一:第一组中,样本数据都为5,标准差为0;第二组中,样本数据为4,4,4,5,5,5,6,6,6,标准差为63;第三组中,样本数据为3,3,4,4,5,6,6,7,7,标准差为253;第四组中,样本数据为2,2,2,2,5,8,8,8,8,标准差为22,故标准差最大的一组是第四组.法二:从四个图形可以直观看出第一组数据没有波动性,第二、三组数据的波动性都比较小,而第四组数据的波动性相对较大,利用标准差的意义可以直观得到答案.2.(2019·高考全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.y的分组[-0.20,0)[0,0.20)[0.20,0.40)[0.40,0.60)[0.60,0.80)企业数22453147(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:74≈8.602.解:(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例