-1-2.2.2用样本的数字特征估计总体的数字特征学习目标核心素养1.会求样本的众数、中位数、平均数、标准差、方差.(重点)2.理解用样本的数字特征来估计总体数字特征的方法.(重点)3.会应用相关知识解决实际统计问题.(难点)1.通过数字特征的计算,提升数学运算素养.2.借助实际统计问题的应用,培养数学建模素养.1.众数、中位数、平均数的概念(1)众数:一组数据中出现次数最多的数.(2)中位数:一组数据按大小顺序排列后,处于中间位置的数.如果个数是偶数,则取中间两个数据的平均数.(3)平均数:一组数据的和除以数据个数所得到的数.2.三种数字特征的比较名称优点缺点众数①体现了样本数据的最大集中点;②容易计算①它只能表达样本数据中很少的一部分信息;②无法客观地反映总体的特征中位数①不受少数几个极端数据(即排序靠前或靠后的数据)的影响;②容易计算,便于利用中间数据的信息对极端值不敏感平均数代表性较好,是反映数据集中趋势的量.一般情况下,可以反映出更多的关于样本数据全体的信息任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大3.标准差、方差的概念与计算公式(1)标准差:标准差是样本数据到平均数的一种平均距离,一般用s表示,s=1n[(x1-x)2+(x2-x)2+…+(xn-x)2].(2)方差:标准差的平方s2叫做方差.-2-s2=1n[(x1-x)2+(x2-x)2+…+(xn-x)2].其中,xn是样本数据,n是样本容量,x是样本平均数.思考:在统计中,计算方差的目的是什么?[提示]方差与标准差描述了一组数据围绕平均数波动的大小,其值越大,数据离散程度越大,当其值为0时,说明样本各数据相等,没有离散性.1.为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,…,xn的平均数B.x1,x2,…,xn的标准差C.x1,x2,…,xn的最大值D.x1,x2,…,xn的中位数B[标准差能反映一组数据的稳定程度.]2.数据101,98,102,100,99的标准差为()A.2B.0C.1D.2A[x=15(101+98+102+100+99)=100.∴s=15[(101-100)2+(98-100)2+(102-100)2+(100-100)2+(99-100)2]=2.3.10名工人某天生产同一零件,生产的件数是15,17,14,10,15,17,17,16,14,12,设其平均数为a,中位数为b,众数为c,则有()A.abcB.bcaC.cabD.cbaD[将数据从小到大排列为10,12,14,14,15,15,16,17,17,17,则中位数b=15,众数c=17.平均数a=110(10+12+14×2+15×2+16+17×3)=14.7.显然abc.]4.某高校有甲、乙两个数学建模兴趣班.其中甲班有40人,乙班有50人.现分析两个班的一次考试成绩,算得甲班的平均成绩是90分,乙班的平均成绩是81分,则该校数学建模兴趣班的平均成绩是________分.85[由题意知,该校数学建模兴趣班的平均成绩是40×90+50×8140+50=85(分).]-3-众数、中位数、平均数【例1】某公司的33名职工的月工资(以元为单位)如下表:职务董事长副董事长董事总经理经理管理员职员人数11215320工资5500500035003000250020001500(1)求该公司职工月工资的平均数、中位数、众数;(2)假设副董事长的工资从5000元提升到20000元,董事长的工资从5500元提升到30000元,那么新的平均数、中位数、众数又是多少?(精确到元)(3)你认为哪个统计量更能反映这个公司员工的工资水平?结合此问题谈一谈你的看法.[解](1)平均数是:x=1500+4000+3500+2000×2+1500+1000×5+500×3+0×2033≈1500+591=2091(元),中位数是1500元,众数是1500元.(2)新的平均数是x′=1500+28500+18500+2000×2+1500+1000×5+500×3+0×2033≈1500+1788=3288(元),新的中位数是1500元,新的众数是1500元.(3)在这个问题中,中位数或众数均能反映该公司员工的工资水平,因为公司中少数人的工资额与大多数人的工资额差别较大,这样导致平均数与中位数偏差较大,所以平均数不能反映这个公司员工的工资水平.对众数、中位数、平均数的几点说明(1)如果样本平均数大于样本中位数,说明数据中存在较大的极端值.在实际应用中,样本中位数和样本平均数可以使我们了解样本数据中的极端数据信息,帮助我们作出决策.(2)众数、中位数、平均数三者比较,平均数更能体现每个数据的特征,它是各个数据的重心.-4-1.某小区广场上有甲、乙两群市民正在进行晨练,两群市民的年龄如下(单位:岁):甲群:13,13,14,15,15,15,15,16,17,17;乙群:54,3,4,4,5,6,6,6,6,56.(1)甲群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映甲群市民的年龄特征?(2)乙群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映乙群市民的年龄特征?[解](1)甲群市民年龄的平均数为13+13+14+15+15+15+15+16+17+1710=15(岁),中位数为15岁,众数为15岁.平均数、中位数和众数相等,因此它们都能较好地反映甲群市民的年龄特征.(2)乙群市民年龄的平均数为54+3+4+4+5+6+6+6+6+5610=15(岁),中位数为6岁,众数为6岁.由于乙群市民大多数是儿童,所以中位数和众数能较好地反映乙群市民的年龄特征,而平均数的可靠性较差.方差与标准差【例2】甲、乙两机床同时加工直径为100cm的零件,为检验质量,从中抽取6件测量数据为:甲:9910098100100103乙:9910010299100100(1)分别计算两组数据的平均数及方差;(2)根据计算说明哪台机床加工零件的质量更稳定.思路点拨:(1)直接利用求x与s2的公式求解.(2)先比较x的大小,再分析s2的大小并下结论.[解](1)x甲=16[99+100+98+100+100+103]=100,x乙=16[99+100+102+99+100+100]=100,s2甲=16[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=73,-5-s2乙=16[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1.(2)由(1)知x甲=x乙,比较它们的方差,∵s2甲>s2乙,故乙机床加工零件的质量更稳定.用样本的标准差、方差估计总体的方法(1)用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.实际应用中,当所得数据的平均数不相等时,需先分析平均水平,再计算标准差(方差)分析稳定情况.(2)标准差、方差的取值范围是[0,+∞).(3)因为标准差与原始数据的单位相同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的离散程度上是一样的,但在解决实际问题时,一般多采用标准差.2.甲、乙、丙、丁四名射手在选拔赛中所得的平均环数x及其方差s2如下表所示,则选送决赛的最佳人选应是()甲乙丙丁x7887s26.36.378.7A.甲B.乙C.丙D.丁B[∵x乙=x丙x甲=x丁,且s2甲=s2乙s2丙s2丁,故应选择乙进入决赛.]频率分布直方图与数字特征的综合应用[探究问题]1.观察频率分布直方图,能获得样本数据的原始信息吗?[提示]把样本数据做成频率分布直方图后就失去了原始数据.2.给出样本数据的频率分布直方图,可以求出数据的众数,中位数和平均数吗?[提示]可以近似求出.【例3】统计局就某地居民的月收入(元)情况调查了10000人,并根据所得数据画出了样本频率分布直方图(如图),每个分组包括左端点,不包括右端点,如第一组表示月收入在[500,1000)内.-6-(1)为了分析居民的收入与年龄、职业等方面的关系,必须按月收入再从这10000人中用分层抽样的方法抽出100人作进一步分析,则月收入在[2000,2500)内的应抽取多少人?(2)根据频率分布直方图估计样本数据的中位数;(3)根据频率分布直方图估计样本数据的平均数.思路点拨:结合频率分布直方图求解.[解](1)因为(0.0002+0.0004+0.0003+0.0001)×500=0.5,所以a=0.51000=0.0005,月收入在[2000,2500)内的频率为0.25,所以100人中月收入在[2000,2500)内的人数为0.25×100=25.(2)因为0.0002×500=0.1,0.0004×500=0.2.0.0005×500=0.25.0.1+0.2+0.25=0.550.5,所以样本数据的中位数是1500+0.5-(0.1+0.2)0.0005=1900(元).(3)样本平均数为(750×0.0002+1250×0.0004+1750×0.0005+2250×0.0005+2750×0.0003+3250×0.0001)×500=1900(元).1.(变条件)某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示.(1)求这次测试数学成绩的中位数.(2)求这次测试数学成绩的平均分.[解](1)由图知,设中位数为x,由于前三个矩形面积之和为0.4,第四个矩形面积为0.3,0.3+0.40.5,因此中位数位于第四个矩形内,得0.1=0.03(x-70),所以x≈73.3.-7-(2)由图知这次数学成绩的平均分为:40+502×0.005×10+50+602×0.015×10+60+702×0.02×10+70+802×0.03×10+80+902×0.025×10+90+1002×0.005×10=72.2.(变结论)本例条件不变.(1)若再从这10000人中用分层抽样的方法抽出若干人,分析居民收入与幸福指数的关系,已知月收入在[2000,2500)内的抽取了40人.则月收入在[3000,3500]内的该抽多少人?(2)根据频率分布直方图估计样本数据的众数.[解](1)因为(0.0002+0.0004+0.0003+0.0001)×500=0.5.所以a=0.51000=0.0005.故月收入在[2000,2500)内的频率为0.0005×500=0.25.∴新抽样本容量为400.25=160(人).∴月收入在[3000,3500]内的该抽:160×(0.0001×500)=8(人).(2)由图知众数为2000元.用频率分布直方图估计众数、中位数、平均数(1)众数:取最高小长方形底边中点的横坐标作为众数.(2)中位数:在频率分布直方图中,把频率分布直方图划分为左右两个面积相等的部分的分界线与x轴交点的横坐标称为中位数.(3)平均数:平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.1.一组数据中的众数可能不止一个,中位数是唯一的,求中位数时,必须先排序.2.利用频率分布直方图求数字特征(1)众数是最高的矩形的底边的中点.(2)中位数左右两边直方图的面积应相等.(3)平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标之和.3.标准差的平方s2称为方差,有时用方差代替标准差测量样本数据的离散程度.方差与标准差的测量效果是一致的,在实际应用中一般多采用标准差.-8-1.判断下列结论的正误(正确的打“√”,错误的打“×”)(1)在一组样本数据中,众数一定是唯一的.()(2)中位数是样本数据中最中间的那个数.()(3)方差