2020.4.28一众数、中位数、平均数的概念中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.平均数:一组数据的算术平均数,即)(121nxxxnX问题1:众数、中位数、平均数这三个数一般都会来自于同一个总体或样本,它们能表明总体或样本的什么性质?平均数:反映所有数据的平均水平众数:反映的往往是局部较集中的数据信息中位数:是位置型数,反映处于中间部位的数据信息1、求下列各组数据的众数(1)、1,2,3,3,3,5,5,8,8,8,9,9众数是:3和8(2)、1,2,3,3,3,5,5,8,8,9,9众数是:32、求下列各组数据的中位数(1)、1,2,3,3,3,4,6,8,8,8,9,9(2)1,2,3,3,3,4,8,8,8,9,9中位数是:5中位数是:43、在一次中学生田径运动会上,参加男子跳高的17名运动员的成绩如下表所示:成绩(米)1.501.601.651.701.751.801.851.90人数23234111分别求这些运动员成绩的众数,中位数与平均数。解:在17个数据中,1.75出现了4次,出现的次数最多,即这组数据的众数是1.75.上面表里的17个数据可看成是按从小到大的顺序排列的,其中第9个数据1.70是最中间的一个数据,即这组数据的中位数是1.70;答:17名运动员成绩的众数、中位数、平均数依次是1.75(米)、1.70(米)、1.69(米)。这组数据的平均数是1(1.5021.603...1.901)1.6917x米频率组距0.10.20.30.40.5O0.511.522.533.544.5月平均用水量(t)众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。如何在频率分布直方图中估计众数可将众数看作直方图中面积最大长方形的“中心”00.10.20.30.40.50.6月均用水量/t0.52.521.5143.534.5频率组距0.040.080.150.220.250.140.060.040.02前四个小矩形的面积和=0.49后四个小矩形的面积和=0.262.02如何在频率分布直方图中估计中位数分组[0,0.5)[0.5,1)[1,1.5)[1.5,2)[2,2.5)[2.5,3)[3,3.5)[3.5,4)[4,4.5]合计频率0.040.080.150.220.250.140.060.040.02149.022.015.008.004.0x02.202.02在样本中,中位数的左右各有50%的样本数,所以反映在频率分布直方图中,中位数左右两边的直方图的面积相等,各为0.5。,中位数)可将中位数看作整个直方图面积的“中心”=0.02思考讨论以下问题:1、2.02这个中位数的估计值,与样本的中位数值2.0不一样,你能解释其中原因吗?答:2.02这个中位数的估计值,与样本的中位数值2.0不一样,这是因为样本数据的频率分布直方图,只是直观地表明分布的形状,但是从直方图本身得不出原始的数据内容,直方图已经损失一些样本信息。所以由频率分布直方图得到的中位数估计值往往与样本的实际中位数值不一致.如何在频率分布直方图中估计平均数=2.02)()()(1001)(1001100991254110021xxxxxxxxxx=2.02平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和。可将平均数看作整个直方图面积的“重心”1009912541100210081004xxx25.4402.0215.008.025.0004.0规律方法根据样本频率分布直方图,可以分别估计总体的众数、中位数和平均数.(1)众数:最高矩形下端中点的横坐标;(2)中位数:直方图面积平分线与横轴交点的横坐标.(3)平均数:每个小矩形的面积与小矩形底边中点的横坐标的乘积之和.思考讨论以下问题:2、样本中位数不受少数极端值的影响,这在某些情况下是一个优点,但它对极端值的不敏感有时也会成为缺点。你能举例说明吗?答:优点:对极端数据不敏感的方法能够有效地预防错误数据的影响。对极端值不敏感有利的例子:例如当样本数据质量比较差,即存在一些错误数据(如数据录入错误、测量错误等)时,用抗极端数据强的中位数表示数据的中心值更准确。缺点:(1)出现错误的数据也不知道;(2)对极端值不敏感有弊的例子:某人具有初级计算机专业技术水平,想找一份收入好的工作。这时如果采用各个公司计算机专业技术人员收入的中位数作为选择工作的参考指标就会冒这样的风险:很可能所选择公司的初级计算机专业技术水平人员的收入很低,其原因是中位数对极小的数据不敏感。这里更好的方法是同时用平均工资和中位数作为参考指标,选择平均工资较高且中位数较大的公司就业.1.下面是高一(18)班十位同学的数学测试成绩:82,91,73,84,98,99,101,118,98,110,则该组数据的中位数是()A.98B.99C.98.5D.97.5答案A解析将这组数据按从小到大排列为73,82,84,91,98,98,99,101,110,118,则最中间的两个数为98,98,故中位数是12(98+98)=98.例某中学举行电脑知识竞赛,现将高一参赛学生的成绩进行整理后分成五组绘制成如图所示的频率分布直方图,已知图中从左到右的第一、二、三、四、五小组的频率分别是0.30、0.40、0.15、0.10、0.05.求:(1)高一参赛学生的成绩的众数、中位数.(2)高一参赛学生的平均成绩.解(1)由图可知众数为65,又∵第一个小矩形的面积为0.3,∴设中位数为60+x,则0.3+x×0.04=0.5,得x=5,∴中位数为60+5=65.(2)依题意,平均成绩为55×0.3+65×0.4+75×0.15+85×0.1+95×0.05=67,∴平均成绩约为67.规律方法1.利用频率分布直方图估计数字特征:(1)众数是最高的矩形的底边的中点.(2)中位数左右两侧直方图的面积相等.(3)平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标之和.2.利用直方图求众数、中位数、平均数均为估计值,与实际数据可能不一致.课堂练习:1、假设你是一名交通部门的工作人员。你打算向市长报告国家对本市26条公路项目投资的平均资金数额,其中一条新公路的建设投资为2200万元人民币,另外25个项目的投资在20万与100万.中位数是25万,平均数是100万,众数是20万元。你会选择哪一种数字特征来表示每一个项目的国家投资?你选择这种数字特征的缺点是什么?选择平均数更好:因为,此时的众数20万比中位数25万还小,所以众数代表的是局部的数。中位数代表的虽然是大多数公路投资的数额,但由于其不受极端值的影响,不能代表全体,因而此时成了它的缺点。选择平均数较好,能比较好的代表整体水平,但缺点是仍不能显示出具体的数字特征知识探究(二):标准差样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息.平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实际状况,因此,我们需要一个统计数字刻画样本数据的离散程度.思考1:在一次射击选拔赛中,甲、乙两名运动员各射击10次,每次命中的环数如下:甲:78795491074乙:9578768677甲、乙两人本次射击的平均成绩分别为多少环?77乙甲,xx思考2:甲、乙两人射击的平均成绩相等,观察两人成绩的频率分布条形图,你能说明其水平差异在那里吗?环数频率0.40.30.20.145678910O(甲)环数频率0.40.30.20.145678910O(乙)甲的成绩比较分散,极差较大,乙的成绩相对集中,比较稳定.思考3:对于样本数据x1,x2,…,xn,设想通过各数据到其平均数的平均距离来反映样本数据的分散程度,那么这个平均距离如何计算?12||||||nxxxxxxn-+-++-L思考4:反映样本数据的分散程度的大小,最常用的统计量是标准差,一般用s表示.假设样本数据x1,x2,…,xn的平均数为,则标准差的计算公式是:22212()()()nxxxxxxsn-+-++-=L那么标准差的取值范围是什么?标准差为0的样本数据有何特点?s≥0,标准差为0的样本数据都相等.思考5:对于一个容量为2的样本:x1,x2(x1x2),则,在数轴上,这两个统计数据有什么几何意义?由此说明标准差的大小对数据的离散程度有何影响?122xxx+=212xxs-=标准差越大离散程度越大,数据较分散;标准差越小离散程度越小,数据较集中在平均数周围.1.2.返回目录数学必修3【例题1】据报道,某公司的33名职工的月工资(单位:元)如表所示.(1)求该公司职工月工资的平均数、中位数、众数;职务董事长副董事长董事总经理经理管理员职员人数11215320工资5500500035003000250020001500返回目录数学必修3(2)假设副董事长的工资从5000元提升到20000元,董事长的工资从5500元提升到30000元,那么新的平均数、中位数、众数又是什么?(精确到元)(3)你认为哪个统计量更能反映这个公司员工的工资水平?结合此问题谈一谈你的看法.思维导引:由平均数定义→计算平均数→将已知数据从小到大排列→得中位数、众数→结论返回目录数学必修3解析(1)平均数是-x=133×(5500+5000+3500×2+3000+2500×5+2000×3+1500×20)≈2091(元),中位数是1500元,众数是1500元.(2)平均数是-x=133×(30000+20000+3500×2+3000+2500×5+2000×3+1500×20)≈3288(元),中位数是1500元,众数是1500元.返回目录数学必修3(3)在这个问题中,中位数或众数均能反映该公司员工的工资水平.因为公司中少数人的工资额与大多数人的工资额差别较大,这样导致平均数与中位数偏差较大,所以平均数不能反映这个公司员工的工资水平.返回目录数学必修3【例题2】为了检测某批棉花的质量,质检人员随机测量6根棉花纤维的长度(棉花纤维的长度是棉花质量的重要指标),其平均值为25mm.Xn(n=1,2,3,4,5,6)表示第n根棉花纤维的长度,且前5根棉花纤维的长度如表所示.编号12345Xn2026222022返回目录数学必修3则X6=__________________,这6根棉花纤维的长度的标准差s=____________.思维导引:根据求平均数的公式计算出X6,利用已知的平均数和方差公式求出方差,再开方即可得出标准差.返回目录数学必修3解析由题意得20+26+22+20+22+X66=25,解得X6=40.又s2=16×[(20-25)2+(26-25)2+(22-25)2+(20-25)2+(22-25)2+(40-25)2]=49,所以这6根棉花纤维的长度的标准差s=7.答案407作业:状元桥2.2.2变式+随堂演练+课时作业