统计第二章2.2用样本估计总体2.2.2算法的概念课前自主预习1.会求样本的众数、中位数、平均数.2.能从频率分布直方图中估算众数、中位数、平均数.3.能用样本的数字特征估计总体的数字特征,作出合理解释和决策.1.众数、中位数、平均数定义(1)众数:一组数据中重复出现次数的数.(2)中位数:把一组数据按的顺序排列,处在位置(或中间两个数的)的数叫做这组数据的中位数.(3)平均数:如果n个数x1,x2,…,xn,那么x=1n(x1+x2+…+xn)叫做这n个数的平均数.最多从小到大中间平均数2.三种数字特征与频率分布直方图的关系3.标准差是样本数据到平均数的一种,一般用s表示,即样本数据x1,x2,…,xn的标准差为s=1n[x1-x2+x2-x2+…+xn-x2]4.方差s2=1n[(x1-x)2+(x2-x)2+…+(xn-x)2].平均距离1.一组数据的众数可以有多个吗?中位数是否也有相同的结论?[提示]一组数据的众数可能有一个,也可能有多个,但中位数有且只有一个.2.判断正误.(正确的打“√”,错误的打“×”)(1)改变一组数据中的一个数,则这些数据的平均数一定会改变.()(2)改变一组数据中的一个数,则其中位数也一定会改变.()(3)在频率分布直方图中,众数是最高矩形中点的横坐标.()[提示](1)√(2)×(3)√课堂互动探究题型一众数、中位数、平均数的简单应用【典例1】(1)某篮球队甲、乙两名运动员练习罚球,每人练习10组,每组罚球40个,命中个数的茎叶图如图,则下面结论中错误的是________(填序号).①甲的极差是29;②乙的众数是21;③甲罚球命中率比乙高;④甲的中位数是24.(2)某小区广场上有甲、乙两群市民正在进行晨练,两群市民的年龄如下(单位:岁):甲群:13,13,14,15,15,15,15,16,17,17;乙群:54,3,4,4,5,5,6,6,6,57.①甲群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映甲群市民的年龄特征?②乙群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映乙群市民的年龄特征?[解析](1)由茎叶图知,甲的最大值为37,最小值为8,所以甲的极差为29,故①正确;乙的数据中出现次数最多的是21,所以②正确,甲的命中个数集中在20,而乙的命中个数集中在10和20,所以甲罚球命中率大,故③正确;甲中间的两个数为22,24,所以甲的中位数为12(22+24)=23,故④不正确.故结论中错误的只有④.(2)①甲群市民年龄的平均数为13+13+14+15+15+15+15+16+17+1710=15(岁),中位数为15岁,众数为15岁.平均数、中位数和众数相等,因此它们都能较好地反映甲群市民的年龄特征.②乙群市民年龄的平均数为54+3+4+4+5+5+6+6+6+5710=15(岁),中位数为5.5岁,众数为6岁.由于乙群市民大多数是儿童,所以中位数和众数能较好地反映乙群市民的年龄特征,而平均数的可靠性较差.[答案](1)④(2)见解析众数、中位数、平均数的意义(1)样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息,平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.(2)当一组数据中有不少数据重复出现时,其众数往往更能反映问题,当一组数据中个别数据较大时,可用中位数描述其集中趋势.[针对训练1]某校在一次考试中,甲、乙两班学生的数学成绩统计如下:选用平均数与众数、中位数评估这两个班的成绩.[解]甲班平均数79.6分,乙班平均数80.2分,从平均分看成绩较好的是乙班;甲班众数为90分,乙班众数为70分,从众数看成绩较好的是甲班;按从高到低(或从低到高)的顺序排列之后,甲班的第25个和第26个数据都是80,所以中位数是80分,同理乙班中位数也是80分,但是甲班成绩在中位数以上(含中位数)的学生有31人,占全班学生的62%,同理乙班有27人,占全班学生的54%,所以从中位数看成绩较好的是甲班.如果记90分以上(含90分)为优秀,甲班有20人,优秀率为40%,乙班有24人,优秀率为48%,从优秀率来看成绩较好的是乙班.可见,一个班学生成绩的评估方法很多,需视要求而定.如果不考虑优秀率的话,显然以中位数去评估比较合适.题型二标准差、方差的应用【典例2】甲、乙两机床同时加工直径为100cm的零件,为检验质量,各从中抽取6件测量,数据为甲:9910098100100103乙:9910010299100100(1)分别计算两组数据的平均数及方差;(2)根据计算结果判断哪台机床加工零件的质量更稳定.[思路导引]根据平均数及方差的计算公式及意义解题.[解](1)x甲=16(99+100+98+100+100+103)=100,x乙=16(99+100+102+99+100+100)=100.s2甲=16[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=73,s2乙=16[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1.(2)两台机床所加工零件的直径的平均值相同,又s2甲s2乙,所以乙机床加工零件的质量更稳定.标准差、方差的意义(1)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小,标准差的大小不会超过极差.(2)标准差、方差的取值范围:[0,+∞).(3)标准差、方差为0时,样本各数据相等,说明数据没有波动幅度,数据没有离散性.[针对训练2]如图所示茎叶图是甲、乙两组各5名学生的数学竞赛成绩(70分~99分),若甲、乙两组的平均成绩一样,则a=________;甲、乙两组成绩中相对整齐的是________.[解析]由茎叶图知75+88+89+98+(90+a)=76+85+89+98+97,解得a=5,平均成绩均为89,甲的方差为s2甲=62.8,乙的方差s2乙=66,由于s2甲s2乙,因此甲相对整齐.[答案]5甲题型三频率分布与数字特征的综合应用【典例3】某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?[思路导引](1)由频率之和等于1可得x的值;(2)由最高矩形的横坐标中点可得众数,由频率之和等于0.5可得中位数;(3)先计算出月平均用电量为[220,240),[240,260),[260,280),[280,300]的用户的户数,再计算抽取比例,进而可得月平均用电量在[220,240)的用户中应抽取的户数.[解](1)由(0.002+0.0095+0.011+0.0125+x+0.005+0.0025)×20=1得:x=0.0075,所以直方图中x的值是0.0075.(2)月平均用电量的众数是220+2402=230.因为(0.002+0.0095+0.011)×20=0.45<0.5,所以月平均用电量的中位数在[220,240)内,设中位数为a,由(0.002+0.0095+0.011)×20+0.0125×(a-220)=0.5得:a=224,所以月平均用电量的中位数是224.(3)月平均用电量为[220,240)的用户有0.0125×20×100=25户,月平均用电量为[240,260)的用户有0.0075×20×100=15户,月平均用电量为[260,280)的用户有0.005×20×100=10户,月平均用电量为[280,300]的用户有0.0025×20×100=5户,抽取比例=1125+15+10+5=15,所以月平均用电量在[220,240)的用户中应抽取25×15=5户.用频率分布直方图估计众数、中位数、平均数(1)众数:取最高小长方形底边中点的横坐标作为众数.(2)中位数:在频率分布直方图中,把频率分布直方图划分为左右两个面积相等的部分的分界线与x轴交点的横坐标称为中位数.(3)平均数:平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.[针对训练3]为了调查某厂工人生产某种产品的能力,随机抽查了20位工人某天生产该产品的数量得到频率分布直方图如图,则:(1)这20名工人中一天生产该产品的数量在[55,75)的人数是________;(2)这20名工人中一天生产该产品的数量的中位数为________;(3)这20名工人中一天生产该产品的数量的平均数为________.[解析](1)(0.04×10+0.025×10)×20=13.(2)设中位数为x,则0.2+(x-55)×0.04=0.5,x=62.5.(3)0.2×50+0.4×60+0.25×70+0.1×80+0.05×90=64.[答案](1)13(2)62.5(3)64课堂归纳小结1.一组数据中的众数可能不止一个,中位数是唯一的,求中位数时,必须先排序.2.利用直方图求数字特征(1)众数是最高的矩形的底边的中点.(2)中位数左右两边直方图的面积应相等.(3)平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标之和.3.标准差的平方s2称为方差,有时用方差代替标准差测量样本数据的离散程度.方差与标准差的测量效果是一致的,在实际应用中一般多采用标准差.