统计第一章§6统计活动:结婚年龄的变化自主预习学习目标目标解读1.正确理解样本数据标准差的意义和作用,学会计算数据的标准差.2.能根据实际问题的需要合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准差)并作合理的解释.3.让学生经历“收集数据―整理数据―分析数据―作出推断”的统计活动,体验统计活动的全过程.重点:用样本平均数和标准差估计总体的平均数与标准差,统计活动的过程.难点:能应用相关知识解决简单的实际问题,会对收集的数据进行合理的分析.1.样本均值和样本标准差假设通过随机抽样得到的样本为x1,x2,…,xn,则样本平均数为x-=,样本标准差为s=.知识梳理x1+x2+…+xnn1n[x1-x-2+x2-x-2+…+xn-x-2]问题探究:一组数据的平均数、中位数、众数、极差、方差、频率分布直方图等,在描述样本信息时有什么特点?提示:(1)从频率分布直方图得到的众数和中位数与从数据中得到的不一样,因为频率分布直方图损失了一部分样本信息,所以不如原始数据准确.(2)众数和中位数不受极端值的影响,平均数反应样本总体的信息,容易受极端值的影响.(3)从标准差的定义可知,如果样本各数据都相等,则标准差得0,这表明数据没有波动幅度,数据没有离散性;若个体的值与平均数的差的绝对值较大,则标准差也较大,表明数据的波动幅度也很大,数据的离散程度很高,因此标准差描述了数据相对平均数的离散程度.2.估计总体的数字特征利用随机抽样得到样本,从样本数据得到的分布、平均数和标准差(通常称之为样本分布、样本平均数和样本标准差)并不是总体真正的分布、平均数和标准差,而只是总体的一个,但这个估计是合理的,特别是当样本容量时,它们确实反映了总体的信息.估计很大3.统计活动的步骤(1)明确调查的目的,确定调查的.(2)利用随机抽样抽取样本,收集.(3)数据,用表格来表示数据.(4)数据.其方法有两种:一是用统计图表来分析,二是计算数据的数字特征.(5)作出.通过分析数据作出推断.对象数据整理分析推断要点导学样本平均数、方差、标准差是一组数据的数字特征,反映样本的集中趋势与离散程度.由于平均数与每一个样本数据有关,所以任何一个样本数据的改变都会引起平均数的改变,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中极端值的影响较大,使平均数在估计总体时可靠性降低.要点一用平均数、方差分析数据因为方差与原始数据的单位不同,且平方后可能增大了偏差的程度,所以虽然方差与标准差在刻画样本数据的离散程度上是一样的,但在解决实际问题时,一般多采用标准差.甲、乙两种冬小麦试验品种连续5年的平均单位面积产量如下(单位:t/hm2):品种第一年第二年第三年第四年第五年甲9.89.910.11010.2乙9.410.310.89.79.8根据这组数据判断应该选择哪一种小麦进行推广.【思路启迪】要判断选择哪一种小麦,应从哪个角度考虑?【解】甲种冬小麦的平均单位面积产量x-甲=9.8+9.9+10.0+10+10.25=10(t/hm2),乙种冬小麦的平均单位面积产量x-乙=9.4+10.3+10.8+9.7+9.85=10(t/hm2),则甲、乙两种冬小麦平均单位面积产量相同.甲种冬小麦平均单位面积产量的方差为s2甲=15×[(9.8-10)2+(9.9-10)2+(10.1-10)2]+(10-10)2+(10.2-10)2=0.02,乙种冬小麦平均单位面积产量的方差为s2乙=15×[(9.4-10)2+(10.3-10)2+(10.8-10)2+(9.7-10)2+(9.8-10)2]=0.244,则s2甲=0.02s2乙=0.244,所以甲种小麦的平均单位面积产量比较稳定.因此选择甲种小麦进行推广.平均数和方差是样本的两个重要的数字特征,方差越大,表明数据越分散,相反地,方差越小,数据越集中稳定;平均数越大,表明数据的平均水平越高;平均数越小,表明数据的平均水平越低.对甲、乙的学习成绩进行抽样分析,各抽5门功课,得到的观测值如下:甲6080709070乙8060708075问:甲、乙谁的平均成绩最好?谁的各门功课发展较平衡?解:x甲=15(60+80+70+90+70)=74,x乙=15(80+60+70+80+75)=73,s2甲=15(142+62+42+162+42)=104,s2乙=15(72+132+32+72+22)=56,∵x甲x乙,s2甲s2乙,∴甲的平均成绩较好,乙的各门功课发展较平衡.给定样本,先求样本平均数与方差(或标准差),然后对总体作出估计.只要样本的代表性好,这样做就是合理的,也是可以接受的.在实际操作中,为了减少错误的发生,条件许可时,通常采用适当增加样本容量的方法.当然,关键还是要改进抽样方法,提高样本的代表性.要点二用样本的数字特征估计总体的数字特征市体校准备挑选一名跳高运动员参加全市中学生运动会,对跳高运动队的甲、乙两名运动员进行了8次选拔比赛.他们的成绩(单位:m)如下:甲:1.701.651.681.691.721.731.681.67乙:1.601.731.721.611.621.711.701.75(1)甲、乙两名运动员的跳高平均成绩分别是多少?(2)哪位运动员的成绩更为稳定?(3)若预测跳过1.65m就很可能获得冠军,该校为了获得冠军,可能选哪位运动员参赛?若预测跳过1.70m才能得冠军呢?【思路启迪】(1)平均成绩、成绩的稳定性分别用哪个统计量刻画?(2)选哪位运动员参赛,从哪个角度考虑?【解】(1)x-甲=1.70+1.65+1.68+1.69+1.72+1.73+1.68+1.678=1.69(m),x-乙=1.60+1.73+1.72+1.61+1.62+1.71+1.70+1.758=1.68(m).(2)s2甲=0.012+-0.042+-0.012+02+0.032+0.042+-0.012+-0.0228=0.0006,s2乙=-0.082+0.052+0.042+-0.072+-0.062+0.032+0.022+0.0728=0.00315,因为s2甲s2乙,所以甲稳定.(3)可能选甲参加,因为甲8次成绩都跳过1.65m而乙有3次低于1.65m;且x-甲x-乙,s2甲s2乙,不管是跳过1.65m,还是跳过1.70m拿冠军都选甲.样本的平均数和标准差是两个重要的数字特征.在应用平均数和标准差解决实际问题时,若平均数不同,则直接应用平均数比较优劣;若平均数相同,则要由标准差研究其与平均数的偏离程度.甲、乙两台机床同时加工直径为100mm的零件,为了检验产品的质量,从产品中各随机抽取6件进行测量,测得数据如下(单位:mm):甲:9910098100100103乙:9910010299100100(1)分别计算上述两组数据的平均数和方差;(2)根据(1)的计算结果,说明哪一台机床加工的这种零件更符合要求.解:(1)x-甲=99+100×3+98+1036=100(mm),x-乙=99×2+100×3+1026=100(mm),s2甲=16[(99-100)2+(100-100)2×3+(98-100)2+(103-100)2]=73,s2甲=16[(99-100)2×2+(100-100)2×3+(102-100)2]=1.(2)因为s2甲s2乙,说明甲机床加工的这种零件波动比较大,因此乙机床加工的这种零件更符合要求.统计过程:确定调查对象→收集数据→整理数据→分析数据→作出推断.统计的全过程是一个复杂的过程,整个过程需要确定调查对象.这一步要求所要获取数据的来源要客观、随机、具有代表性.收集好数据后,利用所学统计知识,对数据进行加工、处理,最后作出合理推断.要点三统计活动案例问题情境:1987年的春节联欢晚会上,费翔的“冬天里的一把火”点燃了通俗歌曲在我国大陆的流行,成为当时风靡一时的歌曲,也流行了很长一段时间.但是,现在的中学生对这首歌可能就不一定很认同,而更多的是喜欢目前的流行歌曲.问题:设计统计方案,估计你所在的县(市)的中学生中,喜欢通俗歌曲的学生所占的百分比.【思路启迪】(1)进行统计活动的步骤是什么?(2)采取什么方法抽取样本,来收集数据?【解】可以按照如下的步骤来进行这个统计活动:(1)确定调查的对象:该县(市)的全体中学生;明确调查的目的:是否喜欢通俗歌曲.(2)利用随机抽样抽取样本,收集数据.由于一个县(市)的中学生太多,只能进行抽样调查.由于学校之间存在差别,采用分层抽样在各个中学抽取样本.为了统计的方便,设计如下的调查表,记录下来.所在学校喜欢不喜欢一般最好你和你的同学一起完成收集数据的任务.(3)整理数据,用表格来表示数据.把所收集到的数据汇总成一个表格,如下表.喜欢不喜欢一般总计人数(4)分析数据.由于是调查喜欢通俗歌曲的学生所占的百分比,所以选用扇形统计图来表示.(5)作出推断.通过分析数据作出推断.根据扇形统计图作出推断.统计活动作出的推断的准确性,决定于抽取的样本是否具有代表性,以及样本容量的大小.一般来说,用科学的抽样方法抽取样本,并且样本容量足够大,这样的统计活动得到的结论大多准确性较高,可信度大,可以作为决策的依据.为了解高一学生的右手一拃长度情况,随机收集了60名学生右手一拃长度.推断一拃长度小于20.0cm的学生约占多少,一拃长度不小于21.0cm的学生约占多少?解:(1)确定调查对象可以运用系统抽样的方法,从本校全体高一学生中随机抽取60名学生作为调查对象.(2)收集数据将测量数据以cm为单位记录如下:18.516.016.020.017.319.015.016.017.517.519.019.019.019.516.118.018.218.520.021.517.018.519.020.015.016.017.519.519.019.019.016.019.019.521.021.021.019.020.021.518.518.022.019.019.021.018.019.017.020.020.021.021.522.021.521.522.321.523.020.0(3)整理数据从收集数据中可知,最大值为23.0,最小值为15.0,故极差为23-15=8,可将其分为8组,分组的宽度为1.从第1组[15.0,16.0)开始,将各组的频数及频率填入表中.分组频数频率[15.0,16.0)20.033[16.0,17.0)60.100[17.0,18.0)60.100[18.0,19.0)80.133[19.0,20.0)160.267[20.0,21.0)70.117[21.0,22.0)111.183[22.0,23.0)40.067作出频率分布直方图及折线图.(4)分析数据从上述图表可以看出,该样本中小于20.0cm的频率为0.033+0.100+0.100+0.133+0.267≈0.633,不小于21.0cm的频率为0.183+0.067=0.25.(5)作出推断根据“分析数据”所给出的信息,可以估计一拃长度小于20.0cm的学生约占63.3%,一拃长度不小于21.0cm的学生约占25%.易错点忽视实际情况造成判断失误选择薪水高的职业是人之常情,假如张伟和李强两人大学毕业有甲、乙两个公司可供选择,现从甲、乙两个公司分别随机抽取了50名员工的月工资的资料.统计如下:易错盘点甲公司最大值2500最小值800极差1700众数1200中位数1200平均数1320标准差433.1282乙公司最大值20000最小值700极差19300众数1000中位数1000平均数1000标准差2906.217根据以上的统计信息,若张伟想找一份工资比较稳定的工作,而李强想找一份有挑战性的工作,则他俩分别选择的公司是()A.甲、乙B.乙、甲C.都选择甲D.都选择乙【错因分析】忽视张伟与李强各自找工作的特点,或不理解标准差与极差的实际意义,都可能造成选择错误.【正确解答】