第五章统计与概率5.1统计5.1.4用样本估计总体学习目标核心素养1.会用样本的数字特征估计总体的数字特征.(重点)2.能用样本的分布来估计总体的分布.(难点)3.会应用相关知识解决实际统计问题.(难点)1.通过样本数字特征的学习,体现了数据分析的核心素养.2.借助用样本的数字特征解决实际问题,提升数学运算的核心素养.情境导学探新知中国体育彩票的种类有:超级大乐透、排列3、排列5、七星彩、地方体彩、足球彩票、竞彩、顶呱刮等等.体育彩票市场曾创造了无数的神话,相当一部分中奖者在谈及自己的中奖经历时都表示他们能够中奖,是经过长期研究体育彩票的走势及中奖号码分布特点后(即作出频率分布表),精心选号的结果.所以说彩民之所以能中大奖是因为他们“推测”的方法是科学的,“推测”的结果是比较可靠的.那么他们是如何“推测”的呢?问题1:“推测”彩票是估计哪些方面?[提示]他们把中奖号码绘制成图、表等进行观察,分析中奖号码的分布、走势,以此去推测、估计下次的中奖号码.其主要是利用中奖号码的分布去估计下期中奖号码的分布.问题2:他们是如何处理中奖数据的?[提示]绘成图、表进行分析.1.用样本估计总体(1)前提样本的容量恰当,抽样方法合理.(2)必要性①在容许一定误差存在的前提下,可以用样本估计总体,这样能节省人力和物力.②有时候总体的数字特征不可能获得,只能用样本估计总体.(3)误差估计一般是_______的.但是,大数定律可以保证,当样本的容量越来越大时,估计的误差很小的可能性将越来越大.2.用样本的数字特征来估计总体的数字特征(1)一般来说,在估计总体的数字特征时,只需直接算出样本对应的_________即可.有误差数字特征(2)样本是用分层抽样得到的,由每一层的数字特征估计总体的数字特征.以分两层抽样的情况为例.条件假设第一层有m个数,分别为x1,x2,…,xm,平均数为x,方差为s2;第二层有n个数,分别为y1,y2,…,yn,平均数为y,方差为t2.结论如果记样本均值为a,样本方差为b2,则a=_________,b2=1m+n(ms2+nt2)+mnm+n(x-y)2mx+nym+n3.用样本的分布来估计总体的分布如果总体在每一个分组的频率记为π1,π2,…,πn,样本在每一组对应的频率记为p1,p2,…,pn,一般来说,1n∑ni=1(πi-pi)2不等于零.当样本的容量_________时,上式很小的可能性将越来越大.越来越大1.思考辨析(正确的画“√”,错误的画“×”)(1)样本的数字特征有随机性.()(2)只要样本抽取合理,样本平均数与总体平均数相等.()(3)一般地,样本容量越大,用样本去估计总体就越准确.()(1)√(2)×(3)√[(1)在抽样过程中,抽取的样本是具有随机性的,因此样本的数字特征也有随机性.(2)一般地,样本平均数与总体的平均数的大小关系是不确定的.(3)大数定律保证,样本容量越大,用样本去估计总体就越准确.]B[标准差和方差都能反映一组数据的稳定程度.]2.为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,…,xn的平均数B.x1,x2,…,xn的标准差C.x1,x2,…,xn的最大值D.x1,x2,…,xn的中位数3.某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图,已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为()A.588B.480C.450D.120B[∵少于60分的学生人数为600×(0.05+0.15)=120,∴不少于60分的学生人数为600-120=480.]4.从甲、乙两个班中各随机选出15名同学进行随堂测验,成绩的茎叶图如图所示,则甲、乙两组的最高成绩分别是________,________,从图中看,________班的平均成绩较高.9692乙[由茎叶图可知,甲班的最高分是96,乙班的最高分是92.甲班的成绩集中在60~80之间,乙班成绩集中在70~90之间,故乙班的平均成绩较高.]合作探究释疑难用样本的数字特征估计总体的数字特征【例1】甲、乙两人在相同条件下各打靶10次,每次打靶的成绩情况如图所示:(1)填写下表:平均数方差中位数命中9环及以上甲71.21乙5.43(2)请从四个不同的角度对这次测试进行分析:①从平均数和方差结合分析偏离程度;②从平均数和中位数结合分析谁的成绩好些;③从平均数和命中9环以上的次数相结合看谁的成绩好些;④从折线图上两人射击命中环数及走势分析谁更有潜力.[解](1)乙的射靶环数依次为2,4,6,8,7,7,8,9,9,10,所以x乙=110(2+4+6+8+7+7+8+9+9+10)=7;乙的射靶环数从小到大排列为2,4,6,7,7,8,8,9,9,10,所以中位数是7+82=7.5;甲的射靶环数从小到大排列为5,6,6,7,7,7,7,8,8,9,所以中位数为7.于是填充后的表格如下表所示:平均数方差中位数命中9环及以上甲71.271乙75.47.53(2)①甲、乙的平均数相同,均为7,但s2甲<s2乙,说明甲偏离平均数的程度小,而乙偏离平均数的程度大.②甲、乙的平均水平相同,而乙的中位数比甲大,说明乙射靶成绩比甲好.③甲、乙的平均水平相同,而乙命中9环以上(包含9环)的次数比甲多2次,可知乙的射靶成绩比甲好.④从折线图上看,乙的成绩呈上升趋势,而甲的成绩在平均线上波动不大,说明乙的状态在提升,更有潜力.样本数字特征所反映的样本的特征一般地,平均数反映的是样本个体的平均水平,众数和中位数则反映样本中个体的“重心”,而标准差则反映了样本的波动程度、离散程度,即均衡性、稳定性、差异性等.因此,我们可以根据问题的需要选择用样本的不同数字特征来分析问题.[跟进训练]1.某小区广场上有甲、乙两群市民正在进行晨练,两群市民的年龄如下(单位:岁):甲群:13,13,14,15,15,15,15,16,17,17;乙群:54,3,4,4,5,6,6,6,6,56.(1)甲群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映甲群市民的年龄特征?(2)乙群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映乙群市民的年龄特征?[解](1)甲群市民年龄的平均数为13+13+14+15+15+15+15+16+17+1710=15(岁),中位数为15岁,众数为15岁.平均数、中位数和众数相等,因此它们都能较好地反映甲群市民的年龄特征.(2)乙群市民年龄的平均数为54+3+4+4+5+6+6+6+6+5610=15(岁),中位数为6岁,众数为6岁.由于乙群市民大多数是儿童,所以中位数和众数能较好地反映乙群市民的年龄特征,而平均数的可靠性较差.极差、方差与标准差的计算【例2】某校高二年级在一次数学选拔赛中,由于甲、乙两人的竞赛成绩相同,从而决定根据平时在相同条件下进行的六次测试确定出最佳人选,这六次测试的成绩数据如下:甲127138130137135131乙133129138134128136求两人测试成绩的平均数以及方差,并且分析成绩的稳定性,从中选出一位参加数学竞赛.[解]设甲、乙二人成绩的平均数分别为x甲、x乙,方差分别为s2甲、s2乙.则x甲=130+16(-3+8+0+7+5+1)=133,x乙=130+16(3-1+8+4-2+6)=133,s2甲=16[(-6)2+52+(-3)2+42+22+(-2)2]=473,s2乙=16[02+(-4)2+52+12+(-5)2+32]=383.因此,甲、乙的平均数相同,由于乙的方差较小,所以乙的成绩比甲的成绩稳定,应选乙参加竞赛较合适.极差、方差与标准差的区别与联系数据的离散程度可以通过极差、方差或标准差来描述.(1)极差是数据的最大值与最小值的差,它反映了一组数据变化的最大幅度,它对一组数据中的极端值非常敏感.(2)方差或标准差则反映了一组数据围绕平均数波动的大小,为了得到以样本数据的单位表示的波动幅度通常用标准差,即样本方差的算术平方根,是样本数据到平均数的一种平均距离.[跟进训练]2.(1)甲、乙、丙、丁四名射手在选拔赛中所得的平均环数x及其方差s2如下表所示,则选送决赛的最佳人选应是()甲乙丙丁x7887s26.36.378.7A.甲B.乙C.丙D.丁(2)为了解本市居民的生活成本,甲、乙、丙三名同学利用假期分别对三个社区进行了“家庭每月日常消费额”的调查.他们将调查所得到的数据分别绘制成频率分布直方图(如图),记甲、乙、丙所调查的三个社区“家庭每月日常消费额”的标准差分别为s1,s2,s3,则它们的大小关系为________(用“>”连接).甲乙丙(1)B(2)s1>s2>s3[(1)∵x乙=x丙x甲=x丁,且s2甲=s2乙s2丙s2丁,故应选择乙进入决赛.(2)甲图所表示的数据比较分散,丙图所表示的数据比较集中,所以估计s1最大,s3最小,即s1>s2>s3.]用样本的分布估计总体的分布[探究问题]1.观察频率分布直方图,能获得样本数据的原始信息吗?[提示]把样本数据做成频率分布直方图后就失去了原始数据.2.给出样本数据的频率分布直方图,可以求出数据的众数、中位数和平均数吗?[提示]可以近似求出.【例3】统计局就某地居民的月收入(单位:元)情况调查了10000人,并根据所得数据画出了样本频率分布直方图(如图),每个分组包括左端点,不包括右端点,如第一组表示月收入在[500,1000)内.(1)为了分析居民的收入与年龄、职业等方面的关系,必须按月收入再从这10000人中用分层抽样的方法抽出100人作进一步分析,则月收入在[2000,2500)内的应抽取多少人?(2)根据频率分布直方图估计样本数据的中位数;(3)根据频率分布直方图估计样本数据的平均数.[思路探究]结合频率分布直方图求解.[解](1)因为(0.0002+0.0004+0.0003+0.0001)×500=0.5,所以a=0.51000=0.0005,月收入在[2000,2500)内的频率为0.25,所以100人中月收入在[2000,2500)内的人数为0.25×100=25.(2)因为0.0002×500=0.1,0.0004×500=0.2.0.0005×500=0.25.0.1+0.2+0.25=0.550.5,所以样本数据的中位数是1500+0.5-0.1+0.20.0005=1900(元).(3)样本平均数为(750×0.0002+1250×0.0004+1750×0.0005+2250×0.0005+2750×0.0003+3250×0.0001)×500=1900(元).(变结论)本例条件不变.(1)若再从这10000人中用分层抽样的方法抽出若干人,分析居民收入与幸福指数的关系,已知月收入在[2000,2500)内的抽取了40人.则月收入在[3000,3500]内的该抽多少人?(2)根据频率分布直方图估计样本数据的众数.[解](1)因为(0.0002+0.0004+0.0003+0.0001)×500=0.5.所以a=0.51000=0.0005.故月收入在[2000,2500)内的频率为0.0005×500=0.25.∴新抽样本容量为400.25=160.∴月收入在[3000,3500]内的该抽:160×(0.0001×500)=8(人).(2)由题图知众数为2000元.1.利用频率分布直方图求数字特征(1)众数是最高的矩形的底边的中点;(2)中位数左右两侧直方图的面积相等;(3)平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标之和.2.利用直方图求众数、中位数、平均数均为近似值,往往与实际数据得出的不一致,但它们能粗略估计其众数、中位数和平均数.课堂小结提