第3节用样本估计总体考试要求1.了解分布的意义和作用,能根据频率分布表画频率分布直方图、频率分布折线图、茎叶图,体会它们各自的特点;2.理解样本数据标准差的意义和作用,会计算数据标准差;3.能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释;4.会用样本的频率分布估计总体的频率分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想;5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.1.频率分布直方图(1)频率分布表的画法:第一步:求极差,决定组数和组距,组距=极差组数;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图(如图)横轴表示样本数据,纵轴表示频率组距,每个小矩形的面积表示样本落在该组内的频率.2.茎叶图统计中一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.3.样本的数字特征(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(3)平均数:把a1+a2+…+ann称为a1,a2,…,an这n个数的平均数.(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为x-,则这组数据的标准差和方差分别是s=1n[(x1-x-)2+(x2-x-)2+…+(xn-x-)2],s2=1n[(x1-x-)2+(x2-x-)2+…+(xn-x-)2].1.频率分布直方图与众数、中位数、平均数的关系(1)最高的小长方形底边中点的横坐标即是众数.(2)中位数左边和右边的小长方形的面积和是相等的.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.2.平均数、方差的公式推广(1)若数据x1,x2,…,xn的平均数为x-,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是mx-+a.(2)数据x1,x2,…,xn的方差为s2.①数据x1+a,x2+a,…,xn+a的方差也为s2;②数据ax1,ax2,…,axn的方差为a2s2.1.思考辨析(在括号内打“√”或“×”)(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.()(2)一组数据的方差越大,说明这组数据越集中.()(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越大.()(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.()答案(1)√(2)×(3)√(4)×解析(2)错误.方差越大,这组数据越离散.(4)错误.在茎叶图中,相同的数据叶要重复记录,故(4)错误.2.(2021·天津卷)从某网络平台推荐的影视作品中抽取400部,统计其评分数据,将所得400个评分数据分为8组:[66,70),[70,74),…,[94,98],并整理得到如下的频率分布直方图,则评分在区间[82,86)内的影视作品数量是()A.20B.40C.64D.80答案D解析由频率分布直方图可知,评分在区间[82,86)内的影视作品数量为400×0.05×4=80.3.若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是()A.91.5和91.5B.91.5和92C.91和91.5D.92和92答案A解析这组数据由小到大排列为87,89,90,91,92,93,94,96,∴中位数是91+922=91.5,平均数x-=87+89+90+91+92+93+94+968=91.5.4.(易错题)已知一组数据的频率分布直方图如图,则众数是________,平均数是________.答案6567解析因为最高小长方形中点的横坐标为65,所以众数为65;平均数x-=(55×0.030+65×0.040+75×0.015+85×0.010+95×0.005)×10=67.5.(2021·新高考全国Ⅱ卷改编)下列统计量中,能度量样本x1,x2,…,xn的离散程度的所有正确编号有________.①样本x1,x2,…,xn的标准差;②样本x1,x2,…,xn的中位数;③样本x1,x2,…,xn的极差;④样本x1,x2,…,xn的平均数.答案①③解析由标准差的定义可知,标准差考查的是数据的离散程度;由中位数的定义可知,中位数考查的是数据的集中趋势;由极差的定义可知,极差考查的是数据的离散程度;由平均数的定义可知,平均数考查的是数据的集中趋势.故①③正确.6.(易错题)若数据x1,x2,x3,…,xn的平均数x-=5,方差s2=2,则数据3x1+1,3x2+1,3x3+1,…,3xn+1的平均数和方差分别为________.答案16,18解析∵x1,x2,x3,…,xn的平均数为5,∴3x1+1,3x2+1,3x3+1,…,3xn+1的平均数是3×5+1=16,∵x1,x2,x3,…,xn的方差为2,∴3x1+1,3x2+1,3x3+1,…,3xn+1的方差是32×2=18.考点一频率分布直方图例1某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.A地区用户满意度评分的频率分布直方图图①B地区用户满意度评分的频数分布表满意度评分分组[50,60)[60,70)[70,80)[80,90)[90,100]频数2814106(1)在图②中作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);B地区用户满意度评分的频率分布直方图图②(2)根据用户满意度评分,将用户和满意度分为三个等级:满意度评分低于70分70分到89分不低于90分满意度等级不满意满意非常满意估计哪个地区用户的满意度等级为不满意的概率大?说明理由.解(1)作出频率分布直方图如图:通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.(2)A地区用户的满意度等级为不满意的概率大.记CA表示事件:“A地区用户的满意度等级为不满意”;CB表示事件:“B地区用户的满意度等级为不满意”.由直方图得P(CA)的估计值为(0.01+0.02+0.03)×10=0.6,P(CB)的估计值为(0.005+0.02)×10=0.25.所以A地区用户的满意度等级为不满意的概率大.感悟提升1.频率分布直方图的性质.(1)小长方形的面积=组距×频率组距=频率;(2)各小长方形的面积之和等于1;(3)小长方形的高=频率组矩.2.要理解并记准频率分布直方图与众数、中位数及平均数的关系.训练1(2021·江西省重点中学联考)江西省重点中学协作体于2021年进行了一次校际数学竞赛,共有100名同学参赛,经过评判,这100名参赛者的得分都在[40,90]之间,其得分的频率分布直方图如图,则下列结论错误的是()A.得分在[40,60)之间的共有40人B.从这100名参赛者中随机选取1人,其得分在[60,80)的概率为0.5C.这100名参赛者得分的中位数为65D.可求得a=0.005答案C解析对于A,得分在[40,60)之间的有100×[1-(0.030+0.020+0.010)×10]=40(人),故A正确;对于B,从这100名参赛者中随机选取1人,其得分在[60,80)的概率为(0.030+0.020)×10=0.5,故B正确;对于D,由(a+0.035+0.030+0.020+0.010)×10=1,解得a=0.005,故D正确;对于C,得分在[40,60)的频率为(0.005+0.035)×10=0.4,得分在[60,70)的频率为0.030×10=0.3,∴这100名参赛者得分的中位数为60+0.5-0.40.3×10≈63.3,故C错误.考点二统计图表及应用角度1扇形图例2(2022·郑州模拟)某高中为了解学生课外知识的积累情况,随机抽取200名同学参加课外知识测试,测试共5题道,每答对一题得20分,答错得0分.已知每名同学至少能答对2道题,得分不少于60分记为及格,不少于80分记为优秀,测试成绩百分比分布图如图所示,则下列说法正确的是()A.该次课外知识测试及格率为90%B.该次课外知识测试得满分的同学有30名C.该次测试成绩的中位数大于测试成绩的平均数D.若该校共有3000名学生,则课外知识测试成绩能得优秀的同学大约有1440名答案C解析由题图可知及格率为1-8%=92%,故A错误.该次课外知识测试得满分同学占的百分比为1-8%-32%-48%=12%,则得满分的同学有12%×200=24(名),故B错误.中位数为80分,平均数为40×8%+60×32%+80×48%+100×12%=72.8分,故C正确.3000×(48%+12%)=1800(名),故D错误.角度2折线图例3(2021·昆明诊断)“搜索指数”是网民通过搜索引擎,以每天搜索关键词的次数为基础所得到的统计指标.搜索指数越大,表示网民搜索该关键词的次数越多,对该关键词相关的信息关注度也越高.如图是2019年9月到2020年2月这半年来某个关键词的搜索指数变化的统计图.根据该统计图判断,下列结论正确的是()A.这半年来,网民对该关键词相关的信息关注度呈周期性变化B.这半年来,网民对该关键词相关的信息关注度不断减弱C.从该关键词的搜索指数来看,2019年10月的方差小于11月的方差D.从该关键词的搜索指数来看,2019年12月的平均值大于2020年1月的平均值答案D解析由统计图可知,这半年来,该关键词的搜索指数变化的周期性并不显著,排除A;由统计图可知,这半年来,该关键词的搜索指数的整体减弱趋势不显著,排除B;由统计图可知,2019年10月该关键词的搜索指数波动较大,11月的波动较小,所以2019年10月的方差大于11月的方差,排除C;由统计图可知,2019年12月该关键词的搜索指数大多高于10000,该月平均值大于10000,2020年1月该关键词的搜索指数大多低于10000,该月平均值小于10000,选D.角度3茎叶图例4(2022·西安模拟)中国数学奥林匹克由中国数学会主办,是全国中学生级别最高、规模最大、最具影响力的数学竞赛.某重点高中为参加中国数学奥林匹克做准备,对该校数学集训队进行一次选拔赛,所得分数的茎叶图如图所示,则该集训队考试成绩的众数与中位数分别为()A.85,75B.85,76C.74,76D.75,77答案B解析由茎叶图知,出现的数据最多的是85,故众数为85;由于数据总数为14个,故中位数为排序后第七个和第八个数据的平均数,即75+772=76,故选B.感悟提升1.通过扇形统计图可以很清楚的表示出各部分数量同总数之间的关系.2.折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.3.茎叶图的三个关注点(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一.(2)重复出现的数据要重复记录,不能遗漏.(3)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.训练2(1)由于受疫情的影响,学校停课,同学们通过三种方式在家自主学习,现学校想了解同学们对假期学习方式的满意程度,收集如图1所示的数据;教务处通过分层抽样的方法抽取4%的同学进行满意度调查,得到的数据如图2.下列说法错误的是()A.样本容量为240B.若m=50,则本次自主学习学生的满意度不低于四成C.总体中对方式二满意的学生约为300人D.样本中对方式一满意的学生为24人(2)(202