第九章统计与统计案例第2节用样本估计总体课程标准考情索引核心素养1.能根据实际问题的特点,选择恰当的统计图表对数据进行可视化描述,体会合理使用统计图表的重要性.2.能从样本数据中提取基本的数字特征(如平均数、标准差、中位数、众数),并做出合理的解释.3.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.4.结合实例,能利用样本估计总体的思想解决一些简单的实际问题.2019·全国卷Ⅱ,T52019·全国卷Ⅲ,T32019·全国卷Ⅲ,T172018·全国卷Ⅰ,T32017·全国卷Ⅱ,T181.数据分析2.数学运算1.频率分布直方图(1)频率分布表的画法:第一步:求极差,决定组数和组距,组距=极差组数;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图(如图所示).横轴表示样本数据,纵轴表示频率组距,每个小矩形的面积表示样本落在该组内的频率.(3)茎叶图.统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.2.样本的数字特征(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(3)平均数:把a1+a2+…+ann称为a1,a2,…,an这n个数的平均数.(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为x-,则这组数据的标准差和方差分别是s=1n[(x1-x-)2+(x2-x-)2+…+(xn-x-)2]s2=1n[(x1-x-)2+(x2-x-)2+…+(xn-x-)2].3.用频率分布直方图估计特征数字(1)平均数:x-=i=0nxiSi(xi表示第i个小矩形底边中点的横坐标,Si表示第i个小矩形的面积.(2)方差:s2=i=0n(xi-x-)2·Si.(3)众数:最高小矩形底边中点的横坐标.(4)中位数:把频率分布直方图划分为左右两个面积相等的部分时,分界线与横轴交点的横坐标.平均数、方差的公式推广1.若数据x1,x2,…,xn的平均数为x-,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是mx-+a.2.数据x1,x2,…,xn的方差为s2.(1)数据x1+a,x2+a,…,xn+a的方差也为s2.(2)数据ax1,ax2,…,axn的方差为a2s2.[概念思辨]1.判断下列结论的正误(正确的打“√”,错误的打“×”).(1)平均数,众数与中位数从不同的角度描述了一组数据的集中趋势.()(2)一组数据的方差越大,说明这组数据越集中.()(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越大.()(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.()解析:(1)平均数、众数与中位数都在一定程度上反映了数据的集中趋势.(2)方差越大,这组数据越离散.(3)小矩形的面积=组距×频率组距=频率.(4)茎相同的数据,叶可不用按从小到大的顺序写,相同的数据要重复记录,故(4)错误.答案:(1)√(2)×(3)√(4)×[教材衍化]2.(人A必修3·习题改编)一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为()A.4B.8C.12D.16解析:频数=32×0.25=8.故选B.答案:B3.(人A必修3·习题改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是()A.91.5和91.5B.91.5和92C.91和91.5D.92和92解析:这组数据由小到大排列为87,89,90,91,92,93,94,96,所以中位数是91+922=91.5,平均数x-=87+89+90+91+92+93+94+968=91.5.答案:A[典题体验]4.(2020·济南一中检测)下图给出的是某小区居民一段时间内访问网站的比例图,则下列选项中不超过21%的为()A.网易与搜狗的访问量所占比例之和B.腾讯和百度的访问量所占比例之和C.淘宝与论坛的访问量所占比例之和D.新浪与小说的访问量所占比例之和解析:由题图得,网易与搜狗的访问量所占比例分别为15%和3%,总和为18%,不超过21%,满足题意.答案:A5.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是()A.中位数B.平均数C.方差D.极差解析:中位数是将9个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉1个最高分和1个最低分,不变的是中位数,平均数、方差、极差均受影响.答案:A6.一个社会调查机构就某地居民的月收入调查了10000人,并根据所得数据画出了如图所示的频率分布直方图,现要从这10000人中用分层抽样的方法抽取100人作进一步调查,则月收入在[2500,3000)元内应抽取_____人.解析:由频率分布直方图可得在[2500,3000)收入段共有10000×0.0005×500=2500人,按分层抽样应抽出2500×10010000=25人.答案:25考点1茎叶图与折线图(自主演练)1.(2017·山东卷)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为()A.3,5B.5,5C.3,7D.5,7解析:由茎叶图,可得甲组数据的中位数为65,从而乙组数据的中位数也是65,所以y=5.由乙组数据59,61,67,65,78,可得乙组数据的平均值为66,故甲组数据的平均值也为66,从而有56+62+65+74+70+x5=66,解得x=3.故选A.答案:A2.(2020·潍坊调研)下图为国家统计局发布的2019年上半年全国居民消费价格指数(CPI)数据折线图,(注:同比是今年第n个月与去年第n个月之比,环比是现在的统计周期和上一个统计周期之比)下列说法错误的是()A.2019年6月CPI环比下降0.1%,同比上涨1.9%B.2019年3月CPI环比下降1.1%,同比上涨2.1%C.2019年2月CPI环比上涨0.6%,同比上涨1.4%D.2019年6月CPI同比涨幅比上月略微扩大0.1个百分点解析:观察题图中数据知A,B,D正确,对选项C,2019年2月CPI同比上涨2.9%,环比上涨1.2%,故C错误.答案:C3.《中国诗词大会》的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号.根据该次比赛的成绩按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词能手”称号的人数为()A.2B.4C.5D.6解析:由茎叶图得班里40名学生中,获得“诗词达人”称号的有8人,获得“诗词能手”称号的有16人,获得“诗词爱好者”称号的有16人,则由分层抽样的概念得选取的10名学生中,获得“诗词能手”称号的人数为10×1640=4.答案:B1.茎叶图中的三个关注点.(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一.(2)重复出现的数据要重复记录,不能遗漏.(3)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.2.利用茎叶图解题的关键是抓住“叶”的分布特征,准确从中提炼信息.考点2频率分布直方图(讲练互动)[典例](2019·全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解:(1)由已知得0.70=a+0.20+0.15,故a=0.35,b=1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.1.频率分布直方图的性质.(1)小长方形的面积=组距×频率组距=频率;(2)各小长方形的面积之和等于1;(3)小长方形的高=频率组距,所有小长方形的高的和为1组距.2.要理解并记准频率分布直方图与众数、中位数及平均数的关系.(2017·北京卷)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.解:(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4,所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.(2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,分数在区间[40,50)内的人数为100-100×0.9-5=5,所以总体中分数在区间[40,50)内的人数估计为400×5100=20.(3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,所以样本中分数不小于70的男生人数为60×12=30,所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2,所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.考点3样本的数字特征(多维探究)角度求样本数字特征[典例1](2020·河南名校联盟调研)某外卖企业抽取了阿朱、阿紫两位员工今年3月某10天日派送外卖量的数据(单位:件),如茎叶图所示.针对这10天的数据,下面说法错误的是()A.阿朱的日派送外卖量的众数为76B.阿紫的日派送外卖量的中位数为77C.阿朱的日派送外卖量的中位数为76.5D.阿紫的日派送外卖量更稳定解析:阿朱的日派送外卖量中,只有76出现了2次,其他数只出现了1次,故众数为76,A正确;计算可得阿朱、阿紫的日派送外卖量的中位数分别为76.5、77,B、C正确.由茎叶图知阿朱日派送外卖量波动较小,阿紫日派送外卖量波动较大,故阿朱日派送外卖量更稳定,则D错误.答案:D[典例2](2019·江苏卷)已知一组数据6,7,8,8,9,10,则该组数据的方差是________.解析:这组数据的平均数为8,故方差为s2=16×[(6-8)2+(7-8)2+(8-8)2+(8-8)2+(9-8)2+(10-8)2]=53.答案:53角度用样本数字特征估计总体[典例3](2020·福州市调研)随着“互联网+交通”模式的迅猛发展,“共享自行车”在