资料整理【淘宝店铺:向阳百分百】第01讲统计目录资料整理【淘宝店铺:向阳百分百】考点要求考题统计考情分析(1)会用简单随机抽样的方法从总体中抽取样本,了解分层随机抽样.(2)理解统计图表的含义.(3)会用统计图表对总体进行估计,会求n个数据的第p百分位数.(4)能用数字特征估计总体集中趋势和总体离散程度.2023年上海卷第14题,4分2023年上海卷第9题,5分2023年I卷第9题,5分2022年甲卷(文)第2题,5分统计学是“大数据”技术的关键,在互联网时代具有强大的社会价值和经济价值,在高考中受重视程度越来越大,未来在考试中的出题角度会更加与实际生活紧密联系,背景新颢、形式多样.知识点一、抽样资料整理【淘宝店铺:向阳百分百】1、抽样调查(1)总体:统计中所考察对象的某一数值指标的全体构成的集合称为总体.(2)个体:构成总体的每一个元素叫做个体.(3)样本:从总体中抽取若干个个体进行考察,这若干个个体所构成的集合叫做总体的一个样本,样本中个体的数目叫做样本容量.2、简单随机抽样(1)定义一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(nN),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.(2)两种常用的简单随机抽样方法①抽签法:一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本.②随机数法:即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.这里仅介绍随机数表法.随机数表由数字0,1,2,…,9组成,并且每个数字在表中各个位置出现的机会都是一样的.注意:为了保证所选数字的随机性,需在查看随机数表前就指出开始数字的横、纵位置.(3)抽签法与随机数法的适用情况抽签法适用于总体中个体数较少的情况,随机数法适用于总体中个体数较多的情况,但是当总体容量很大时,需要的样本容量也很大时,利用随机数法抽取样本仍不方便.(4)简单随机抽样的特征①有限性:简单随机抽样要求被抽取的样本的总体个数是有限的,便于通过样本对总体进行分析.②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.④等可能性:简单单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样方法的公平.只有四个特点都满足的抽样才是简单随机抽样.3、分层抽样(1)定义一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.分层抽样适用于已知总体是由差异明显的几部分组成的.(2)分层抽样问题类型及解题思路①求某层应抽个体数量:按该层所占总体的比例计算.②已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算.资料整理【淘宝店铺:向阳百分百】③分层抽样的计算应根据抽样比构造方程求解,其中“抽样比=样本容量总体容量=各层样本数量各层个体数量”注意:分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取iiNnnN(1,2,,ik)个个体(其中i是层数,n是抽取的样本容量,iN是第i层中个体的个数,N是总体容量).知识点二、用样本估计总体1、频率分布直方图(1)频率、频数、样本容量的计算方法①频率组距×组距=频率.②频数样本容量=频率,频数频率=样本容量,样本容量×频率=频数.③频率分布直方图中各个小方形的面积总和等于1.2、频率分布直方图中数字特征的计算(1)最高的小长方形底边中点的横坐标即是众数.(2)中位数左边和右边的小长方形的面积和是相等的.设中位数为x,利用x左(右)侧矩形面积之和等于0.5,即可求出x.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和,即有1111nnxxpxpxp,其中nx为每个小长方形底边的中点,np为每个小长方形的面积.3、百分位数(1)定义一组数据的第p百分位数是这样一个值,它使得这组数据中至少有00p的数据小于或等于这个值,且至少有00100p的数据大于或等于这个值.(2)计算一组n个数据的的第p百分位数的步骤①按从小到大排列原始数据.②计算00inp.③若i不是整数而大于i的比邻整数j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第1i项数据的平均数.(3)四分位数我们之前学过的中位数,相当于是第50百分位数.在实际应用中,除了中位数外,常用的分位数还有第25百分位数,第75百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.4、样本的数字特征资料整理【淘宝店铺:向阳百分百】(1)众数、中位数、平均数①众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.②中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,中位数反应一组数据的中间水平.③平均数:n个样本数据12,,,nxxx的平均数为12nxxxxn,反应一组数据的平均水平,公式变形:1niixnx.5、标准差和方差(1)定义①标准差:标准差是样本数据到平均数的一种平均距离,一般用s表示.假设样本数据是12,,,nxxx,x表示这组数据的平均数,则标准差222121[()()()]nsxxxxxxn.②方差:方差就是标准差的平方,即2222121[()()()]nsxxxxxxn.显然,在刻画样本数据的分散程度上,方差与标准差是一样的.在解决实际问题时,多采用标准差.(2)数据特征标准差、方差描述了一组数据围绕平均数波动程度的大小.标准差、方差越大,则数据的离散程度越大;标准差、方差越小,数据的离散程度越小.反之亦可由离散程度的大小推算标准差、方差的大小.(3)平均数、方差的性质如果数据12,,,nxxx的平均数为x,方差为2s,那么①一组新数据12,,nxbxbxb的平均数为xb,方差是2s.②一组新数据12,,,naxaxax的平均数为ax,方差是22as.③一组新数据12,,,naxbaxbaxb的平均数为axb,方差是22as.题型一:随机抽样、分层抽样例1.(2023·全国·高三专题练习)某工厂为了对产品质量进行严格把关,从500件产品中随机抽出50件进行检验,对这500件产品进行编号001,002,…,500,从下列随机数表的第二行第三组第一个数字开始,每次从左往右选取三个数字,则抽到第四件产品的编号为()283931258395952472328995721628843660107343667575943661184479514096949592601749514068751632414782A.447B.366C.140D.118资料整理【淘宝店铺:向阳百分百】【答案】A【解析】从第二行第三组第一个数字开始,每次从左往右选取三个数字,依次可得:366,010,118,447,…故选:A.例2.(2023·河南·校联考模拟预测)已知某班共有学生46人,该班语文老师为了了解学生每天阅读课外书籍的时长情况,决定利用随机数表法从全班学生中抽取10人进行调查.将46名学生按01,02,…,46进行编号.现提供随机数表的第7行至第9行:844217533157245506887704744767217633502583921206766301637859169556571998105071751286735807443952387933211234297864560782524207443815510013429966027954若从表中第7行第41列开始向右依次读取2个数据,每行结束后,下一行依然向右读数,则得到的第8个样本编号是()A.07B.12C.39D.44【答案】D【解析】由题意可知得到的样本编号依次为12,06,01,16,19,10,07,44,39,38,则得到的第8个样本编号是44.故选:D.例3.(2023·全国·高三专题练习)现要完成下列2项抽样调查:①从10盒酸奶中抽取3盒进行食品卫生检查;②东方中学共有160名教职工,其中教师120名,行政人员16名,后勤人员24名.为了了解教职工对学校在校务公开方面的意见,拟抽取一个容量为20的样本.较为合理的抽样方法是()A.①抽签法,②分层随机抽样B.①随机数法,②分层随机抽样C.①随机数法,②抽签法D.①抽签法,②随机数法【答案】A【解析】①总体较少,宜用抽签法;②各层间差异明显,宜用分层随机抽样.故选:A.变式1.(2023·安徽阜阳·高三安徽省临泉第一中学校考阶段练习)在二战期间,技术先进的德国坦克使德军占据了战场主动权,了解德军坦克的生产能力对盟军具有非常重要的战略意义,盟军请统计学家参与情报的收集和分析工作.在缴获的德军坦克上发现每辆坦克都有独一无二的发动机序列号,前6位表示生产的年月,最后4位是按生产顺序开始的连续编号.统计学家将缴获的德军坦克序列号作为样本,用样本估计总体的方法推断德军每月生产的坦克数.假设德军某月生产的坦克总数为N,缴获的该月生产的n辆坦克编号从小到大为1x,2x,L,nx,缴获的坦克是从所生产的坦克中随机获取的,缴获坦克的编号1x,2x,L,nx,相当于从1,N中随机抽取的n个整数,这n个数将区间0,N分成1n个小区间(如图).可以资料整理【淘宝店铺:向阳百分百】用前n个区间的平均长度nxn估计所有1n个区间的平均长度1Nn,进而得到N的估计.如果缴获的坦克编号为:35,67,90,127,185,245,287.则可以估计德军每月生产的坦克数为()A.288B.308C.328D.348【答案】C【解析】28778N,解得328N.可以估计德军每月生产的坦克数大约是328.故选:C.变式2.(2023·江苏·高三江苏省梁丰高级中学校联考阶段练习)为了庆祝中国共产党第二十次全国代表大会,学校采用按比例分配的分层随机抽样的方法从高一1002人,高二1002人,高三1503人中抽取126人观看“中国共产党第二十次全国代表大会”直播,那么高三年级被抽取的人数为()A.36B.42C.50D.54【答案】D【解析】根据分层抽样的方法,抽样比为1266100210021503167,高三年级被抽取的人数为6150354167人.故选:D.变式3.(2023·北京·高三强基计划)某校共2017名学生,其中每名学生至少要选A,B两门课中的一门,也有些学生选了两门课.已知选A的人数占全校人数的百分比在70%到75%之间,选B的人数占全校人数的百分比在40%到45%之间.则下列结论中正确的是()A.同时选A,B的可能有200人B.同时选A,B的可能有300人C.同时选A,B的可能有400人D.同时选A,B的可能有500人【答案】BC【解析】根据题意,同时选A,B的人数在10%到20%之间,换算成人数为202到403之间,因此符合题意的选项有B,C.故选:BC.变式4.(2023·河南·襄城高中校联考三模)现有300名老年人,500名中年人,400名青年人,从中按比例用分层随机抽样的方法抽取n人,若抽取的老年人与青年人共21名,则n的值为()A.15B.30C.32D.36【答案】D【解析】由题可知211200700n,解得36n.故选:D.资料整理【淘宝店铺:向阳百分百】【解题方法总结】不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.题型二:统计图表例4.(多选题)(2023·河北石家庄·高三校联考期中)恩格尔系数是食品支出总额占个人消费支出总额的比重,它在一定程度上可以用来反映人民生活水平.恩格尔系数的一般规律:收入越低的家庭,恩格