资料整理【淘宝店铺:向阳百分百】专题16统计目录一览2023真题展现考向一样本的数字特征考向二频率分布直方图真题考查解读近年真题对比考向一样本的数字特征考向二频率分布直方图考向三独立性检验命题规律解密名校模拟探源易错易混速记/二级结论速记考向一样本的数字特征1.(多选)(2023•新高考Ⅰ•第9题)有一组样本数据x1,x2,⋯,x6,其中x1是最小值,x6是最大值,则()A.x2,x3,x4,x5的平均数等于x1,x2,⋯,x6的平均数B.x2,x3,x4,x5的中位数等于x1,x2,⋯,x6的中位数C.x2,x3,x4,x5的标准差不小于x1,x2,⋯,x6的标准差D.x2,x3,x4,x5的极差不大于x1,x2,⋯,x6的极差考向二频率分布直方图2.(2023•新高考Ⅱ•第19题)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:资料整理【淘宝店铺:向阳百分百】利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性,此检测标准的漏诊率是将患病者判定为阴性的概率,记为p(c);误诊率是将未患病者判定为阳性的概率,记为q(c).假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.(1)当漏诊率p(c)=0.5%时,求临界值c和误诊率q(c);(2)设函数f(c)=p(c)+q(c).当c∈[95,105],求f(c)的解析式,并求f(c)在区间[95,105]的最小值.【命题意图】考查样本的数字特征、频率分布直方图、相关性、独立性检验.【考查要点】考查相关性、频率分布直方图、样本的数字特征、独立性检验、回归分析等.考查学生读取数据、分析数据、处理数据的能力.【得分要点】1.众数、中位数、平均数(1)众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.资料整理【淘宝店铺:向阳百分百】(2)中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(3)平均数:一组数据的算术平均数,即𝑥=1𝑛(𝑥1+𝑥2+⋯+𝑥𝑛).2.频率分布直方图(1)频率分布直方图:在直角坐标系中,横轴表示样本数据,纵轴表示频率与组距的比值,将频率分布表中的各组频率的大小用相应矩形面积的大小来表示,由此画成的统计图叫做频率分布直方图.(2)频率分布直方图的特征①各长方形面积等于相应各组的频率的数值,所有小矩形面积和为1.②从频率分布直方图可以清楚地看出数据分布的总体趋势.③从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息被抹掉.(3)频率分布直方图求数据①众数:频率分布直方图中最高矩形的底边中点的横坐标.②平均数:频率分布直方图各小矩形的面积乘底边中点的横坐标之和.③中位数:把频率分布直方图分成两个面积相等部分的平行于y轴的直线横坐标.3.极差、方差与标准差(1)①用一组数据中最大数据减去最小数据的差来反映这组数据的变化范围,这个数据就叫极差.②一组数据中各数据与平均数差的平方和的平均数叫做方差.③方差的算术平方根就为标准差.(2)方差和标准差都是反映这组数据波动的大小,方差越大,数据的波动越大.4.独立性检验(1)分类变量:如果某种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)原理:假设性检验.一般情况下:假设分类变量X和Y之间没有关系,通过计算K2值,然后查表对照相应的概率P,发现这种假设正确的概率P很小,从而推翻假设,最后得出X和Y之间有关系的可能性为(1﹣P),也就是“X和Y有关系”.(表中的k就是K2的观测值,即k=K2).资料整理【淘宝店铺:向阳百分百】利用随机变量2K(也可表示为2)2()()()()()nadbcabcdacbd(其中nabcd为样本容量)来判断“两个变量有关系”的方法称为独立性检验.(3)2×2列联表:设X,Y为两个变量,它们的取值分别为12{}xx,和12{}yy,,其样本频数列联表(22列联表)如下:1y2y总计1xabab2xcdcd总计acbdabcd(4)范围:K2∈(0,+∞);性质:K2越大,说明变量间越有关系.(5)解题步骤:①认真读题,取出相关数据,作出2×2列联表;②根据2×2列联表中的数据,计算K2的观测值k;③通过观测值k与临界值k0比较,得出事件有关的可能性大小.考查相关性、频率分布直方图、样本的数字特征、独立性检验、回归分析等.考查形式以多选题和解答题为主。考向一样本的数字特征3.(多选)(2021•新高考Ⅱ)下列统计量中,能度量样本x1,x2,…,xn的离散程度的有()A.样本x1,x2,…,xn的标准差B.样本x1,x2,…,xn的中位数C.样本x1,x2,…,xn的极差D.样本x1,x2,…,xn的平均数4.(多选)(2021•新高考Ⅰ)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则()A.两组样本数据的样本平均数相同B.两组样本数据的样本中位数相同C.两组样本数据的样本标准差相同D.两组样本数据的样本极差相同资料整理【淘宝店铺:向阳百分百】考向二频率分布直方图5.(2022•新高考Ⅱ)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图:(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);(2)估计该地区一位这种疾病患者的年龄位于区间[20,70)的概率;(3)已知该地区这种疾病患者的患病率为0.1%,该地区年龄位于区间[40,50)的人口占该地区总人口的16%.从该地区中任选一人,若此人的年龄位于区间[40,50),求此人患这种疾病的概率(以样本数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率,精确到0.0001).资料整理【淘宝店铺:向阳百分百】考向三独立性检验6.(2022•新高考Ⅰ)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:不够良好良好病例组4060对照组1090(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”,与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.(ⅰ)证明:R=•;(ⅱ)利用该调查数据,给出P(A|B),P(A|)的估计值,并利用(ⅰ)的结果给出R的估计值.附:K2=.P(K2≥k)0.0500.0100.001k3.8416.63510.828资料整理【淘宝店铺:向阳百分百】一.简单随机抽样(共3小题)1.(2023•湖南模拟)已知某班共有学生46人,该班语文老师为了了解学生每天阅读课外书籍的时长情况,决定利用随机数表法从全班学生中抽取10人进行调查.将46名学生按01,02,…,46进行编号.现提供随机数表的第7行至第9行:844217533157245506887704744767217633502583921206766301637859169556571998105071751286735807443952387933211234297864560782524207443815510013429966027954若从表中第7行第41列开始向右依次读取2个数据,每行结束后,下一行依然向右读数,则得到的第8个样本编号是()A.07B.12C.39D.442.(2023•赤峰模拟)某商场推出一种抽奖活动:盒子中装有有奖券和无奖券共10张券,客户从中任意抽取2张,若至少抽中1张有奖券,则该客户中奖,否则不中奖.客户甲每天都参加1次抽奖活动,一个月(30天)下来,发现自己共中奖11次,根据这个结果,估计盒子中的有奖券有()A.1张B.2张C.3张D.4张3.(2023•宜春模拟)福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个两位号码中选取,小明利用如下所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列的数字开始,从左到右依次读取数据,则第四个被选中的红色球号码为()第1行:2976341328414241第2行:8303982258882410第3行:5556852661668231A.10B.22C.24D.26二.分层抽样方法(共2小题)4.(2023•江西模拟)目前,甲型流感病毒在国内传播,据某市卫健委通报,该市流行的甲型流感病毒,以甲型H1N1亚型病毒为主,假如该市某小区共有100名感染者,其中有10名年轻人,60名老年人,30名儿童,现用分层抽样的方法从中随机抽取20人进行检测,则做检测的老年人人数为()A.6B.10C.12D.165.(2023•西山区校级模拟)为庆祝中国共产党成立100周年,某市举办“红歌大传唱”主题活动,以传承红色革命精神,践行社会主义路线,某高中有高一、高二、高三分别600人、500人、700人,欲采用分层抽样法组建一个18人的高一、高二、高三的红歌传唱队,则应抽取高三()A.5人B.6人C.7人D.8人三.系统抽样方法(共2小题)6.(2023•凯里市校级二模)某工厂要对生产流水线上的600个零件(编号为001,002,…,599,600)进行抽检,若采用系统抽样的方法抽检50个零件,且编号为015的零件被抽检,则被抽检的零件的最小资料整理【淘宝店铺:向阳百分百】编号为.7.(2023•武汉模拟)2022年8月16日,航天员的出舱主通道——问天实验舱气闸舱首次亮相,为了解学生对这一新闻的关注度,某班主任在开学初收集了50份学生的答题问卷,并抽取10份问卷进行了解,现采用系统抽样的方法,将这50份答题问卷从01到50进行编号,分成10组,已知第一组中被抽到的号码为03,则第8组中被抽到的号码为.四.分布和频率分布表(共2小题)8.(2023•青羊区校级模拟)一个果园培养了一种少籽苹果,现随机抽样一些苹果调查苹果的平均果籽数量,得到下列频率分布表:果籽数目1234苹果数12521则根据表格,这批样本的平均果籽数量为()A.1B.1.6C.2.5D.3.29.(2023•安宁市校级模拟)某人发现人们在邮箱名称里喜欢用数字,于是他做了调查,结果如下表:邮箱数601302653061233213047006897名称里有数字的邮箱数3678165187728130028204131频率(1)填写上表中的频率(结果保留到小数点后两位);(2)人们在邮箱名称里使用数字的概率约是多少?五.频率分布直方图(共11小题)10.(2023•四川模拟)某学校在高三年级中抽取200名学生,调查他们课后完成作业的时间,并根据调查结果绘制了如下频率分布直方图.根据此直方图得出了下列结论,其中不正确的是()A.所抽取的学生中有40人在2.5小时至3小时之间完成作业B.该校高三年级全体学生中,估计完成作业的时间超过4小时的学生概率为0.1C.估计该校高三年级学生的平均做作业的时间超过3小时资料整理【淘宝店铺:向阳百分百】D.估计该校高三年级有一半的学生做作业的时间在2.5小时至4.5小时之间11.(2023•碑林区校级模拟)为弘扬奥林匹克精神,普及冰雪运动知识,助力2022年冬奥会和冬残奥会,某校组织全体学生参与“激情冰雪﹣相约冬奥”冰雪运动知识竞赛.从参加竞赛的学生中,随机抽取若干名学生的竞赛成绩,均在50到100之间,将样本数据分组为[50,60),[60,70),[70,80),[80,90),[90,100],并将成绩绘制得到如图所示的频率分布直方图.已知成绩在区间70到90的有6