资料整理【淘宝店铺:向阳百分百】专题16统计目录一览2023真题展现考向一样本的数字特征考向二频率分布直方图真题考查解读近年真题对比考向一样本的数字特征考向二频率分布直方图考向三独立性检验命题规律解密名校模拟探源易错易混速记/二级结论速记考向一样本的数字特征1.(多选)(2023•新高考Ⅰ•第9题)有一组样本数据x1,x2,⋯,x6,其中x1是最小值,x6是最大值,则()A.x2,x3,x4,x5的平均数等于x1,x2,⋯,x6的平均数B.x2,x3,x4,x5的中位数等于x1,x2,⋯,x6的中位数C.x2,x3,x4,x5的标准差不小于x1,x2,⋯,x6的标准差D.x2,x3,x4,x5的极差不大于x1,x2,⋯,x6的极差【答案】BD解:A选项,x2,x3,x4,x5的平均数不一定等于x1,x2,⋯,x6的平均数,A错误;B选项,x2,x3,x4,x5的中位数等于𝑥3+𝑥42,x1,x2,⋯,x6的中位数等于𝑥3+𝑥42,B正确;C选项,设样本数据x1,x2,⋯,x6为0,1,2,8,9,10,可知x1,x2,⋯,x6的平均数是5,x2,x3,x4,x5的平均数是5,x1,x2,⋯,x6的方差𝑠12=16×[(0﹣5)2+(1﹣5)2+(2﹣5)2+(8﹣5)2+(9﹣5)2+(10﹣5)2]=503,x2,x3,x4,x5的方差𝑠22=14×[(1﹣5)2+(2﹣5)2+(8﹣5)2+(9﹣5)2]=252,资料整理【淘宝店铺:向阳百分百】𝑠12>𝑠22,∴s1>s2,C错误.D选项,x6>x5,x2>x1,∴x6﹣x1>x5﹣x2,D正确.考向二频率分布直方图2.(2023•新高考Ⅱ•第19题)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性,此检测标准的漏诊率是将患病者判定为阴性的概率,记为p(c);误诊率是将未患病者判定为阳性的概率,记为q(c).假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.(1)当漏诊率p(c)=0.5%时,求临界值c和误诊率q(c);(2)设函数f(c)=p(c)+q(c).当c∈[95,105],求f(c)的解析式,并求f(c)在区间[95,105]的最小值.解:(1)当漏诊率p(c)=0.5%时,则(c﹣95)•0.002=0.5%,解得c=97.5;q(c)=0.01×2.5+5×0.002=0.035=3.5%;(2)当c∈[95,100]时,f(c)=p(c)+q(c)=(c﹣95)•0.002+(100﹣c)•0.01+5×0.002=﹣0.008c+0.82≥0.02,当c∈(100,105]时,f(c)=p(c)+q(c)=5×0.002+(c﹣100)•0.012+(105﹣c)•0.002=0.01c﹣0.98>0.02,故f(c)={−0.008𝑐+0.82,95≤𝑐≤1000.01𝑐−0.98,100<𝑐≤105,所以f(c)的最小值为0.02.【命题意图】资料整理【淘宝店铺:向阳百分百】考查样本的数字特征、频率分布直方图、相关性、独立性检验.【考查要点】考查相关性、频率分布直方图、样本的数字特征、独立性检验、回归分析等.考查学生读取数据、分析数据、处理数据的能力.【得分要点】1.众数、中位数、平均数(1)众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.(2)中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(3)平均数:一组数据的算术平均数,即𝑥=1𝑛(𝑥1+𝑥2+⋯+𝑥𝑛).2.频率分布直方图(1)频率分布直方图:在直角坐标系中,横轴表示样本数据,纵轴表示频率与组距的比值,将频率分布表中的各组频率的大小用相应矩形面积的大小来表示,由此画成的统计图叫做频率分布直方图.(2)频率分布直方图的特征①各长方形面积等于相应各组的频率的数值,所有小矩形面积和为1.②从频率分布直方图可以清楚地看出数据分布的总体趋势.③从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息被抹掉.(3)频率分布直方图求数据①众数:频率分布直方图中最高矩形的底边中点的横坐标.②平均数:频率分布直方图各小矩形的面积乘底边中点的横坐标之和.③中位数:把频率分布直方图分成两个面积相等部分的平行于y轴的直线横坐标.3.极差、方差与标准差(1)①用一组数据中最大数据减去最小数据的差来反映这组数据的变化范围,这个数据就叫极差.②一组数据中各数据与平均数差的平方和的平均数叫做方差.③方差的算术平方根就为标准差.(2)方差和标准差都是反映这组数据波动的大小,方差越大,数据的波动越大.资料整理【淘宝店铺:向阳百分百】4.独立性检验(1)分类变量:如果某种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)原理:假设性检验.一般情况下:假设分类变量X和Y之间没有关系,通过计算K2值,然后查表对照相应的概率P,发现这种假设正确的概率P很小,从而推翻假设,最后得出X和Y之间有关系的可能性为(1﹣P),也就是“X和Y有关系”.(表中的k就是K2的观测值,即k=K2).利用随机变量2K(也可表示为2)2()()()()()nadbcabcdacbd(其中nabcd为样本容量)来判断“两个变量有关系”的方法称为独立性检验.(3)2×2列联表:设X,Y为两个变量,它们的取值分别为12{}xx,和12{}yy,,其样本频数列联表(22列联表)如下:1y2y总计1xabab2xcdcd总计acbdabcd(4)范围:K2∈(0,+∞);性质:K2越大,说明变量间越有关系.(5)解题步骤:①认真读题,取出相关数据,作出2×2列联表;②根据2×2列联表中的数据,计算K2的观测值k;③通过观测值k与临界值k0比较,得出事件有关的可能性大小.考查相关性、频率分布直方图、样本的数字特征、独立性检验、回归分析等.考查形式以多选题和解答题为主。考向一样本的数字特征3.(多选)(2021•新高考Ⅱ)下列统计量中,能度量样本x1,x2,…,xn的离散程度的有()A.样本x1,x2,…,xn的标准差B.样本x1,x2,…,xn的中位数C.样本x1,x2,…,xn的极差D.样本x1,x2,…,xn的平均数资料整理【淘宝店铺:向阳百分百】【解答】解:中位数是反应数据的变化,方差是反应数据与均值之间的偏离程度,极差是用来表示统计资料中的变异量数,反映的是最大值与最小值之间的差距,平均数是反应数据的平均水平,故能反应一组数据离散程度的是标准差,极差.故选:AC.4.(多选)(2021•新高考Ⅰ)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则()A.两组样本数据的样本平均数相同B.两组样本数据的样本中位数相同C.两组样本数据的样本标准差相同D.两组样本数据的样本极差相同【解答】解:对于A,两组数据的平均数的差为c,故A错误;对于B,两组样本数据的样本中位数的差是c,故B错误;对于C,∵标准差D(yi)=D(xi+c)=D(xi),∴两组样本数据的样本标准差相同,故C正确;对于D,∵yi=xi+c(i=1,2,…,n),c为非零常数,x的极差为xmax﹣xmin,y的极差为(xmax+c)﹣(xmin+c)=xmax﹣xmin,∴两组样本数据的样本极差相同,故D正确.故选:CD.考向二频率分布直方图5.(2022•新高考Ⅱ)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图:(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);(2)估计该地区一位这种疾病患者的年龄位于区间[20,70)的概率;(3)已知该地区这种疾病患者的患病率为0.1%,该地区年龄位于区间[40,50)的人口占该地区总人口的16%.从该地区中任选一人,若此人的年龄位于区间[40,50),求此人患这种疾病的概率(以样本数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率,精确到0.0001).资料整理【淘宝店铺:向阳百分百】【解答】解:(1)由频率分布直方图得该地区这种疾病患者的平均年龄为:=5×0.001×10+15×0.002×10+25×0.012×10+35×0.017×10+45×0.023×10+55×0.020×10+65×0.017×10+75×0.006×10+85×0.002×10=47.9岁.(2)该地区一位这种疾病患者的年龄位于区间[20,70)的频率为:(0.012+0.017+0.023+0.020+0.017)×10=0.89,∴估计该地区一位这种疾病患者的年龄位于区间[20,70)的概率为0.89.(3)设从该地区中任选一人,此人的年龄位于区间[40,50)为事件B,此人患这种疾病为事件C,则P(C|B)==≈0.0014.考向三独立性检验6.(2022•新高考Ⅰ)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:不够良好良好病例组4060对照组1090(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”,与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.(ⅰ)证明:R=•;(ⅱ)利用该调查数据,给出P(A|B),P(A|)的估计值,并利用(ⅰ)的结果给出R的估计值.附:K2=.P(K2≥k)0.0500.0100.001k3.8416.63510.828【解答】解:(1)补充列联表为:不够良好良好合计病例组4060100对照组1090100合计50150200资料整理【淘宝店铺:向阳百分百】计算K2==24>6.635,所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.(2)(i)证明:R=:=•=•==•=;(ⅱ)利用调查数据,P(A|B)==,==,P(|B)=1﹣P(A|B)=,P(|)=1﹣P(A|)=,所以R=×=6.一.简单随机抽样(共3小题)1.(2023•湖南模拟)已知某班共有学生46人,该班语文老师为了了解学生每天阅读课外书籍的时长情况,决定利用随机数表法从全班学生中抽取10人进行调查.将46名学生按01,02,…,46进行编号.现提供随机数表的第7行至第9行:844217533157245506887704744767217633502583921206766301637859169556571998105071751286735807443952387933211234297864560782524207443815510013429966027954若从表中第7行第41列开始向右依次读取2个数据,每行结束后,下一行依然向右读数,则得到的第8个样本编号是()A.07B.12C.39D.44【解答】解:由题意可知得到的样本编号依次为12,06,01,16,19,10,07,44,39,38,则得到的第8个样本编号是44.故选:D.2.(2023•赤峰模拟)某商场推出一种抽奖活动:盒子中装有有奖券和无奖券共10张券,客户从中任意抽取2张,若至少抽中1张有奖券,则该客户中奖,否则不中奖.客户甲每天都参加1次抽奖活动,一个月(30天)下来,发现自己共中奖11次,根据这个结果,估计盒子中的有奖券有()A.1张B.2张C.3张D.4