8.4统计与统计案例(精讲)一.简单随机抽样1.定义:一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤nN)个个体作为样本.如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样.放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.(除非特殊声明,本章所称的简单随机抽样指不放回简单随机抽样)2.简单随机样本:通过简单随机抽样获得的样本称为简单随机样本.3.简单随机抽样的常用方法:抽签法和随机数法二.分层随机抽样1.分层随机抽样的概念一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.2.分层随机抽样的平均数计算在分层随机抽样中,以层数是2层为例,如果第1层和第2层包含的个体数分别为M和N,抽取的样本量分别为m和n,样本平均数分别为x,y,总体的样本平均数为w,则w=MM+Nx+NM+Ny=mm+nx+nm+ny.三.总体百分位数的估计1.百分位数:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.2.百分位数的意义:反映该组数中小于或等于该百分位数的分布特点.四.总体集中趋势的估计名称概念平均数如果有n个数x1,x2,…,xn,那么1n(x1+x2+…+xn)就是这组数据的平均数,用x表示,即x=1n(x1+x2+…+xn)中位数将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)叫做这组数据的中位数众数一组数据中出现次数最多的数据(即频数最大值所对应的样本数据)叫做这组数据的众数五.总体离散程度的估计总体(样本)方差和总体(样本)标准差假设一组数据是x1,x2,…,xn,用x表示这组数据的平均数,那么这n个数的1.标准差s=1n[(x1-x)2+(x2-x)2+…+(xn-x)2];2.方差s2=1n[(x1-x)2+(x2-x)2+…+(xn-x)2].六.相关关系1.变量的相关关系(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)散点图:每一个成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们把这样的统计图叫做散点图.(3)相关关系的分类:正相关和负相关.(4)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关.2.样本相关系数(1)r=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2∑ni=1(yi-x)2.(2)当r0时,称成对样本数据正相关;当r0时,称成对样本数据负相关.(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型参数的最小二乘估计(1)我们将y^=b^x+a^称为Y关于x的经验回归方程,其中b^=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2,a^=y-b^x.七、独立性检验1.分类变量与列联表(1)分类变量:在讨论问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.(2)2×2列联表列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为y1y2合计x1aba+bx2cdc+d合计a+cb+da+b+c+d2.独立性检验(1)零假设:以Ω为样本空间的古典概型.设X和Y为定义在Ω上,取值于{0,1}的成对分类变量.H0:分类变量X和Y独立.通常称H0为零假设或原假设.(2)χ2公式假设我们通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示:XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+dχ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).对于任何小概率值α,可以找到相应的正实数xα,使得下面关系成立:P(χ2≥xα)=α.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.概率值α越小,临界值xα越大.(3)独立性检验基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.一.分层随机抽样1.抽样比=该层样本容量n总样本容量N=该层抽取的个体数该层的个体数.2.在分层随机抽样中,如果第一层的样本量为m,平均值为x;第二层的样本量为n,平均值为y,则样本的平均值为mx+nym+n.二.计算一组数据第p百分位数的步骤三.频率分布直方图的数字特征1.众数:众数一般用频率分布表中频率最高的一组的组中值来表示,即在样本数据的频率分布直方图中,最高矩形的底边中点的横坐标;2.中位数:在频率分布直方图中,中位数左边和右边的直方图的面积和应该相等;3.平均数:平均数在频率分布表中等于组中值与对应频率之积的和,即在频率分布直方图中,每个小矩形的面积乘以小矩形底边中点的横坐标之和.四.常用结论1.画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.2.相关系数:当r0时,正相关;当r0时,负相关;|r|越接近于1,相关性越强.3.经验回归方程:当b^0时,正相关;当b^0时,负相关.4.若x1,x2,…,xn的平均数为x,那么mx1+a,mx2+a,…,mxn+a的平均数为mx+a;5.若x1,x2,…,xn的方差为s2,那么ax1+b,ax2+b,…,axn+b的方差为a2s2;6.s2=1n∑ni=1(xi-x)2=1n∑ni=1x2i-x2,即各数平方的平均数减去平均数的平方.考点一简单随机抽样及分层抽样【例1-1】(2023·贵州·校联考模拟预测)已知某班共有学生46人,该班语文老师为了了解学生每天阅读课外书籍的时长情况,决定利用随机数表法从全班学生中抽取10人进行调查.将46名学生按01,02,…,46进行编号.现提供随机数表的第7行至第9行:844217533157245506887704744767217633502583921206766301637859169556571998105071751286735807443952387933211234297864560782524207443815510013429966027954若从表中第7行第41列开始向右依次读取2个数据,每行结束后,下一行依然向右读数,则得到的第8个样本编号是()A.07B.12C.39D.44【例1-2】(2023秋·湖南长沙·高三长郡中学校考假期作业)为了庆祝中国共产党第二十次全国代表大会,学校采用按比例分配的分层随机抽样的方法从高一1002人,高二1002人,高三1503人中抽取126人观看“中国共产党第二十次全国代表大会”直播,那么高三年级被抽取的人数为()A.36B.42C.50D.54【一隅三反】1.(2023秋·云南·高三校联考阶段练习)要调查某地区高中学生身体素质,从高中生中抽取100人进行跳远测试,根据测试成绩制作频率分布直方图如图,现从成绩在120,140之间的学生中用分层抽样的方法抽取5人,应从120130,间抽取人数为b,则().A.0.025a,2bB.0.025a,3bC.0.030a,4bD.0.030a,3b2.(2023·西藏日喀则·统考一模)某市四区夜市地摊的摊位数和食品摊位比例分别如图1、图2所示,为提升夜市消费品质,现用分层抽样的方法抽取5%的摊位进行调查分析,则抽取的样本容量与B区被抽取的食品摊位数分别为()A.210,24B.210,12C.252,24D.252,123.(2023·河南·襄城高中校联考三模)现有300名老年人,500名中年人,400名青年人,从中按比例用分层随机抽样的方法抽取n人,若抽取的老年人与青年人共21名,则n的值为()A.15B.30C.32D.364.(2023·全国·高三对口高考)某学校为了调查学生的学习状况,由每班随机抽取5名学生进行调查.若一班有50名学生,将每一学生编号,从01到50为止,请从随机数表的第2行第11列(下表为随机数表的前5行)的42开始,依次向右,直到取足样本,则抽取样本的号码是.03474373863696473661469863716233261680456011141095977424676242811457204253323732270736075124517989731676622766565026710732907978531355385859889754141012568599269696682731050372931557121014218826498176555956356438548246223162430990061844325323830130305.(2022·全国·高三专题练习)总体由编号为01,02,,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始从左到右依次选取两个数字,则选出来的第5个个体的编号为.7816657208026314070243699728019832049234493582003623486969387481考点二统计图表【例2-1】(2023秋·陕西西安·高三校联考开学考试)某公司统计了2023年1月至6月的月销售额(单位:万元),并与2022年比较,得到同比增长率数据,绘制了如图所示的统计图,则下列说法正确的是()注:同比增长率(今年月销售额去年同期月销售额)去年同期月销售额100%.A.2023年1月至6月的月销售额的极差为6B.2023年1月至6月的月销售额逐月递增C.2023年1月至6月的月销售额的中位数为9.5D.2022年5月的月销售额为8万元【例2-2】(2023·福建三明·统考三模)(多选)已知某地区中小学生人数如图①所示,为了解该地区中小学生的近视情况,卫生部门根据当地中小学生人数,用分层抽样的方法抽取了10%的学生进行视力调查,调查数据如图②所示,下列说法正确的有()图①图②A.该地区的中小学生中,高中生占比为20%B.抽取调查的高中生人数为200人C.该地区近视的中小学生中,高中生占比超过40%D.从该地区的中小学生中任取3名学生,记近视人数为,则的数学期望约为0.81【一隅三反】1.(2023·全国·高三专题练习)Keep是一款具有社交属性的健身APP,致力于提供健身教学、跑步、骑行、交友及健身饮食指导、装备购买等一站式运动解决方案.Keep可以让你随时随地进行锻炼,记录你每天的训练进程.不仅如此,它还可以根据不同人的体质,制定不同的健身计划.小张根据Keep记录的2022年1月至2022年11月期间每月跑步的里程(单位:十公里)数据整理并绘制了下面的折线图.根据该折线图,下列说法错误的是()A.月跑步里程逐月增加B.月跑步里程最大值出现在10月C.月跑步里程的中位数为5月份对应的里程数D.1月至5月的月跑步里程相对于6月至11月波动性更小2(2023秋·河北保定·高三校联考开学考试)(多选)某公司统计了2023年1月至6月的月销售额(单位:万元),并与2022年比较,得到同比增长率数据,绘制了如图所示的统计图,则下列说法正确的是()注:同比增长率=(今年月