第二部分讲练篇专题三概率与统计第2讲统计与统计案例自主练考点整合[做小题——激活思维]1.采用系统抽样的方法从800人中抽取40人参加某种测试,为此将800人随机编号为1,2,…,800,分组后在第一组采用简单随机抽样的方法抽到的号码为18,在抽到的40人中,编号落入区间[1,200]的人做试卷A,编号落入区间[201,560]的人做试卷B,其余的人做试卷C,则做试卷C的人数为()A.10B.12C.18D.28[答案]B2.某校有高级教师26人,中级教师104人,其他教师若干人,现按分层抽样的方法从该校的所有教师中抽取56人进行某项调查,已知从其他教师中共抽取了16人,则该校共有教师人数为()A.81B.152C.182D.202[答案]C3.为了参加端午节龙舟赛,某龙舟队进行了6次测试,测得最大速度(单位:m/s)的茎叶图如图所示,则6次测试的最大速度的平均数为________m/s,方差为________.[答案]334734.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据,第i次试验零件个数xi(单位:个)与加工零件所花费时间yi(单位:小时)的数据资料,算得∑10i=1xi=80,∑10i=1yi=20,∑10i=1xiyi=184,∑10i=1x2i=720,那么加工零件所花费时间y对零件个数x的线性回归方程为________.y^=0.3x-0.4[由题意知n=10,x=1n∑ni=1xi=8010=8,y=1n∑ni=1yi=2010=2,又∑ni=1x2i-nx2=720-10×82=80,∑ni=1xiyi-nxy=184-10×8×2=24,由此得b^=2480=0.3,a^=y-b^x=2-0.3×8=-0.4,故所求回归方程为y^=0.3x-0.4.]5.在西非“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:感染未感染总计服用104050未服用203050总计3070100附表:P(K2≥k0)0.100.050.025k02.7063.8415.024参照附表,在犯错误的概率不超过________的前提下,认为“小动物是否被感染与服用疫苗有关”.0.05[由题意算得,K2=100×10×30-20×40250×50×30×70≈4.762>3.841,参照附表,可得:在犯错误的概率不超过0.05的前提下,认为“小动物是否被感染与服用疫苗有关”.][扣要点——查缺补漏]1.随机抽样简单随机抽样的特点是逐个抽取,适用于总体个数较少的情况;系统抽样也称等距抽样,适用总体个数较多的情况,如T1;分层抽样一定要注意按比例抽取,总体由差异明显的几部分组成,如T2.2.统计图表和样本数字特征(1)由频率分布直方图进行相关计算时,需掌握关系式:频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数.(2)总体估计的方法:用样本的数字特征估计总体的数字特征.(3)图表判断法:若根据统计图表比较样本数据的大小,可根据数据的分布情况直观分析,大致判断平均数的范围,并利用数据的波动性大小比较方差(标准差)的大小.如T3.3.统计案例(1)线性回归方程问题的两个要点:样本点的中心在回归直线上;由线性回归方程求出的数值是估计值.如T4.(2)独立性检验的关键在于准确求出K2值,然后对比临界值表中的数据,最后下结论.如T5.研考题举题固法抽样方法(5年2考)[高考解读]全国卷对抽样方法的要求较低,很少单独命题考查.分层抽样[因为不同年龄段的客户对公司的服务评价有较大差异,所以需按年龄进行分层抽样,才能了解到不同年龄段的客户对公司服务的客观评价.]1.(2018·全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.切入点:不同年龄段客户对其服务的评价有较大差异.关键点:正确掌握三种抽样方法的特点及适用条件.2.(2019·全国卷Ⅰ)某学校为了解1000名新生的身体素质,将这些学生编号为1,2,…,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是()A.8号学生B.200号学生C.616号学生D.815号学生切入点:①系统抽样;②46号学生被抽到.关键点:正确掌握系统抽样的概念.C[根据题意,系统抽样是等距抽样,所以抽样间隔为1000100=10.因为46除以10余6,所以抽到的号码都是除以10余6的数,结合选项知应为616.故选C.]系统抽样和分层抽样中的计算1系统抽样①总体容量为N,样本容量为n,则要将总体均分成n组,每组Nn个有零头时要先去掉.②若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+Nn,…,k+n-1Nn.2分层抽样按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.D[从被抽中的3名学生的学号可以看出学号间距为13,所以样本中还有一名学生的学号是16,故选D.]1.(系统抽样)某班共有52人,现根据学生的学号,用系统抽样的方法抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一名学生的学号是()A.10B.11C.12D.162.(分层抽样)某商场有四类食品,食品类别和种数见下表:类别粮食类植物油类动物性食品类果蔬类种数40103020现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样方法抽取样本,则抽取的植物油类与果蔬类食品种数之和为________.6[因为粮食类种数∶植物油类种数∶动物性食品类种数∶果蔬类种数=40∶10∶30∶20=4∶1∶3∶2,所以根据分层抽样的定义可知,抽取的植物油类食品种数为110×20=2,抽取的果蔬类食品种数为210×20=4,所以抽取的植物油类与果蔬类食品种数之和为2+4=6.]3.(简单随机抽样)“双色球”彩票中红色球的号码由编号为01,02,…,33的33个个体组成,一位彩民利用下面的随机数表选取6组数作为6个红色球的编号,选取方法是从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出来的第6个红色球的编号为________.4954435482173793237887352096438426349164572455068877047447672176335025839212067602[从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出的6个红色球的编号依次为21,32,09,16,17,02,故选出的第6个红色球的编号为02.]4.(分层抽样与统计图表的综合)某企业三月中旬生产A、B、C三种产品共3000件,根据分层抽样的结果,企业统计员制作了如下的统计表格:产品类别ABC产品数量(件)1300样本容量(件)130由于不小心,表格中A、C产品的有关数据已被损坏,统计员记得A产品的样本容量比C产品的样本容量多10,根据以上信息,可得C产品的数量是________.800[设样本的总容量为x,则x3000×1300=130,∴x=300.∴A产品和C产品在样本中共有300-130=170(件),设C产品的样本容量为y,则y+y+10=170,∴y=80,∴C产品的数量为3000300×80=800.]用样本估计总体(5年10考)[高考解读]高考对该部分内容的考查常涉及频率分布表、茎叶图、频率分布直方图等,是高考的重点和热点.涉及的样本数字特征主要有平均数、众数、中位数和方差,难度不大,多为基础题.1.(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半切入点:①建设前经济收入构成比例;②建设后经济收入构成比例.关键点:从图表中正确提取有用信息.A[设新农村建设前经济收入的总量为x,则新农村建设后经济收入的总量为2x.建设前种植收入为0.6x,建设后种植收入为0.74x,故A不正确;建设前其他收入为0.04x,建设后其他收入为0.1x,故B正确;建设前养殖收入为0.3x,建设后养殖收入为0.6x,故C正确;建设后养殖收入与第三产业收入的总和占建设后经济收入总量的58%,故D正确.]2.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图.根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳切入点:2014年1月至2016年12月期间月接待游客量的数据.关键点:从折线图中准确提取信息.A[对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;对于选项C,D,由图可知显然正确.故选A.]3.(2019·全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.y的分组[-0.20,0)[0,0.20)[0.20,0.40)[0.40,0.60)[0.60,0.80)企业数22453147(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:74≈8.602.切入点:频数分布表.关键点:正确应用平均数与标准差的计算方法.[解](1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y=1100×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,s2=1100∑5i=1ni(yi-y)2=1100×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.0296,s=0.0296=0.02×74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.1.方差的计算与含义(1)计算:计算方差首先要计算平均数,然后再按照方差的计算公式进行计算.(2)含义:方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大.2.从频率分布直方图中得出有关数据的方法频率频率分布直方图中横轴表示组数,纵轴表示频率组距,频率=组距×频率组距频率比频率分布直方图中各小长方形的面积之和为1,各小长方形高的比也就是频率比众数最高小长方形底边中点的横坐标中位数平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标平均数频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和1.(频率分布折线图、众数)某同学将全班某次数学考试成绩整理成频率分布直方图后,并将每个小矩形上方线段的中点连接起来得到频率分布折线图(如图所示).据此估计此次考试成绩的众数是()A.100B.110C.115D.120C[众数是一组数据出现次数最多的数,结合题中频率分布折线图