第一讲统计、统计案例热点题型1随机抽样【感悟经典】【典例】1.某企业在甲、乙、丙、丁四个城市分别有150个,120个,190个,140个销售点.为了调查产品的质量,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙城市有20个特大型销售点,要从中抽取8个调查,记这项调查为②,则完成①,②这两项调查宜采用的抽样方法依次为()A.分层抽样法、系统抽样法B.分层抽样法、简单随机抽样法C.系统抽样法、分层抽样法D.简单随机抽样法、分层抽样法2.为了调研雄安新区的空气质量状况,某课题组对雄县、容城、安新3县空气质量进行调查,按地域特点在三县内设置空气质量观测点,已知三县内观测点的个数分别为6,y,z,依次构成等差数列,且6,y,z+6成等比数列,若用分层抽样的方法抽取12个观测点的数据,则容城应抽取的数据个数为()A.8B.6C.4D.2【联想解题】1.看到调查①需从600个样本中抽取,想到用分层抽样;看到调查②样本容量较小,想到用简单随机抽样.2.利用三县内观测点的个数分别为6,y,z,依次构成等差数列,且6,y,z+6成等比数列,求出y,z,根据分层抽样的定义建立比例关系即可.【规范解答】1.选B.①四个城市销售点数量不同,个体存在差异比较明显,选用分层抽样;②丙城市特大销售点数量不多,使用简单随机抽样即可.故选B.2.选C.因为三县内观测点的个数分别为6,y,z,依次构成等差数列,且6,y,z+6成等比数列,所以所以y=12,z=18,若用分层抽样抽取12个观测点,则容城应该抽取的数据个数为×12=4.26z2y,y6z6,1261218【规律方法】1.简单随机抽样需满足的条件(1)被抽取的样本总体的个体数有限;(2)逐个抽取;(3)是不放回抽取;(4)是等可能抽取.2.系统抽样的求解思路系统抽样又称“等距抽样”,所以依次抽取的样本对应的号码就组成一个等差数列,首项就是第1组所抽取的样本号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组所要抽取的样本号码,但有时也不是按一定间隔抽取的.3.分层抽样的关注点为了保证每个个体被抽到的可能性是相同的,这就要求各层所抽取的个体数与该层所包含的个体数之比等于样本容量与总体的个体数之比.【对点训练】1.我校三个年级共有24个班,学校为了了解同学们的心理状况,将每个班编号,依次为1到24,现用系统抽样方法,抽取4个班进行调查,若抽到编号之和为48,则抽到的最小编号为()A.2B.3C.4D.5【解析】选B.系统抽样的抽取间隔为=6.设抽到的最小编号x,则x+(6+x)+(12+x)+(18+x)=48,所以x=3.6242.福利彩票“双色球”中红球的号码可以01,02,03,…,32,33这33个二位号码中选取,小明利用如图所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列和第10列的数字开始从左到右依次选取两个数字,则第四个被选中的红色球号码为()81472368639317901269868162935060913375856139850632359246225410027849821886704805468815192049A.12B.33C.06D.16【解析】选C.第1行第9列和第10列的数字为63,从左到右依次选取两个数字,依次为17,12,33,06,则第四个被选中的红色球号码为06.【提分备选】1.某工厂生产A,B,C三种不同型号的产品,其数量之比依次是3∶4∶7,现在用分层抽样的方法抽出样本容量为n的样本,样本中A型号产品有15件,那么n等于()A.50B.60C.70D.80【解析】选C.根据分层抽样的定义和方法,可得=,解得n=70.334715n2.采用系统抽样方法从1000人中抽取50人做问卷调查,为此将他们随机编号为1,2,…,1000,适当分组后在第一组采用简单随机抽样的方法抽到的号码为8,抽到的50人中,编号落入区间[1,400]的人做问卷A,编号落入区间[401,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷C的人数为()A.12B.13C.14D.15【解析】选A.由1000÷50=20,故由题意可得抽到的号码构成以8为首项、以20为公差的等差数列,且此等差数列的通项公式为an=8+(n-1)20=20n-12.由751≤20n-12≤1000解得38.2≤n≤50.6.再由n为正整数可得39≤n≤50,且n∈Z,故做问卷C的人数为12.热点题型2用样本估计总体【感悟经典】【典例】1.某城市公交公司为了更精准地服务于民,统计了某线路的10个车站上车的人数如下:70、60、60、60、50、40、40、30、30、10,则这组数据的众数、中位数、平均数的和为()A.170B.165C.160D.1502.(2018·广东六校三模)随着社会的发展,终身学习成为必要,工人知识要更新,学习培训必不可少,现某工厂有工人1000名,其中250名工人参加过短期培训(称为A类工人),另外750名工人参加过长期培训(称为B类工人),从该工厂的工人中共抽查了100名工人,调查他们的生产能力(此处生产能力指一天加工的零件数)得到A类工人生产能力的茎叶图(左图),B类工人生产能力的频率分布直方图(右图).(1)问A类、B类工人各抽查了多少工人,并求出直方图中的x.(2)求A类工人生产能力的中位数,并估计B类工人生产能力的平均数(同一组中的数据用该组区间的中点值作代表).【联想解题】1.看到求众数、中位数、平均数,想到按照定义去求解.2.看到茎叶图、频率分布直方图,想到茎叶图的特点和由频率分布直方图求平均数的方法.【规范解答】1.选D.这10个数的众数为60,中位数为=45,平均数为所以这组数据的众数、中位数、平均数的和为60+45+45=150.504027060606050404030301045,102.(1)由茎叶图知A类工人中抽查人数为25名,所以B类工人中应抽查100-25=75(名).由频率分布直方图得(0.008+0.02+0.048+x)×10=1,得x=0.024.(2)由茎叶图知A类工人生产能力的中位数为122,由(1)及频率分布直方图,估计B类工人生产能力的平均数为=115×0.008×10+125×0.020×10+135×0.048×10+145×0.024×10=133.8.Bx【规律方法】1.众数、中位数、平均数与直方图的关系(1)众数为频率分布直方图中最高矩形的底边中点的横坐标.(2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.(3)平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之积的和.2.方差的计算与含义计算方差首先要计算平均数,然后再按照方差的计算公式进行计算,方差和标准差是描述一个样本和总体的波动大小的特征数,标准差大说明波动大.【对点训练】1.(2018·黔东南州二模)甲乙两名同学6次考试的成绩统计如图,甲乙两组数据的平均数分别为标准差分别为σ甲,σ乙则()A.,σ甲σ乙B.,σ甲σ乙C.,σ甲σ乙D.,σ甲σ乙xx甲乙,,x甲x乙x甲x乙x甲x乙x甲x乙【解析】选C.由图可知,甲同学除第二次考试成绩略低于乙同学,其他次考试都远高于乙同学,可知,图中数据显示甲同学的成绩比乙同学稳定,故σ甲σ乙.x甲x乙2.(2018·泸州二模)如图是2017年第一季度五省GDP情况图,则下列陈述中不正确的是()A.2017年第一季度GDP总量和增速由高到低排位均居同一位的省只有1个B.与去年同期相比,2017年第一季度五个省的GDP总量均实现了增长C.去年同期河南省的GDP总量不超过4000亿元D.2017年第一季度GDP增速由高到低排位第5的是浙江省【解析】选A.因为由图中数据可知2017年第一季度GDP总量和增速由高到低排位均居同一位的省,江苏都是第一位,河南都是第4位,所以A不正确,与去年同期相比,2017年第一季度五个省的GDP总量均实现了增长,去年同期河南省的GDP总量不超过4000亿元,2017年第一季度GDP增速由高到低排位第5的是浙江省,所以B,C,D都是正确的.【提分备选】1.某赛季,甲、乙两名篮球运动员都参加了11场比赛,他们每场比赛得分的情况用如图所示的茎叶图表示,则甲、乙两名运动员的中位数分别为()A.19,13B.13,19C.20,18D.18,20【解析】选A.由茎叶图知甲的分数是6,8,9,15,17,19,23,24,26,32,41,共有11个数据,中位数是最中间一个19,乙的数据是5,7,8,11,11,13,20,22,30,31,40,共有11个数据,中位数是最中间一个13.2.某次知识竞赛中,四个参赛小队的初始积分都是100分,在答题过程中,各小组每答对1题都可以使自己小队的积分增加5分,若答题过程中四个小队答对的题数分别是4道,7道,7道,2道,则四个小组积分的方差为()A.50B.75.5C.112.5D.225【解析】选C.由已知得四个小组积分分别为:120,135,135,110,所以四个小组积分的平均值为(120+135+135+110)=125,所以四个小组积分的方差为:s2=[(120-125)2+(135-125)2+(135-125)2+(110-125)2]=112.5.1x414热点题型3线性回归分析与独立性检验【感悟经典】【典例】1.(2018·厦门二模)为了解学生的课外阅读时间情况,某学校随机抽取了50人进行统计分析,把这50人每天阅读的时间(单位:分钟)绘制成频数分布表,如下表所示:阅读时间[0,20)[20,40)[40,60)[60,80)[80,100)[100,120]人数810121172若把每天阅读时间在60分钟以上(含60分钟)的同学称为“阅读达人”,根据统计结果中男女生阅读达人的数据,制作出如图所示的等高条形图.(1)根据抽样结果估计该校学生的每天平均阅读时间(同一组数据用该区间的中点值作为代表).(2)根据已知条件完成下面的2×2列联表,并判断是否有99%的把握认为“阅读达人”跟性别有关?男生女生总计阅读达人非阅读达人总计附:参考公式K2=,其中n=a+b+c+d.临界值表:2n(adbc)(ab)(cd)(ac)(bd)P(K2≥k)0.1000.0500.0100.001K2.7063.8416.63510.8282.(2018·湖北八校二诊)近年来,某地区积极践行“绿水青山就是金山银山”的绿色发展理念,2012年年初至2018年年初,该地区绿化面积y(单位:平方公里)的数据如下表:年份2012201320142015201620172018年份代号t1234567绿化面积y2.93.33.64.44.85.25.9(1)求y关于t的线性回归方程.(2)利用(1)中的回归方程,预测该地区2022年年初的绿化面积,并计算2017年年初至2022年年初,该地区绿化面积的年平均增长率约为多少.(附:回归直线的斜率与截距的最小二乘法估计公式分别为lg3≈0.477,lg2≈0.301,100.0352≈1.084)niii1n2ii1(tt)(yy)ˆˆˆb,aybt(tt)--,-【联想解题】1.看到2×2列联表,想到独立性检验的计算公式,及判断是否有关.2.看到线性回归,想到代入回归系数公式求回归直线方程.【规范解答】1.(1)该校学生的每天平均阅读时间为:=1.6+6+12+15.4+12.6+4.4=52(分钟)8101211721030507090110505050505050(2)由频数分布表得,“阅读达人”的人数是11+7+2=20人,根据等高条形图得2×2列联表男生女生总计阅读达人61420非阅读达人181230总计242650K2的观测值k==≈4.327,由于4.3276.635,故没有99%的把握认为“阅读达人”跟性别有关