第一部分专题强化突破专题七概率与统计知识网络构建第一讲统计与统计案例1高考考点聚焦2核心知识整合3高考真题体验4命题热点突破5课后强化训练高考考点聚焦高考考点考点解读抽样方法1.分层抽样中利用抽样比确定样本容量、各层抽样的个体数等2.考查系统抽样的有关计算样本频率分布、数字特征1.频率分布直方图、茎叶图的绘制及识图,并利用图解决实际问题2.茎叶图与数字特征相结合考查3.平均数和方差的计算线性回归分析与独立性检验在实际问题中的应用1.线性回归方程的求解及应用2.独立性检验的应用以及独立性检验与统计、概率的综合问题•备考策略•本部分内容在备考时应注意以下几个方面:•(1)掌握三种抽样的特点及相互联系,特别是系统抽样和分层抽样的应用.•(2)会用样本的频率分布估计总体分布,会用样本的数字特征估计总体的数字特征.•(3)了解回归分析及独立性检验的基本思想,认识其统计方法在决策中的应用.•预测2019年命题热点为:•(1)频率分布直方图、茎叶图的绘制及应用.•(2)数字特征的求解及应用.•(3)线性回归方程的求解及应用.核心知识整合1.抽样方法三种抽样方法包括:_____________、___________、____________.2.统计图表(1)在频率分布直方图中:①各小矩形的面积表示相应各组的频率,各小矩形的高=________;②各小矩形面积之和等于______;③中位数左右两侧的直方图面积_______,因此可以估计其近似值.(2)茎叶图简单随机抽样系统抽样分层抽样频率组距1相等3.样本的数字特征(1)众数:在样本数据中,出现次数最多的那个数据.中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数;(2)样本平均数x=1n(x1+x2+…+xn)=1ni=1nxi;(3)样本方差s2=___________________________________=1ni=1n(xi-x)2;1n[(x1-x)2+(x2-x)2+…+(xn-x)2](4)样本标准差s=__________________________________________=1ni=1nxi-x2.1n[x1-x2+x2-x2+…+xn-x2]注意:(1)现实中总体所包含的个体数往往较多,总体的平均数与标准差、方差是不知道(或不可求)的,所以我们通常用样本的平均数与标准差、方差来估计总体的平均数与标准差、方差.(2)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定.4.变量间的相关关系(1)利用散点图可以初步判断两个变量之间是否线性相关.如果散点图中的点从整体上看大致分布在一条直线的附近,我们说变量x和y具有线性相关关系.(2)用最小二乘法求回归直线的方程设线性回归方程为y^=b^x+a^,则________________注意:回归直线一定经过样本的中心点(x-,y-),据此性质可以解决有关的计算问题.5.回归分析r=i=1nxi-x-yi-y-i=1nxi-x-2i=1nyi-y-2,叫做相关系数.相关系数用来衡量变量x与y之间的线性相关程度;|r|≤1,且|r|越接近于1,相关程度越高,|r|越接近于0,相关程度越低.•6.独立性检验•假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d则K2=a+b+c+dad-bc2a+bc+da+cb+d,若K23.841,则有95%的把握说两个事件有关;若K26.635,则有99%的把握说两个事件有关;若K22.706,则没有充分理由认为两个事件有关.•1.混淆简单随机抽样、系统抽样、分层抽样,不能正确地选择抽样方法.•2.不能正确地从频率分布直方图中提取相关的信息,忽略了频数与频率的差异.•3.混淆条形图与直方图,条形图是离散随机变量,纵坐标刻度为频数与频率,直方图是连续随机变量,纵坐标刻度为频率/组距,这是密度,连续随机变量在某一点上是没有频率的.•4.回归分析是对具有相关关系的两个变量进行统计分析的方法.只有在散点图大致呈线性时,求出的回归直线方程才有实际意义.高考真题体验•1.(2018·全国卷Ⅰ,3)某地区经过一年的新农村建设,农村的经济收入增加了一倍.实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例.得到如下饼图:•则下面结论中不正确的是()•A.新农村建设后,种植收入减少•B.新农村建设后,其他收入增加了一倍以上•C.新农村建设后,养殖收入增加了一倍•D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半A[解析]设新农村建设前的收入为M,而新农村建设后的收入为2M,则新农村建设前种植收入为0.6M,而新农村建设后的种植收入为0.74M,所以种植收入增加了,所以A项不符合题意;新农村建设前其他收入为0.04M,新农村建设后其他收入为0.1M,故增加了一倍以上,所以B项符合题意;新农村建设前,养殖收入为0.3M,新农村建设后为0.6M,所以增加了一倍,所以C项符合题意;新农村建设后,养殖收入与第三产业收入的总和占经济收入为30%+28%=58%50%,所以超过了经济收入的一半,所以D项符合题意,故选A.2.(2017·全国卷Ⅲ,3)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.•根据该折线图,下列结论错误的是()•A.月接待游客量逐月增加•B.年接待游客量逐年增加•C.各年的月接待游客量高峰期大致在7,8月•D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳•[解析]对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;•对于选项B,观察折线图的变化趋势可知年接待游客逐年增加,故B正确;•对于选项C,D,由图可知显然正确.故选A.A•3.(2018·全国卷Ⅲ,14)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是_____________.•[解析]根据题干中有大量客户,且不同年龄段客户对其服务的评价有较大差异,可知最合适的抽样方法是分层抽样.分层抽样•4.(2018·江苏卷,3)已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为________.[解析]89+89+90+91+915=90.90•5.(2018·全国卷Ⅰ,19)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:•未使用节水龙头50天的日用水量频数分布表日用水量[0,0.1)[0.1,0.2)[0.2,0.3)[0.3,0.4)[0.4,0.5)[0.5,0.6)[0.6,0.7)频数13249265使用了节水龙头50天的日用水量频数分布表日用水量[0,0.1)[0.1,0.2)[0.2,0.3)[0.3,0.4)[0.4,0.5)[0.5,0.6)频数151310165•(1)作出使用了节水龙头50天的日用水量数据的频率分布直方图.•(2)估计该家庭使用节水龙头后,日用水量小于0.35m3的概率.•(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表.)[解析](1)(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,因此该家庭使用节水龙头后日用水量小于0.35m3的概率的估计值为0.48.(3)该家庭未使用节水龙头50天的日用水量的平均数为x1=150(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.该家庭使用了节水龙头后50天的日用水量的平均数为x2=150(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).•6.(2018·全国卷Ⅲ,18)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:•(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.•(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=nad-bc2a+bc+da+cb+d,PK2≥k00.0500.0100.001k03.8416.63510.828•[解析](1)第二种生产方式的效率更高.•理由如下:•方法一:由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79min.因此第二种生产方式的效率更高.•方法二:由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5min,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5min.因此第二种生产方式的效率更高.•方法三:由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80min;用第二种生产方式的工人完成生产任务平均所需时间低于80min,因此第二种生产方式的效率更高.方法四:由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.(2)由茎叶图知m=79+812=80.超过m不超过m第一种生产方式155第二种生产方式515(3)由于K2的观测值k=40×15×15-5×5220×20×20×20=106.635,所以有99%的把握认为两种生产方式的效率有差异.命题热点突破命题方向1抽样方法•(1)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是()•A.简单随机抽样B.按性别分层抽样•C.按学段分层抽样D.系统抽样C[解析]因为男女生视力情况差异不大,而学段的视力情况有鹿大差异,所以应按学段分层抽样.故选C.•(2)已知某地区中小学生人数和近视情况分布如图1和图2所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为()A.200,20B.100,20C.200,10D.100,10A[解析]由题图可知,样本容量等于(3500+4500+2000)×2%=200;抽取的高中生近视人数为2000×2