专题整合、突破篇第二篇概率与统计专题七第三讲正态分布、统计与统计案例核心考点突破H典例精析题型突破考点一正态分布1.正态曲线的性质(1)曲线位于x轴上方,与x轴不相交;曲线关于直线x=μ对称,且在x=μ处达到峰值.(2)曲线与x轴之间的面积为1.(3)当μ一定时,曲线的形状由σ确定,σ越小,曲线越“瘦高”,表示总体的分布越集中;σ越大,曲线越“矮胖”,表示总体的分布越分散.2.正态分布X~N(μ,σ2)的三个常用数据(1)P(μ-σX≤μ+σ)=0.6826;(2)P(μ-2σX≤μ+2σ)=0.9544;(3)P(μ-3σX≤μ+3σ)=0.9974.[解题指导][解](1)抽取的一个零件的尺寸在(μ-3σ,μ+3σ)之内的概率为0.9974,从而零件的尺寸在(μ-3σ,μ+3σ)之外的概率为0.0026,故X~B(16,0.0026).因此P(X≥1)=1-P(X=0)=1-0.997416≈0.0408.X的数学期望为E(X)=16×0.0026=0.0416.(2)(ⅰ)如果生产状态正常,一个零件尺寸在(μ-3σ,μ+3σ)之外的概率只有0.0026,一天内抽取的16个零件中,出现尺寸在(μ-3σ,μ+3σ)之外的零件的概率只有0.0408,发生的概率很小.因此一旦发生这种情况,就有理由认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查,可见上述监控生产过程的方法是合理的.(ⅱ)由x-=9.97,s≈0.212,得μ的估计值为μ^=9.97,σ的估计值为σ^=0.212,由样本数据可以看出有一个零件的尺寸在(μ^-3σ^,μ^+3σ^)之外,因此需对当天的生产过程进行检查.剔除(μ^-3σ^,μ^+3σ^)之外的数据9.22,剩下数据的平均数为115×(16×9.97-9.22)=10.02,因此μ的估计值为10.02.i=116x2i=16×0.2122+16×9.972≈1591.134,剔除(μ^-3σ^,μ^+3σ^)之外的数据9.22,剩下数据的样本方差为115×(1591.134-9.222-15×10.022)≈0.008,因此σ的估计值为0.008≈0.09.正态分布应关注的两点(1)利用P(μ-σX≤μ+σ),P(μ-2σX≤μ+2σ),P(μ-3σX≤μ+3σ)的值直接求解.(2)充分利用正态曲线的对称性和曲线与x轴之间的面积为1来求解.[对点训练]1.(2018·兰州检测)设X~N(μ1,σ21),Y~N(μ2,σ22),这两个正态分布密度曲线如图所示,下列结论中正确的是()A.P(Y≥μ2)≥P(Y≥μ1)B.P(X≤σ2)≤P(X≤σ1)C.对任意正数t,P(X≥t)≥P(Y≥t)D.对任意正数t,P(X≤t)≥P(Y≤t)[解析]由题图可知μ10μ2,σ1σ2,∴P(Y≥μ2)P(Y≥μ1),故A错;P(X≤σ2)P(X≤σ1),故B错;当t为任意正数时,由题图可知P(X≤t)≥P(Y≤t),而P(X≤t)=1-P(X≥t),P(Y≤t)=1-P(Y≥t),∴P(X≥t)≤P(Y≥t),故C正确,D错.[答案]C2.某校组织了“2017年第15届希望杯数学竞赛(第一试)”,已知此次选拔赛的数学成绩X服从正态分布N(72,121)(单位:分),此次考生共有500人,估计数学成绩在72分到83分之间的人数约为(参数数据:P(μ-σXμ+σ)=0.6826,P(μ-2σXμ+2σ)=0.9544.)()A.238B.170C.340D.477[解析]因为X~N(72,121),所以μ=72,σ=11,又P(μ-σXμ+σ)=0.6826,所以P(61X83)=0.6826,因为该正态曲线关于直线x=72对称,所以P(72X83)=12P(61X83)=12×0.6826=0.3413,所以0.3413×500=170.65,从而可得在72分到83分之间的人数约为170,故选B.[答案]B考点二抽样方法、用样本估计总体1.抽样方法抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样.2.频率分布直方图(1)频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距.(2)频率分布直方图中各小长方形的面积之和为1.3.方差公式s2=1n[(x1-x-)2+(x2-x-)2+…+(xn-x-)2][对点训练]1.(2018·安徽皖南八校联考)某校为了解1000名高一新生的健康状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为()A.16B.17C.18D.19[解析]第一组用简单随机抽样抽取的号码为443-(18-1)×100040=18.故选C.[答案]C2.(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半[解析]设建设前经济收入为a,则建设后经济收入为2a,由题图可知:种植收入第三产业收入养殖收入其他收入建设前经济收入0.6a0.06a0.3a0.04a建设后经济收入0.74a0.56a0.6a0.1a根据上表可知B、C、D结论均正确,结论A不正确,故选A.[答案]A3.(2018·山东临沂一模)传承传统文化再掀热潮,在刚刚过去的新春假期中,央视科教频道以诗词知识竞赛为主的《中国诗词大会》火爆荧屏,如图的茎叶图是两位选手在个人追逐赛中的比赛得分,则下列说法正确的是()A.甲的平均数大于乙的平均数B.甲的中位数大于乙的中位数C.甲的方差大于乙的方差D.甲的平均数等于乙的中位数[解析]由茎叶图,知:x-甲=19(59+45+32+38+24+26+11+12+14)=29,x-乙=19(51+43+30+34+20+25+27+28+12)=30,s2甲=19[302+162+32+92+(-5)2+(-3)2+(-18)2+(-17)2+(-15)2]≈235.3,s2乙=19[212+132+02+42+(-10)2+(-5)2+(-3)2+(-2)2+(-18)2]≈120.9,甲的中位数为:26,乙的中位数为:28,∴甲的方差大于乙的方差.故选C.[答案]C4.(2018·正定中学抽测)从某中学高一年级中随机抽取100名同学,将他们的成绩(单位:分)数据绘制成频率分布直方图(如图),则这100名学生成绩的平均数为________,中位数为________.[解析]由图可知,平均数x=105×0.1+115×0.3+125×0.25+135×0.2+145×0.15=125.中位数在120~130之间,设为x,则0.01×10+0.03×10+0.025×(x-120)=0.5,解得x=124.[答案]125124[快速审题](1)看到系统抽样,想到分段间隔.(2)看到分层抽样,想到抽样比.(3)看到频率分布直方图,想到频数与频率的区别以及计算方法和频率分布直方图中横轴与竖轴中的数据的意义.(4)看到方差,想到方差的含义及方差的计算公式.统计问题应关注的3点(1)分层抽样的关键是确定抽样比例,系统抽样主要是确定分段间隔,应用等差数列计算个体号码数.(2)在频率分布直方图中,众数为最高矩形的底边中点的横坐标,中位数为垂直横轴且平分直方图面积的直线与横轴交点的横坐标,平均数为每个小矩形的面积乘以相应小矩形底边中点的横坐标之积的和.(3)计算方差首先要计算平均数,然后再按照方差的计算公式进行计算.方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大.考点三统计案例1.线性回归方程方程y^=b^x+a^称为线性回归方程,其中b^=i=1nxiyi-nxyi=1nx2i-nx2,a^=y-b^x;(x,y)称为样本中心点.2.独立性检验K2=nad-bc2a+bc+da+cb+d(其中n=a+b+c+d为样本容量).角度1:线性回归分析【例1】(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.[解](1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y^=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(答出其中任意一种或其他合理理由均可)角度2:独立性检验【例2】(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:[解题指导]由题意列出2×2列联表→求出K2→与临界值比较→得出结论[解](1)第二种生产方式的效率更高.理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,答出其中任意一种或其他合理理由均可).(2)由茎叶图知m=79+812=80.列联表如下:超过m不超过m第一种生产方式155第二种生产方式515(3)由于K2=40×15×15-5×5220×20×20×20=106.635,所以有99%的把握认为两种生产方式的效率有差异.(1)求回归直线方程的关键①正确理解计算b^,a^的公式和准确的计算,其中线性回归方程必过样本中心点(x,y).②在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有