数学第十一章统计与统计案例第4讲概率统计中的数学建模与数据分析01核心考点深度剖析02高效演练分层突破概率统计中的创新性问题是高考的命题重点,不仅注重模块知识内的综合,也注重模块知识间的综合,更多地体现对数学建模与数据分析核心素养的考查.命题的重点有:(1)考查数学建模核心素养,以实际生活中的环保、民生、科技等为背景,考查函数、数列等模型的建立,其中求解这些实际问题的最优化是近年高考命题的热点.(2)考查数据分析核心素养,常考查对数据的搜集与归类,并利用不同的特征值对研究对象做出理性的判断.图表与概率交汇(师生共研)(2020·广东六校第一次联考)某机构组织语文、数学学科能力竞赛,按照一定比例淘汰后,颁发一、二、三等奖(分别对应成绩等级的一、二、三等级).现有某考场所有考生的两科成绩等级统计如图1所示,其中获数学二等奖的考生有12人.图1(1)求该考场考生中获语文一等奖的人数;(2)用随机抽样的方法从获得数学和语文二等奖的考生中各抽取5人,进行综合素质测试,将他们的综合得分绘成茎叶图(如图2所示),求样本的平均数及方差并进行比较分析;图2(3)已知本考场的所有考生中,恰有3人两科均获一等奖,在至少一科获一等奖的考生中,随机抽取2人进行访谈,求这2人两科均获一等奖的概率.【解】(1)因为获数学二等奖的考生有12人,所以该考场考生的总人数为121-0.40-0.26-0.10=50.故该考场获语文一等奖的考生人数为50×(1-0.38×2-0.16)=4.(2)设获数学二等奖考生综合得分的平均数和方差分别为x-1,s21,获语文二等奖考生综合得分的平均数和方差分别为x-2,s22.x-1=81+84+92+90+935=88,x-2=79+89+84+86+875=85,s21=15×[(-7)2+(-4)2+42+22+52]=22,s22=15×[(-6)2+42+(-1)2+12+22]=11.6,因为8885,11.622,所以获数学二等奖考生较获语文二等奖考生综合素质测试的平均分高,但是成绩差距较大.(3)两科均获一等奖的考生共有3人,则仅数学获一等奖的考生有2人,仅语文获一等奖的考生有1人,把两科均获一等奖的3人分别记为A1,A2,A3,仅数学获一等奖的2人分别记为B1,B2,仅语文获一等奖的1人记为C,则在至少一科获一等奖的考生中,随机抽取2人的基本事件有A1A2,A1A3,A1B1,A1B2,A1C,A2A3,A2B1,A2B2,A2C,A3B1,A3B2,A3C,B1B2,B1C,B2C,共15个.记“这2人两科均获一等奖”为事件M,则事件M包含的基本事件有A1A2,A1A3,A2A3,共3个,所以P(M)=315=15,故这2人两科均获一等奖的概率为15.统计与概率“搭台”,方案选择“唱戏”破解此类频率分布直方图、分层抽样与概率相交汇的开放性问题的关键:一是会观图读数据,能从频率分布直方图中读出频率,进而求出频数;二是能根据分层抽样的抽样比或各层之间的比例,求出分层抽样中各层需取的个数;三是会转化,会对开放性问题进行转化.(2020·武汉部分学校调研)某校学生参与一项社会实践活动,受生产厂家委托采取随机抽样方法,调查我市市民对某新开发品牌洗发水的满意度,同学们模仿电视问政的打分制,由被调查者在0分到100分的整数分中给出自己的认可分数,现将收集到的100位市民的认可分数分为6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],绘制出如图所示的频率分布直方图.(1)求这100位市民认可分数的中位数(精确到0.1),平均数(同一组中的数据用该组区间的中点值作代表);(2)生产厂家根据同学们收集到的数据,拟随机在认可分数为80及其以上的市民中选出2位市民当产品宣传员,求这2位宣传员都来自认可分数为[90,100]的概率.解:(1)由于[40,50),[50,60),[60,70)的频率分别有0.1,0.2,0.3.故中位数位于[60,70)中,其值为60+10×23≈66.7.平均数为10×(45×0.01+55×0.02+65×0.03+75×0.025+85×0.01+95×0.005)=67.(2)认可分数位于[80,90)的人数为10,认可分数位于[90,100]的人数为5,从认可分数位于[90,100]的5人中随机选择2人的基本事件数为1+2+3+4=10,从认可分数位于[80,90)和[90,100]的15人中随机选择2人的基本事件数为1+2+3+…+14=105.故这2位宣传员都来自认可分数为[90,100]的概率为10105=221.图表与独立性检验相交汇(师生共研)某种常见疾病可分为Ⅰ,Ⅱ两种类型.为了了解所患该疾病类型与地域、初次患该疾病的年龄(单位:岁)(以下简称初次患病年龄)的关系,在甲、乙两个地区随机抽取100名患者调查其所患疾病类型及初次患病年龄,得到如下数据.初次患病年龄甲地Ⅰ型疾病患者/人甲地Ⅱ型疾病患者/人乙地Ⅰ型疾病患者/人乙地Ⅱ型疾病患者/人[10,20)8151[20,30)4331[30,40)3524[40,50)3844[50,60)3926[60,70]21117(1)从Ⅰ型疾病患者中随机抽取1人,估计其初次患病年龄小于40岁的概率;(2)记“初次患病年龄在[10,40)内的患者”为“低龄患者”,“初次患病年龄在[40,70]内的患者”为“高龄患者”.根据表中数据,解决以下问题.①将以下两个列联表补充完整,并判断“地域”“初次患病年龄”这两个变量中哪个变量与所患疾病的类型有关联的可能性更大.(直接写出结论,不必说明理由)表一疾病类型患者所在地域Ⅰ型Ⅱ型总计甲地乙地总计100表二疾病类型初次患病年龄Ⅰ型Ⅱ型总计低龄高龄总计100②记①中与所患疾病的类型有关联的可能性更大的变量为X.问:是否有99.9%的把握认为所患疾病的类型与X有关?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.P(K2≥k0)0.100.050.0100.0050.001k02.7063.8416.6357.87910.828【解】(1)依题意,甲、乙两地区Ⅰ型疾病患者共40人,甲、乙两地区Ⅰ型疾病患者初次患病年龄小于40岁的人数分别为15,10,则从Ⅰ型疾病患者中随机抽取1人,其初次患病年龄小于40岁的概率的估计值为15+1040=58.(2)①填空结果如下.表一疾病类型患者所在地域Ⅰ型Ⅱ型总计甲地233760乙地172340总计4060100表二疾病类型初次患病年龄Ⅰ型Ⅱ型总计低龄251540高龄154560总计4060100“初次患病年龄”与所患疾病的类型有关联的可能性更大.②由①可知X为初次患病年龄,根据表二中的数据可得a=25,b=15,c=15,d=45,n=100,则K2的观测值k=100×(25×45-15×15)240×60×40×60≈14.063,14.06310.828,故有99.9%的把握认为所患疾病类型与初次患病年龄有关.本题的易错点有三处:一是审题不认真,误认为甲、乙两地区Ⅰ型疾病患者的总数为100,错误列式15+10100=0.25;二是不能从频数分布表中获取相关数据,无法正确填写列联表,不能根据列联表中数据的含义做出正确判断;三是代错公式或计算错误,从而导致统计判断出错.(2020·广州市综合检测(一))某网络平台从购买该平台某课程的客户中,随机抽取了100位客户的数据,并将这100个数据按学时数、客户性别等进行统计,整理得到下表:学时数[5,10)[10,15)[15,20)[20,25)[25,30)[30,35)[35,40]男性181299642女性24827134(1)根据上表估计男性客户购买该课程学时数的平均值(同一组中的数据用该组区间的中点值作代表,结果保留小数点后两数);(2)从这100位客户中,对购买该课程学时数在20以下的女性客户按照分层抽样的方式随机抽取7人,再从这7人中随机抽取2人,求这2人购买的学时数都不低于15的概率;(3)将购买该课程达到25学时及以上者视为“十分爱好该课程者”,25学时以下者视为“非十分爱好该课程者”,请根据已知条件完成以下2×2列联表,并判断是否有99.9%的把握认为“十分爱好该课程者”与性别有关?非十分爱好该课程者十分爱好该课程者总计男性女性总计100附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+a),其中n=a+b+c+d.P(K2≥k0)0.1000.0500.0250.0100.001k02.7063.8415.0246.63510.828解:(1)依题意,在这100位购买该课程的客户中,男性客户购买该课程学时数的平均值x-=160×(7.5×18+12.5×12+17.5×9+22.5×9+27.5×6+32.5×4+37.5×2)≈16.92.所以估计男性客户购买该课程学时数的平均值为16.92.(2)设“所抽取的2人购买的学时数都不低于15”为事件A,依题意按照分层抽样的方式分别从学时数为[5,10),[10,15),[15,20)的女性客户中抽取1人(设为a),2人(分别设为b1,b2),4人(分别设为c1,c2,c3,c4).则从这7人中随机抽取2人所包含的基本事件为ab1,ab2,ac1,ac2,ac3,ac4,b1b2,b1c1,b1c2,b1c3,b1c4,b2c1,b2c2,b2c3,b2c4,c1c2,c1c3,c1c4,c2c3,c2c4,c3c4,共21个,其中事件A所包含的基本事件为c1c2,c1c3,c1c4,c2c3,c2c4,c3c4,共6个.所以事件A发生的概率P(A)=621=27.(3)依题意得2×2列联表如下:非十分爱好该课程者十分爱好该课程者总计男性481260女性162440总计6436100K2=100×(48×24-16×12)264×36×60×40≈16.66710.828.故有99.9%的把握认为“十分爱好该课程者”与性别有关.图表与线性回归分析相交汇(师生共研)(2020·江西七校第一次联考)最近青少年的视力健康问题引起家长们的高度重视,某地区为了解当地24所小学,24所初中和12所高中的学生的视力状况,准备采用分层抽样的方法从这些学校中随机抽取5所学校对学生进行视力调查.(1)若从所抽取的5所学校中再随机抽取3所学校进行问卷调查,求抽到的这3所学校中,小学、初中、高中分别有一所的概率;(2)若某小学被抽中,调查得到了该小学前五个年级近视率y的数据如下表:年级号x12345近视率y0.050.090.160.200.25根据前五个年级的数据,利用最小二乘法求出y关于x的线性回归方程,并根据方程预测六年级学生的近视率.附:回归直线y^=b^x+a^的斜率和截距的最小二乘法估计公式分别为b^=∑ni=1xiyi-nx-y-∑ni=1x2i-nx-2,a^=y--b^x-.参考数据:∑5i=1xiyi=2.76,∑5i=1x2i=55.【解】(1)由24∶24∶12=2∶2∶1,得抽取的5所学校中有2所小学、2所初中、1所高中,分别设为a1,a2,b1,b2,c,从这5所学校中随机抽取3所学校的所有基本事件为(a1,a2,b1),(a1,a2,b2),(a1,a2,c),(a1,b1,b2),(a1,b1,c),(a1,b2,c),(a2,b1,b2),(a2,b1,c),(a2,b2,c),(b1,b2,c),共10种,设事件A表示“抽到的这3所学校中,小学、初中、高中分别有一所”,则事件A包含的基本事件为(a1,b1,c),(a1,b2,c),(a2,b1,c),(a2,b2,c),共4种,故P(A)=410=25.(2)由题中表格数据得x-=3,y-=0.15,5x-y-=2.25,5x-2=45,且由参考数据:∑5i=1xiyi=2.76,∑5i=1x2i=55,得b^=2.76-2.2555-45=0.051,a^