专题六概率与统计第1讲统计、统计案例高考总复习大二轮数学[考情考向·高考导航]1.抽样方法、样本的数字特征、统计图表、回归分析与独立性检验主要以选择题、填空题形式命题,难度较小.2.注重知识的交汇渗透,统计与概率,统计案例与概率是近年命题的热点,以解答题中档难度出现.[真题体验]1.(2018·全国Ⅰ卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析:A[设新农村建设前经济收入为x,则新农村建设后经济收入为2x,对于A,新农村建设前,种植收入为60x100,新农村建设后,种植收入为37·2x100=74x100,种植收入增加,故A不正确;对于B,新农村建设前其他收入为4x100,建设后其他收入为10x100,故B正确;对于C,新农村建设前,养殖收入为30x100,建设后养殖收入为60x100,故C正确;对于D,新农村建设后,养殖收入与第三产业收入的总和占经济收入的28%+30%=58%,超过了一半,故D正确.]2.(2019·全国Ⅱ卷)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁一列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为____________.解析:平均正点率的估计值为10×0.97+20×0.98+10×0.9940=0.98.答案:0.983.(理)(2017·全国Ⅱ卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50kg,新养殖法的箱产量不低于50kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50kg箱产量≥50kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)附:K2=nad-bc2a+bc+da+cb+d.解:(1)记:“旧养殖法的箱产量低于50kg”为事件B,“新养殖法的箱产量不低于50kg”为事件C而P(B)=0.040×5+0.034×5+0.024×5+0.014×5+0.012×5=0.62,P(C)=0.068×5+0.046×5+0.010×5+0.008×5=0.66,P(A)=P(B)P(C)=0.4092(2)箱产量<50kg箱产量≥50kg旧养殖法6238新养殖法3466由计算可得K2的观测值为K2=200×62×66-38×342100×100×96×104=15.705,∵15.705>6.635,∴P(K2≥6.635)≈0.001∴有99%以上的把握认为箱产量与养殖方法有关.(3)设中位数为x,则0.004×5+0.020×5+0.044×5+0.068(x-50)=0.5,∴x=52.35.3.(文)(2017·全国Ⅱ卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50kg箱产量≥50kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.附:K2=nad-bc2a+bc+da+cb+d.解:(1)旧养殖法的箱产量低于50kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62因此事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表箱产量<50kg箱产量≥50kg旧养殖法6238新养殖法3466K2=200×62×66-34×38100×100×96×104≈15.705由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50kg到55kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.[主干整合]1.三种抽样方法的特点简单随机抽样:操作简便、适当,总体个数较少分层抽样:按比例抽样系统抽样:等距抽样2.必记公式数据x1,x2,…,xn的数字特征公式(1)平均数:x=x1+x2+…+xnn.(2)方差:s2=1n[(x1-x)2+(x2-x)2+…+(xn-x)2].(3)标准差:s=1n[x1-x2+x2-x2+…+xn-x2].3.重要性质及结论(1)频率分布直方图的三个结论①小长方形的面积=组距×频率组距=频率;②各小长方形的面积之和等于1;③小长方形的高=频率组距.(2)回归直线方程:一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn).其回归方程y^=b^x+a^,其过样本点中心(x,y).(3)独立性检验K2=nad-bc2a+bc+da+cb+d(其中n=a+b+c+d为样本容量).热点一抽样方法数据分析素养数据分析——随机抽样问题中的核心素养以解决抽样调查问题为背景,考查应用简单随机抽样、系统抽样和分层抽样获取样本,进行数据收集的技巧与能力.[题组突破]1.(2018·全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.解析:因为不同年龄段客户对其服务的评价有较大差异,所以用分层抽样.答案:分层抽样2.(2019·烟台三模)200名职工年龄分布如图所示,从中随机抽取40名职工作样本,采用系统抽样方法,按1~200编号分为40组,分别为1~5,6~10,…,196~200,第5组抽取号码为23,第9组抽取号码为________;若采用分层抽样,40~50岁年龄段应抽取________人.解析:根据题意可得每5人中抽取一人,所以第九组抽取的号码为(9-5)×5+23=43,根据分层抽样,40~50岁年龄段应抽取:40×30%=12人.答案:43123.(2019·成都三模)如图是调查某学校高三年级男女学生是否喜欢篮球运动的等高条形图,阴影部分的高表示喜欢该项运动的频率.已知该年级男生女生各500名(假设所有学生都参加了调查),现从所有喜欢篮球运动的同学中按分层抽样的方式抽取32人,则抽取的男生人数为________.解析:由已知得,喜欢篮球运动的女生有500×0.2=100人,喜欢篮球运动的男生有500×0.6=300人,共有400人喜欢篮球运动.按分层抽样的方式抽取32人,抽样比为32400=0.08,则抽取的男生人数为300×0.08=24人.答案:24抽样方法主要有简单随机抽样、系统抽样和分层抽样三种,这三种抽样方法各自适用不同特点的总体,但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与总体个体数的比值.热点二用样本估计总体数字特征与茎叶图的应用[例1-1](2020·北京东城质检)某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:假设每名同学最近一周平均每天的锻炼时间是互相独立的.①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大;②从平均值分析,男生每天锻炼的时间比女生多;③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;④从10个男生中任选1人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.其中根据茎叶图能得到的统计结论的编号为()A.①②③B.②③④C.①②④D.①③④[解析]C[由茎叶图知,男生每天锻炼时间差别小,女生差别大,①正确.男生平均每天锻炼时间超过65分钟的概率P1=510=12,女生平均每天锻炼时间超过65分钟的概率P2=410=25,P1>P2,因此④正确.设男生、女生两组数据的平均数分别为x甲,x乙,标准差分别为s甲,s乙.易求x甲=65.2,x乙=61.8,知x甲>x乙,②正确.又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散,∴s甲<s乙,③错误.因此符合茎叶图所给数据的结论是①②④.]用样本的频率分布估计总体分布[例1-2](2019·全国Ⅱ卷)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.y的分组[-0.20,0)[0,0.20)[0.20,0.40)[0.40,0.60)[0.60,0.80)企业数22453147(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:74≈8.602.[审题指导](1)由所给的频数分布表确定出相应的频数,再代入频率公式,即可求得相应频率,并以此估计总体.(2)根据平均数,方差的计算公式及题设要求计算即可.[解析](1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y=1100×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,=1100×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.0296,s=0.0296=0.02×74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.1.两类数字特征的意义(1)平均数、中位数、众数描述数据的集中趋势;(2)方差和标准差描述数据的波动大小.方差、标准差越大,数据的离散程度越大,越不稳定.2.与频率分布直方图有关的问题(1)已知频率分布直方图中的部分数据,求其他数据,可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于1就可求出其他数据.(2)众数为频率分布直方图中最高矩形的底边中点的横坐标.(3)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.(4)平均数等于频率分布直方图中每个小矩形的面积与小矩形底边中点的横坐标乘积的和.(北京卷)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…[80,90],并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.解:(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4,所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.(2)根据题意,样