专题四概率与统计第1讲统计与统计案例1.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是()A.中位数B.平均数C.方差D.极差解析:中位数是将9个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉1个最高和1个最低分,不变的是中位数,平均数、方差、极差均受影响.答案:A2.(2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:分类满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).P(K2≥k)0.0500.0100.001k3.8416.63510.828解:(1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8,女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K2的观测值k=100×(40×20-30×10)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.3.(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解:(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y^=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出的2种理由,考生答出其中任意一种或其他合理理由均可得分.)本讲高考主要考查抽样方法的具体应用、样本的数字特征、统计图表、回归分析与独立性检验,主要以选择题、填空题形式命题,难度较小.注重知识的交汇渗透,其中频率分布直方图与概率,独立性检验与概率相结合是近几年命题的热点,2015年,2016年和2017年在解答题中均加以考查,分值12分,中等难度.热点1抽样方法(自主演练)抽样方法主要有简单随机抽样、系统抽样和分层抽样三种,这三种抽样方法各自适用不同特点的总体,但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量和总体容量的比值,并且都是不放回的抽样.1.(2019·济南一中调研)某机构对青年观众是否喜欢跨年晚会进行了调查,人数如表所示:分类不喜欢喜欢男性青年观众3010女性青年观众3050现要在所有参与调查的人中用分层抽样的方法抽取n人做进一步的调研,若在“不喜欢”的男性青年观众中抽取了6人,则n=()A.12B.16C.24D.32解析:由分层抽样,得630=n30+10+30+50,解得n=24.答案:C2.(2019·全国卷Ⅰ)某学校为了解1000名新生的身体素质,将这些学生编号为1,2,…,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是()A.8号学生B.200号学生C.616号学生D.815号学生解析:根据题意,系统抽样是等距抽样,所以抽样间隔为1000100=10.因为46除以10余6,所以抽到的号码都是除以10余6的数,结合选项知应为616.答案:C3.(2019·惠州调研)某学校为响应“平安出行号召”,拟从2019名学生中选取50名学生加入“交通志愿者”,若采用以下方法选取:先用简单随机抽样方法剔除19名学生,剩下的2000名再按照系统抽样的方法抽取,则每名学生入选的概率()A.不全相等B.均不相等C.都相等,且为140D.都相等,且为502019解析:剔除19名,再按系统抽样,则每名学生入样的概率相等,且P=502019.答案:D4.(2019·广东六校联考)某学校为落实学生掌握社会主义核心价值观的情况,用系统抽样的方法从全校2400名学生中抽取30人进行调查.现将2400名学生随机地从1~2400编号,按编号顺序平均分成30组(1~80号,81~160号,…,2321~2400号),若第3组与第4组抽出的号码之和为432,则第6组抽到的号码是()A.416B.432C.448D.464解析:设第n组抽到的号码是an,则{an}构成以80为公差的等差数列,所以a3=a1+80×2=160+a1,a4=a1+240.则a3+a4=2a1+400=432,解得a1=16,故第6组抽取的号码a6=16+5×80=416.答案:A[思维升华]1.解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与总体容量的比值.2.在系统抽样的过程中,要注意分段间隔,需要抽取n个个体,样本就需要分成n个组,则分段间隔即为Nn(n为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.热点2用样本估计总体(多维探究)1.统计中的四个数据特征(1)众数:在样本数据中,出现次数最多的那个数据.(2)中位数:在样本数据中,将数据按大小顺序排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.(3)平均数:样本数据的算术平均数,即x-=1n(x1+x2+…+xn).(4)方差与标准差.s2=1n[(x1-x-)2+(x2-x-)2+…+(xn-x-)2].s=1n[(x1-x-)2+(x2-x-)2+…+(xn-x-)2].2.直方图的两个结论(1)小长方形的面积=组距×频率组距=频率.(2)各小长方形的面积之和等于1.角度数字特征与茎叶图的应用【例1】(1)某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:假设每名同学最近一周平均每天的锻炼时间是互相独立的.①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大;②从平均值分析,男生每天锻炼的时间比女生多;③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.其中符合茎叶图所给数据的结论是()A.①②③B.②③④C.①②④D.①③④(2)(2019·江苏卷)已知一组数据6,7,8,8,9,10,则该组数据的方差是________.解析:(1)由茎叶图知,男生每天锻炼时间差别小,女生差别大,①正确.设男生、女生两组数据的平均数分别为x-甲,x-乙,标准差分别为s甲,s乙.易求x甲=65.2,x乙=61.8,知x甲x乙,②正确.又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散,所以s甲s乙,③错误.男生平均每天锻炼时间超过65分钟的概率P1=510=12,女生平均每天锻炼时间超过65分钟的概率P2=410=25,P1P2,因此④正确.因此符合茎叶图所给数据的结论是①②④.(2)这组数据的平均数为8,故方差为s2=16×[(6-8)2+(7-8)2+(8-8)2+(8-8)2+(9-8)2+(10-8)2]=53.答案:(1)C(2)53[思维升华]平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.平均数、中位数、众数描述数据的集中趋势,方差和标准差描述数据的波动大小.[变式训练]“总把新桃换旧符”(王安石)、“灯前小草写桃符”(陆游),春节是中华民族的传统节日,在宋代人们用写“桃符”的方式来祈福避祸,而现代人们通过贴“福”字、春联等方式来表达对新年的美好祝愿.某商家在春节前开展商品促销活动,顾客凡购物金额满50元,则可以任意免费领取一张“福”字或一副春联.茎叶图的统计数据是在不同时段内领取“福”字和春联的人数,则它们的中位数依次为()A.25,27B.26,25C.26,27D.27,25解析:由茎叶图知,领“福”字的中位数为12(25+27)=26.领“春联”的中位数为25.答案:B角度用样本的频率分布估计总体分布【例2】(2019·全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解:(1)由已知得0.70=a+0.20+0.15,故a=0.35,b=1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.[思维升华]1.抓住频率分布直方图各小长方形的面积之和为1,这是求解的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.2.高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的平均数、众数、中位数和方差等.[变式训练](2019·全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.y的分组[-0.20,0)[0,0.20)[0.20,0.40)[0.40,0.60)[0.60,0.80)企业数22453147(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:74≈8.602.解:(1)根据产值增长率频率分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0