第1讲统计、统计案例第二编讲专题专题六概率与统计「考情研析」1.以选择题、填空题的形式考查随机抽样、样本的数字特征、统计图表、回归方程、独立性检验等.2.概率与统计的交汇问题是高考的热点,以解答题形式出现,难度中等.1核心知识回顾PARTONE1.三种抽样方法的特点简单随机抽样:操作简便、适当,总体个数较少.分层抽样:按比例抽样.系统抽样:等距抽样.2.必记公式数据x1,x2,x3,…,xn的数字特征公式(1)平均数:x-=.(2)方差:s2=.(3)标准差:s=.□01x1+x2+x3+…+xnn□021n[(x1-x-)2+(x2-x-)2+…+(xn-x-)2]□031n[x1-x-2+x2-x-2+…+xn-x-2]3.重要性质及结论(1)频率分布直方图的三个结论①小长方形的面积=;②各小长方形的面积之和等于1;③小长方形的高=,所有小长方形高的和为1组距.□01组距×频率组距=频率□02频率组距(2)回归直线方程:一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)其回归方程y^=,其过样本点中心其中b^=i=1nxi-x-yi-y-i=1nx2i-nx-2,a^=y--b^x-.(3)独立性检验K2=nad-bc2a+bc+da+cb+d(其中n=a+b+c+d为样本容量).□03b^x+a^□04(x-,y-)2热点考向探究PARTTWO考向1抽样方法例1(1)从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为()A.480B.481C.482D.483答案C解析∵样本中编号最小的两个编号分别为007,032,∴样本数据组距为32-7=25,则样本容量为50025=20,则对应的号码数x=7+25(n-1),当n=20时,x取得最大值,此时x=7+25×19=482.故选C.(2)(2019·广州普通高中高三综合测试)某公司生产A,B,C三种不同型号的轿车,产量之比依次为2∶3∶4,为检验该公司的产品质量,用分层抽样的方法抽取一个容量为n的样本,若样本中A种型号的轿车比B种型号的轿车少8辆,则n=()A.96B.72C.48D.36解析由题意,得29n-39n=-8,∴n=72.选B.答案B系统抽样与分层抽样的求解方法(1)系统抽样的最基本特征是“等距性”,每组内所抽取的号码需要依据第一组抽取的号码和组距唯一确定.每组抽取样本的号码依次构成一个以第一组抽取的号码m为首项,组距d为公差的等差数列{an},第k组抽取样本的号码ak=m+(k-1)d.(2)分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,求解此类问题需先求出抽样比——样本容量与总体容量的比,则各层所抽取的样本容量等于该层个体总数与抽样比的乘积.在每层抽样时,应采用简单随机抽样或系统抽样进行.1.(2019·云南省第二次高三统一检测)某中学高一年级有学生1200人,高二年级有学生900人,高三年级有学生1500人,现按年级为标准,用分层抽样的方法从这三个年级学生中抽取一个容量为720的样本进行某项研究,则应从高三年级学生中抽取学生()A.200人B.300人C.320人D.350人答案B解析由分层抽样可得高三抽取的学生人数为15001200+900+1500×720=300.故选B.2.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入[1,450]的人做问卷A,编号落入[451,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷B的人数为________.解析由题意得系统抽样的抽样间隔为96032=30,又因为第一组内抽取的号码为9,则由451≤9+30k≤750(k∈N*),得141115≤k≤24710,所以做问卷B的人数为10.答案10考向2用样本估计总体例2(1)甲、乙两名学生在5次数学考试中的成绩统计如茎叶图所示,若x-甲,x-乙分别表示甲、乙两人的平均成绩,则下列结论正确的是()A.x-甲x-乙,乙比甲稳定B.x-甲x-乙,甲比乙稳定C.x-甲x-乙,乙比甲稳定D.x-甲x-乙,甲比乙稳定答案A解析因为x-甲=15×(74+82+88+91+95)=86,x-乙=15×(77+77+78+86+92)=82,所以x-甲x-乙.因为s2甲=15×[(-12)2+(-4)2+22+52+92]=54,s2乙=15×[(-5)2+(-5)2+(-4)2+42+102]=36.4,所以s2甲s2乙,故乙比甲稳定.故选A.(2)(2019·皖南八校高三第三次联考)从某地区年龄在25~55岁的人员中,随机抽出100人,了解他们对今年两会的热点问题的看法,绘制出频率分布直方图如图所示,则下列说法正确的是()A.抽出的100人中,年龄在40~45岁的人数大约为20B.抽出的100人中,年龄在35~45岁的人数大约为30C.抽出的100人中,年龄在40~50岁的人数大约为40D.抽出的100人中,年龄在35~50岁的人数大约为50答案A解析根据频率分布直方图的性质得(0.01+0.05+0.06+a+0.02+0.02)×5=1,解得a=0.04,所以抽出的100人中,年龄在40~45岁的人数大约为0.04×5×100=20,所以A正确;年龄在35~45岁的人数大约为(0.06+0.04)×5×100=50,所以B不正确;年龄在40~50岁的人数大约为(0.04+0.02)×5×100=30,所以C不正确;年龄在35~50岁的人数大约为(0.06+0.04+0.02)×5×100=60,所以D不正确.故选A.(1)频率分布直方图中每个小矩形的面积为对应的频率,不要混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.(2)由于茎叶图完全反映了所有的原始数据,解决由茎叶图给出的统计图表题时,就要充分使用这个图表提供的数据进行相关的计算或者是对某些问题作出判断.1.(2019·福建省高三模拟)为比较甲、乙两名高二学生的数学素养,对课程标准中规定的数学六大素养进行指标测验(指标值满分为5分,分值高者为优),根据测验情况绘制了如图所示的六大素养指标雷达图,则下面叙述正确的是()A.乙的数据分析素养优于甲B.乙的数学建模素养优于数学抽象素养C.甲的六大素养整体水平优于乙D.甲的六大素养中数据分析最差答案C解析根据雷达图得到如下数据所示.由数据可知选C.2.(2019·江西省吉安一中、九江一中、新余一中等八所重点中学高三4月联考)某地区某村的前三年的经济收入分别为100,200,300万元,其统计数据的中位数为x,平均数为y;经过今年政府新农村建设后,该村经济收入在上年基础上翻番,则在这4年里收入的统计数据中,下列说法正确的是()A.中位数为x,平均数为1.5yB.中位数为1.25x,平均数为yC.中位数为1.25x,平均数为1.5yD.中位数为1.5x,平均数为2y答案C解析依题意,前三年中位数x=200,平均数y=100+200+3003=200,第四年收入为600万元,故中位数为200+3002=250=1.25x,平均数为100+200+300+6004=300=1.5y.故选C.考向3回归分析与独立性检验角度1回归分析在实际中的应用例3(2019·沧州市普通高等学校招生全国统一模拟考试)近年来,随着互联网技术的快速发展,共享经济覆盖的范围迅速扩张,继共享单车、共享汽车之后,共享房屋以“民宿”“农家乐”等形式开始在很多平台上线.某创业者计划在某景区附近租赁一套农房发展成特色“农家乐”,为了确定未来发展方向,此创业者对该景区附近六家“农家乐”跟踪调查了100天.得到的统计数据如下表,x为收费标准(单位:元/日),t为入住天数(单位:天),以频率作为各自的“入住率”,收费标准x与“入住率”y的散点图如图.x50100150200300400t906545302020(1)令z=lnx,由散点图判断y^=b^x+a^与y^=b^z+a^哪个更合适于此模型(给出判断即可,不必说明理由)?并根据你的判断结果求回归方程(b^结果保留一位小数);(2)若一年按365天计算,试估计收费标准为多少时,年销售额L最大?(年销售额L=365·入住率·收费标准x)参考数据:b^=∑ni=1xiyi-nx-y-∑ni=1x2i-nx-2,a^=y--b^x-,x-=200,y-=0.45,∑6i=1x2i=325000,z-≈5.1,∑6i=1yizi≈12.7,∑6i=1z2i≈158.1,e5≈148.4.解(1)由散点图可知y^=b^z+a^更适合于此模型.其中b^=∑6i=1ziyi-6z-y-∑6i=1z2i-6z-2=-1.072.04≈-0.5,a^=y--b^z-=3,所求的回归方程为y^=-0.5lnx+3.(2)L=365(-0.5lnx+3)x=-3652xlnx+1095x.L′=-3652lnx-3652+365×3,令L′=0⇒lnx=5⇒x=e5≈148.4.∴若一年按365天计算,当收费标准约为148.4元/日时,年销售额L最大,最大值约为27083元.在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(2019·太原市高三模拟)近年来随着互联网的高速发展,旧货交易市场也得以快速发展.某网络旧货交易平台对2018年某种机械设备的线上交易进行了统计,得到如图所示的频率分布直方图和散点图.现把直方图中各组的频率视为概率,用x(单位:年)表示该设备的使用时间,y(单位:万元)表示其相应的平均交易价格.(1)已知2018年在此网络旧货交易平台成交的该种机械设备为100台,现从这100台设备中,按分层抽样抽取使用时间x∈(12,20]的4台设备,再从这4台设备中随机抽取2台,求这2台设备的使用时间都在(12,16]的概率;(2)由散点图分析后,可用y=ebx+a作为此网络旧货交易平台上该种机械设备的平均交易价格y关于其使用时间x的回归方程.x-y-z-i=110xiyii=110xizii=110x2i5.58.71.9301.479.75385表中z=lny,z-=110i=110zi.①根据上述相关数据,求y关于x的回归方程;②根据上述回归方程,求当使用时间x=15时,该种机械设备的平均交易价格的预报值(精确到0.01).附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为β^=i=110uivi-nu-v-i=110u2i-nu-2,α^=v--β^u-.参考数据:e0.55=1.733,e-0.95=0.3867,e-1.85=0.1572.解(1)由图1中频率分布直方图可知,从2018年成交的该种机械设备中使用时间x∈(12,16]的台数为100×4×0.03=12,使用时间x∈(16,20]的台数为100×4×0.01=4,∴按分层抽样所抽取4台中,使用时间x∈(12,16]的设备有3台,分别记为A,B,C;使用时间x∈(16,20]的设备有1台,记为d,∴从这4台设备中随机抽取2台的结果为(A,B),(A,C),(A,d),(B,C),(B,d),(C,d),共有6种等可能出现的结果,其中这2台设备的使用时间x都在(12,16]的结果为(A,B),(A,C),(B,C),共有3种,所求事件的概率为36=12.(2)①由题意得z=lny=lnebx+a=bx+a,∵b^=i=110xizi-10x-z-i=110x2i-10x-2=79.75-10×