1第1讲统计、统计案例[全国卷3年考情分析]年份全国卷Ⅰ全国卷Ⅱ全国卷Ⅲ2019系统抽样·T6样本平均数·T14随机抽样、用样本估计总体·T4独立性检验·T17(2)用样本的频率分布估计总体分布样本的数字特征·T19由频率分布直方图求参数平均值·T172018统计图的识别与分析·T3折线图、线性回归模型问题·T18抽样方法·T14茎叶图的应用及独立性检验·T182017用样本的数字特征估计总体的数字特征·T2折线图的识别与分析·T3(1)统计与统计案例在选择题或填空题中的命题热点主要集中在随机抽样、用样本估计总体以及变量间的相关性判断等,难度较低,常出现在2~4题的位置.(2)统计与统计案例在解答题中多出现在第17、18或19题位置,考查茎叶图、直方图、数字特征及统计案例,多以计算为主.考点一抽样方法[例1](1)某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20000人,其中各种态度对应的人数如下表所示:最喜爱喜爱一般不喜欢4800720064001600电视台为了了解观众的具体想法和意见,打算从中抽选100人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽选的人数分别为()A.25,25,25,25B.48,72,64,16C.20,40,30,10D.24,36,32,8(2)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,2960,分组后在第一组采用简单随机抽样的方法抽到的号码为9,抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷B的人数为()A.7B.9C.10D.15[解析](1)因为抽样比为10020000=1200,所以每类人中应抽选的人数分别为4800×1200=24,7200×1200=36,6400×1200=32,1600×1200=8.故选D.(2)由题意知应将960人分成32组,每组30人.设每组选出的人的号码为30k+9(k=0,1,…,31).由451≤30k+9≤750,解得44230≤k≤74130,又k∈N,故k=15,16,…,24,共10人.[答案](1)D(2)C[解题方略]系统抽样和分层抽样中的计算(1)系统抽样①总体容量为N,样本容量为n,则要将总体均分成n组,每组Nn个(有零头时要先去掉).②若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+Nn,…,k+(n-1)Nn.(2)分层抽样按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.[跟踪训练]1.(2019·全国卷Ⅰ)某学校为了解1000名新生的身体素质,将这些学生编号为1,2,…,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是()A.8号学生B.200号学生C.616号学生D.815号学生解析:选C根据题意,系统抽样是等距抽样,所以抽样间隔为1000100=10.因为46除以10余6,所以抽到的号码都是除以10余6的数,结合选项知应为616.故选C.32.某中学有高中生3000人,初中生2000人,男、女生所占的比例如图所示.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n的样本,已知从高中生中抽取女生21人,则从初中生中抽取的男生人数是()A.12B.15C.20D.21解析:选A因为抽样比为213000×70%=1100,所以从初中生中抽取的男生人数为2000×60%×1100=12.故选A.考点二用样本估计总体[例2](2019·全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.y的分组[-0.20,0)[0,0.20)[0.20,0.40)[0.40,0.60)[0.60,0.80)企业数22453147(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:74≈8.602.[解](1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y=1100×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,s2=1100i=15ni(yi-y)2=1100×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]4=0.0296,s=0.0296=0.02×74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.[解题方略]1.方差的计算与含义(1)计算:计算方差首先要计算平均数,然后再按照方差的计算公式进行计算.(2)含义:方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大.2.从频率分布直方图中得出有关数据的方法频率频率分布直方图中横轴表示组数,纵轴表示频率组距,频率=组距×频率组距频率比频率分布直方图中各小长方形的面积之和为1,各小长方形高的比也就是频率比众数最高小长方形底边中点的横坐标中位数平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标平均数频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和[跟踪训练]1.(2019·石家庄市质量检测)甲、乙两人8次测评成绩的茎叶图如图,由茎叶图知甲的成绩的平均数和乙的成绩的中位数分别是()A.23,22B.23,22.5C.21,22D.21,22.5解析:选D由茎叶图可得甲的成绩的平均数为10+11+14+21+23+23+32+348=21.将乙的成绩按从小到大的顺序排列,中间的两个成绩分别是22,23,所以乙的成绩的中位数为22+232=22.5.2.为了解一种植物果实的情况,随机抽取一批该植物果实样本测量重量的数据(单位:克),按照[27.5,32.5),[32.5,37.5),[37.5,42.5),[42.5,47.5),[47.5,52.5]分为5组,其频率分布直方图如图所示.5(1)求图中a的值;(2)估计这种植物果实重量的平均数x和方差s2(同一组中的数据用该组区间的中点值作代表).解:(1)由5×(0.020+0.040+0.075+a+0.015)=1,得a=0.050.(2)各组中点值和相应的频率依次为中点值3035404550频率0.10.20.3750.250.075x=30×0.1+35×0.2+40×0.375+45×0.25+50×0.075=40,s2=(-10)2×0.1+(-5)2×0.2+02×0.375+52×0.25+102×0.075=28.75.考点三统计案例题型一回归分析在实际问题中的应用[例3]某省的一个气象站观测点在连续4天里记录的AQI指数M与当天的空气水平可见度y(单位:cm)的情况如表1:M900700300100y0.53.56.59.5该省某市2019年11月份AQI指数频数分布如表2:M[0,200)[200,400)[400,600)[600,800)[800,1000]频数(天)3612636(1)设x=M100,若x与y之间是线性关系,试根据表1的数据求出y关于x的线性回归方程.(2)小李在该市开了一家洗车店,洗车店每天的平均收入与AQI指数存在相关关系如表3:M[0,200)[200,400)[400,600)[600,800)[800,1000]日均收入(元)-2000-1000200060008000根据表3估计小李的洗车店2019年11月份每天的平均收入.附参考公式:y^=b^x+a^,其中b^=,a^=y-b^x.[解](1)x=14(9+7+3+1)=5,y=14(0.5+3.5+6.5+9.5)=5,∑4,i=1xiyi=9×0.5+7×3.5+3×6.5+1×9.5=58.∑4,i=1x2i=92+72+32+12=140,所以b^=58-4×5×5140-4×52=-2120,a^=5--2120×5=414,所以y关于x的线性回归方程为y^=-2120x+414.(2)根据表3可知,该月30天中有3天每天亏损2000元,有6天每天亏损1000元,有12天每天收入2000元,有6天每天收入6000元,有3天每天收入8000元,估计小李洗车店2019年11月份每天的平均收入为130×(-2000×3-1000×6+2000×12+6000×6+8000×3)=2400(元).[解题方略]求回归直线方程的方法(1)若所求的回归直线方程是在选择题中,常利用回归直线y^=b^x+a^必经过样本点的中心(x,y)快速选择.7(2)若所求的回归直线方程是在解答题中,则求回归直线方程的一般步骤为:题型二独立性检验在实际问题中的应用[例4](2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).P(K2≥k)0.0500.0100.001k3.8416.63510.828[解](1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K2的观测值k=100×(40×20-30×10)250×50×70×30≈4.762.由于4.7623.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.[解题方略]独立性检验的一般步骤8(1)根据样本数据制成2×2列联表;(2)根据公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d)计算出K2的观测值;(3)比较K2的观测值与临界值的大小,作出统计推断.[跟踪训练]1.某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:同意限定区域停车不同意限定区域停车总计男20525女101525总计302050则认为“是否同意限定区域停车与家长的性别有关”的把握约为()A.0.1%B.0.5%C.99.5%D.99.9%附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.P(K2≥k0)0.150.100.050.0250.0100.0050.001k02.0722.7063.8415.0246.6357.87910.828解析:选C因为K2=50×(20×15-5×10)225×25×30×20≈8.333>7.879,所以约有99.5%的把握认为“是否同意限定区域停车与家长的性别有关”.2.2019年秋新学期开始,某市对全市中小学学生进行健康状况抽样调查,其中在某校调查得到了该校前五个年级近视率y的数据如下表:年级号x12345近视率y0.050.090.160.200.259根据前五个年级的数据,利用最小二乘法求出y关于x的线性回归方程,并根据方程预测六年级学生的近视率.附:回归直线y^=b^x+a^的斜率和截距的最小二乘法估计公式分别为得b^=2.76-2.2555-45=0.051,a^=0.1