-1-第2讲统计、统计案例「考情研析」1.以选择题、填空题的形式考查随机抽样、样本的数字特征、统计图表、回归方程、独立性检验等.2.概率与统计的交汇问题是高考的热点,以解答题形式出现,难度中等.核心知识回顾1.三种抽样方法的特点简单随机抽样:操作简便、适当,总体个数较少.分层抽样:按比例抽样.系统抽样:等距抽样.2.必记公式数据x1,x2,x3,…,xn的数字特征公式:(1)平均数:x-=□01x1+x2+x3+…+xnn.(2)方差:s2=□021n[(x1-x-)2+(x2-x-)2+…+(xn-x-)2].(3)标准差:s=□031n[x1-x-2+x2-x-2+…+xn-x-2].3.重要性质及结论(1)频率分布直方图的三个结论①小长方形的面积=□01组距×频率组距=频率;②各小长方形的面积之和等于1;③小长方形的高=□02频率组距,所有小长方形高的和为1组距.(2)回归直线方程:一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)其回归方程y^=□03b^x+a^,其过样本点中心□04(x-,y-)其中b^=i=1nxi-x-yi-y-i=1nx2i-nx-2,a^=y--b^x-.(3)独立性检验K2=nad-bc2a+bc+da+cb+d(其中n=a+b+c+d为样本容量).-2-热点考向探究考向1抽样方法例1(1)从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为()A.480B.481C.482D.483答案C解析∵样本中编号最小的两个编号分别为007,032,∴样本数据组距为32-7=25,则样本容量为50025=20,则对应的号码数x=7+25(n-1),当n=20时,x取得最大值,此时x=7+25×19=482.故选C.(2)(2019·广州普通高中高三综合测试)某公司生产A,B,C三种不同型号的轿车,产量之比依次为2∶3∶4,为检验该公司的产品质量,用分层抽样的方法抽取一个容量为n的样本,若样本中A种型号的轿车比B种型号的轿车少8辆,则n=()A.96B.72C.48D.36答案B解析由题意,得29n-39n=-8,∴n=72.选B.系统抽样与分层抽样的求解方法(1)系统抽样的最基本特征是“等距性”,每组内所抽取的号码需要依据第一组抽取的号码和组距唯一确定.每组抽取样本的号码依次构成一个以第一组抽取的号码m为首项,组距d为公差的等差数列{an},第k组抽取样本的号码ak=m+(k-1)d.(2)分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,求解此类问题需先求出抽样比——样本容量与总体容量的比,则各层所抽取的样本容量等于该层个体总数与抽样比的乘积.在每层抽样时,应采用简单随机抽样或系统抽样进行.1.(2019·云南省第二次高三统一检测)某中学高一年级有学生1200人,高二年级有学生900人,高三年级有学生1500人,现按年级为标准,用分层抽样的方法从这三个年级学生中抽取一个容量为720的样本进行某项研究,则应从高三年级学生中抽取学生()A.200人B.300人C.320人D.350人-3-答案B解析由分层抽样可得高三抽取的学生人数为15001200+900+1500×720=300.故选B.2.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入[1,450]的人做问卷A,编号落入[451,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷B的人数为________.答案10解析由题意得系统抽样的抽样间隔为96032=30,又因为第一组内抽取的号码为9,则由451≤9+30k≤750(k∈N*),得141115≤k≤24710,所以做问卷B的人数为10.考向2用样本估计总体例2(1)甲、乙两名学生在5次数学考试中的成绩统计如茎叶图所示,若x-甲,x-乙分别表示甲、乙两人的平均成绩,则下列结论正确的是()A.x-甲x-乙,乙比甲稳定B.x-甲x-乙,甲比乙稳定C.x-甲x-乙,乙比甲稳定D.x-甲x-乙,甲比乙稳定答案A解析因为x-甲=15×(74+82+88+91+95)=86,x-乙=15×(77+77+78+86+92)=82,所以x-甲x-乙.因为s2甲=15×[(-12)2+(-4)2+22+52+92]=54,-4-s2乙=15×[(-5)2+(-5)2+(-4)2+42+102]=36.4,所以s2甲s2乙,故乙比甲稳定.故选A.(2)(2019·皖南八校高三第三次联考)从某地区年龄在25~55岁的人员中,随机抽出100人,了解他们对今年两会的热点问题的看法,绘制出频率分布直方图如图所示,则下列说法正确的是()A.抽出的100人中,年龄在40~45岁的人数大约为20B.抽出的100人中,年龄在35~45岁的人数大约为30C.抽出的100人中,年龄在40~50岁的人数大约为40D.抽出的100人中,年龄在35~50岁的人数大约为50答案A解析根据频率分布直方图的性质得(0.01+0.05+0.06+a+0.02+0.02)×5=1,解得a=0.04,所以抽出的100人中,年龄在40~45岁的人数大约为0.04×5×100=20,所以A正确;年龄在35~45岁的人数大约为(0.06+0.04)×5×100=50,所以B不正确;年龄在40~50岁的人数大约为(0.04+0.02)×5×100=30,所以C不正确;年龄在35~50岁的人数大约为(0.06+0.04+0.02)×5×100=60,所以D不正确.故选A.(1)频率分布直方图中每个小矩形的面积为对应的频率,不要混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.(2)由于茎叶图完全反映了所有的原始数据,解决由茎叶图给出的统计图表题时,就要充分使用这个图表提供的数据进行相关的计算或者是对某些问题作出判断.1.(2019·福建省高三模拟)为比较甲、乙两名高二学生的数学素养,对课程标准中规定的数学六大素养进行指标测验(指标值满分为5分,分值高者为优),根据测验情况绘制了如图所示的六大素养指标雷达图,则下面叙述正确的是()-5-A.乙的数据分析素养优于甲B.乙的数学建模素养优于数学抽象素养C.甲的六大素养整体水平优于乙D.甲的六大素养中数据分析最差答案C解析根据雷达图得到如下数据所示.由数据可知选C.2.(2019·江西省吉安一中、九江一中、新余一中等八所重点中学高三4月联考)某地区某村的前三年的经济收入分别为100,200,300万元,其统计数据的中位数为x,平均数为y;经过今年政府新农村建设后,该村经济收入在上年基础上翻番,则在这4年里收入的统计数据中,下列说法正确的是()A.中位数为x,平均数为1.5yB.中位数为1.25x,平均数为yC.中位数为1.25x,平均数为1.5yD.中位数为1.5x,平均数为2y答案C解析依题意,前三年中位数x=200,平均数y=100+200+3003=200,第四年收入为-6-600万元,故中位数为200+3002=250=1.25x,平均数为100+200+300+6004=300=1.5y.故选C.考向3回归分析与独立性检验角度1回归分析在实际中的应用例3某市地产数据研究所的数据显示,2016年该市新建住宅销售均价走势如下图所示,3月至7月房价上涨过快,政府从8月开始采取宏观调控措施,10月份开始房价得到很好的抑制.(1)地产数据研究所发现,3月至7月的各月均价y(万元/平方米)与月份x之间具有较强的线性相关关系,试建立y关于x的回归方程;政府若不调控,依此相关关系预测第12月份该市新建住宅销售均价;(2)地产数据研究所在2016年的12个月中,随机抽取三个月的数据作样本分析,若关注所抽三个月份的所属季度,记所属季度的个数为X,求X的分布列和数学期望.参考数据:∑5i=1.