统计抽样方法简单随机抽样抽签法:适用于总体中个体无差异且总体容量较小随机数法:适用于总体中个体无差异且总体容量较大系统抽样:适用于总体中个体无差异且总体容量很大分层抽样:适用于由差异明显的几部分组成的总体估计总体用图形估计频率分布直方图:每个小矩形的面积是相应各组的频率频率分布折线图:直方图中各小矩形上端的中点连线总体密度曲线:随着样本容量的增加,频率分布折线图越来越接近于一条光滑曲线茎叶图:没有原始数据信息的损失用数字估计众数:出现次数最多的数中位数:按从小到大(或从大到小)的顺序排成一列,处于中间位置的数平均数:一组数据的和与这组数据的个数的商标准差:𝑠=1𝑛[(𝑥1-𝑥)2+(𝑥2-𝑥)2+…+(𝑥𝑛-𝑥)2] 方差:𝑠2=1𝑛[(𝑥1-𝑥)2+(𝑥2-𝑥)2+…+(𝑥𝑛-𝑥)2] 标准差与方差的意义:标准差和方差都是描述一组数据围绕平均数波动的程度相关关系→线性相关定义:散点图中的点分布在一条直线附近回归方程求法:最小二乘法求回归方程系数应用:已知一个变量值预测另一个变量值专题一三种抽样方法的比较简单随机抽样、系统抽样、分层抽样的比较如下表:类别共同点各自特点联系适用范围简单随机抽样抽样过程中每个个体被抽到的可能性相等;每次抽出个体后不再将它放回,即不放回抽样从总体中逐个抽取总体中个体无差异且个数较少系统抽样将总体均分成几部分,按预先制定的规则在各部分中抽取在第一组抽取样本时采用简单随机抽样总体中个体无差异且个数很多分层抽样将总体分成几层,分层进行抽取在各层抽取样本时采用简单随机抽样或系统抽样总体由差异明显的几部分组成研究统计问题的基本思想方法就是从总体中抽取样本,用样本估计总体,因此选择适当的抽样方法抽取具有代表性的样本对整个统计问题起着至关重要的作用.高考中主要考查三种抽样方法的比较和辨析以及应用.应用某高级中学有学生270人,其中一年级108人,二、三年级各81人.现要利用抽样方法抽取10人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一编号为1,2,…,270;使用系统抽样时,将学生统一随机编号为1,2,…,270,并将整个编号依次分为10段.如果抽得号码有下列四种情况:①7,34,61,88,115,142,169,196,223,250;②5,9,100,107,111,121,180,195,200,265;③11,38,65,92,119,146,173,200,227,254;④30,57,84,111,138,165,192,219,246,270.关于上述样本的下列结论中,正确的是()A.②③都不能为系统抽样B.②④都不能为分层抽样C.①④都可能为系统抽样D.①③都可能为分层抽样科目一考试网科目一模拟考试2016科目四考试网科目四模拟考试驾校一点通365网驾校一点通2016科目一科目四驾驶员理论考试网科目一考试科目四考试提示:分层抽样时,在各层所抽取的样本个数与该层个体数的比值等于抽样比;系统抽样抽取的号码按从小到大排列后,每一个号码与前一个号码的差都等于分段间隔.解析:按分层抽样时,在一年级抽取108×10270=4(人),在二年级、三年级各抽取81×10270=3(人),则在号码段1,2,…,108中抽取4个号码,在号码段109,110,…,189中抽取3个号码,在号码段190,191,…,270中抽取3个号码,①②③符合,所以①②③可能是分层抽样,④不符合,所以④不可能是分层抽样;如果按系统抽样时,抽取出的号码应该是“等距”的,①③符合,②④不符合,所以①③都可能为系统抽样,②④都不能为系统抽样.答案:D专题二用样本的频率分布估计总体分布通常利用样本的频率分布表和频率分布直方图对总体情况作出估计,有时也利用频率分布折线图和茎叶图对总体情况作出估计.频率分布直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到在频率分布表中看不清楚的数据模式,这样根据样本的频率分布,我们就可以大致估计出总体的分布.应用某路段检查站监控录像显示,在某段时间内有2000辆车通过该站,现随机抽取其中的200辆进行车速分析,分析结果表示为如图所示的频率分布直方图.则图中a=,估计在这段时间内通过该站的汽车中速度不小于90km/h的约有辆.解析:在频率分布直方图中,(0.04+0.025+a+0.01+0.005)×10=1,解得a=0.02,由题图可估计,速度不小于90km/h的汽车通过的频率为(0.025+0.005)×10=0.3,则估计在这段时间内通过该站的汽车中速度不小于90km/h的汽车的辆数为0.3×2000=600.答案:0.02600专题三用样本的数字特征估计总体的数字特征为了从整体上更好地把握总体的规律,我们还可以通过样本数据的众数、中位数、平均数和标准差等数字特征对总体的数字特征作出估计.众数就是样本数据中出现次数最多的那个值;中位数就是把样本数据按照由小到大(或由大到小)的顺序排列,若数据的个数是奇数,就是处于中间位置的数;若数据的个数是偶数,就是中间两个数据的平均数.平均数就是所有样本数据的平均值,用𝑥表示;标准差是反映样本数据分散程度大小的最常用统计量,其计算公式如下:s=1𝑛[(𝑥1-𝑥)2+(𝑥2-𝑥)2+…+(𝑥𝑛-𝑥)2].有时也用标准差的平方s2——方差来代替标准差,实质一样.应用1对某种花卉的开放花期追踪调查,调查情况如下:花期/天11~1314~1617~1920~22个数20403010则这种花卉的平均花期约为天.解析:由题中表格可知,花期在11~13天的花卉个数为20,估计花期在11~13天的花卉的总花期天数为12×20=240;花期在14~16天的花卉个数为40,估计花期在14~16天的花卉的总花期天数为15×40=600;花期在17~19天的花卉个数为30,估计花期在17~19天的花卉的总花期天数为18×30=540;花期在20~22天的花卉个数为10,估计花期在20~22天的花卉的总花期天数为21×10=210,综上所述,此种花卉的总花期数为240+600+540+210=1590,所以这种花卉的平均花期为1590100=15.9,所以这种花卉的平均花期约为16天.答案:16应用2某工厂甲、乙两名工人参加操作技能培训,他们在培训期间参加的8次测试成绩记录如下:甲:9582888193798478乙:8392809590808575试比较哪个工人的成绩较好.提示:成绩较好要从两方面来分析,一是平均成绩比较高,二是成绩波动比较小.解:𝑥甲=18(78+79+81+82+84+88+93+95)=85,𝑥乙=18(75+80+80+83+85+90+92+95)=85.𝑠甲2=18[(78-85)2+(79-85)2+(81-85)2+(82-85)2+(84-85)2+(88-85)2+(93-85)2+(95-85)2]=35.5,𝑠乙2=18[(75-85)2+(80-85)2+(80-85)2+(83-85)2+(85-85)2+(90-85)2+(92-85)2+(95-85)2]=41.∵𝑥甲=𝑥乙,𝑠甲2𝑠乙2,∴甲的成绩较稳定.综上可知,甲的成绩较好.专题四频率分布直方图和茎叶图与数字特征的综合应用(1)利用频率分布直方图估计数字特征.①众数是最高的矩形的底边的中点.②中位数左右两侧直方图的面积相等.③平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标.④中间小矩形最高,两侧小矩形较矮,说明方差、标准差较小,这组数据比较集中;反之,中间小矩形较矮,两侧小矩形较高,说明方差、标准差较大,这组数据比较分散.说明:利用直方图求出的众数、中位数、平均数均为近似值,往往与实际数据得出的不一致,但它们能粗略估计其众数、中位数和平均数.(2)利用茎叶图估计数字特征.方法一,根据茎叶图读出所有数据,并根据定义,求出平均数、众数、中位数、方差、标准差的大小;方法二,粗略估计:①每个叶上出现次数最多的数字,其对应的数据是众数;②每个叶上的数字按由小到大排列,位于“中间”的数字,其对应的数据是中位数;③位于“中间”叶上的数字,其对应的数据是平均数;④“叶”越集中,说明数据越集中,方差、标准差越小;“叶”越分散,说明数据越分散,方差、标准差越大.应用1某班甲乙两名学生进入高三以来5次数学考试成绩的茎叶图如图所示,甲乙两人5次数学考试成绩的中位数分别为、;平均数分别为、.解析:甲同学5次数学考试成绩分别是76,83,84,87,90,乙同学5次数学考试成绩分别是79,80,82,88,91,可知甲乙两人5次数学考试成绩的中位数分别为84,82,甲同学成绩的平均数𝑥甲=76+83+84+87+905=84,乙同学成绩的平均数𝑥乙=79+80+82+88+915=84.答案:84828484应用2某校高中年级开设了丰富多彩的课外活动课程,甲、乙两班各随机抽取了5名学生课外活动课程的学分,用茎叶图表示(如图).s1,s2分别表示甲、乙两班各随机抽取的5名学生学分的标准差,则s1s2(填“”“”或“=”).解析:甲班5名学生的学分分别是8,11,14,15,22,则平均数𝑥甲=8+11+14+15+225=14,s1=(8-14)2+(11-14)2+(14-14)2+(15-14)2+(22-14)25=22,乙班5名学生的学分分别是6,7,10,13,14,𝑥乙=6+7+10+14+135=10,s2=(6-10)2+(7-10)2+(10-10)2+(13-10)2+(14-10)25=10,所以s1s2.答案:应用3从高三年级抽出50名学生参加数学竞赛,由成绩得到如图所示的频率分布直方图.由于一些数据丢失,试利用频率分布直方图估计:(1)这50名学生成绩的众数与中位数;(2)这50名学生的平均成绩.解:(1)最高矩形的高是0.03,其底边中点是70+802=75,则这50名学生成绩的众数估计是75分.频率分布直方图中,从左到右前3个和前4个矩形的面积和分别是(0.004+0.006+0.02)×10=0.30.5,(0.004+0.006+0.02+0.03)×10=0.60.5,设中位数是m,则70m80,则0.3+(m-70)×0.03=0.5,解得m≈76.7(分),即这50名学生成绩的中位数约是76.7分.(2)每个小矩形的面积乘以其底边中点的横坐标的和为0.004×10×40+502+0.006×10×50+602+0.02×10×60+702+0.03×10×70+802+0.024×10×80+902+0.016×10×90+1002=76.2.即这50名学生的平均成绩约是76.2分.1.(2013·全国新课标Ⅰ,理3)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是()A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样解析:因为学段层次差异较大,所以在不同学段中抽取宜用分层抽样.答案:C2.(2013·湖南高考,文3)某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n=().A.9B.10C.12D.13解析:抽样比为360=120,所以甲抽取6件,乙抽取4件,丙抽取3件,故n=13,故选D.答案:D3.(2013·辽宁高考,理