本章优化总结专题探究精讲章末综合检测本章优化总结知识体系网络知识体系网络专题探究精讲抽样方法的选取及应用本章学习了简单随机抽样、系统抽样和分层抽样三种方法.它们的共同特点是在抽样过程中逐个不放回抽取,每一个个体被抽取的可能性相等,体现了这些抽样方法的客观性和公平性.当总体容量较小,样本容量也较小时,可采用抽签法;当总体容量较大,样本容量较小时,可采用随机数表法;当总体容量较大,样本容量也较大时,可采用系统抽样法;当总体中个体差异较显著时,可采用分层抽样法.某单位有职工160人,其中业务人员96人,管理人员40分,后勤服务人员24人,为了了解职工的某种情况,要从中抽取一个容量为20的样本,试用三种抽样方法分别进行抽样,写出抽样过程.【思路点拨】根据三种抽样方法的特点和步骤进行抽样即可,在采用简单随机抽样法抽样时,一般既可以采用抽签法,又可以采用随机数表法.例1【解】(1)简单随机抽样法①编号:将160人按照1~160号随机进行编号;②制签:用形状、大小等完全相同的材料制成160个签;③搅拌均匀:将这160个签放在同一个箱子里,并搅拌均匀;④抽签:从箱子里每次随机地抽取一个签,连续抽取20次;⑤获取样本:将总体中与抽到的20个号签的编号一致的个体取出,即得到所要抽取的样本.(用随机数表法也可以)(2)系统抽样法:将160人按1~160随机编号,按编号的顺序平均分成20组(各组编号为1~8,9~16,…,153~160);先在第一组中用抽签法抽出一个个体,编号为m(1≤m≤8);再从其余组中抽取编号分别为m+8,m+16,…,m+19×8的个体,这样由这20个个体组成了总体的一个样本.(3)分层抽样法:按照业务人员、管理人员、后勤服务人员分成三层来抽样,每一层的抽样比例都是20∶160=1∶8,所以从业务人员、管理人员、后勤服务人员中用抽签法分别抽取12人、5人、3人,把他们合在一起就组成了一个样本.【名师点评】应用抽样方法抽取样本时,应注意以下几点:(1)用随机数表法抽样时,对个体所编的号码位数要相等.当问题所给位数不相等时,以位数较多的为准,在位数较少的数前面添“0”,凑齐位数.(2)用系统抽样法抽样时,如果总体容量N能被样本容量n整除,抽样间隔为k=Nn,如果总体容量N不能被样本容量n整除,先用简单随机抽样剔除多余个体,抽样间隔为k=[Nn].([Nn]表示取Nn的整数部分)利用样本的频率分布表和频率分布直方图对总体情况作出估计,有时也利用频率分布折线图和茎叶图对总体情况作出估计.直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到在分布表中看不清楚的数据模式,这样根据样本的频率分布,我们可以大致估计出总体的分布.用样本的频率分布估计总体但是,当总体的个体数较多时,所需抽取的样本容量也不能太小,随着样本容量的增加,频率分布折线图会越来越接近于一条光滑曲线,统计中称这条曲线为总体密度曲线,它能给我们提供更加精细的信息.在样本数据较少时,用茎叶图表示数据的效果较好,它不但可以保留原始信息,而且可以随时记录,这给数据的记录和表示都能带来方便.(1)用样本频率分布估计总体频率分布时,通常要对给定的一组数据进行列表、作图处理,作频率分布表与频率分布直方图时要注意其方法步骤.(2)茎叶图刻画数据有两个优点:一是所有信息都可以从图中得到,二是便于记录和表示,但数据位数较多时不方便.某良种培育基地正在培育一种小麦新品种A,将其与原有的一个优良品种B进行对照试验,两种小麦各种植了25亩,所得亩产量数据(单位:千克)如下:品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454.品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430.例2(1)完成所附的茎叶图.(2)用茎叶图处理现有的数据,有什么优点?(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.AB【思路点拨】画出茎叶图,用茎叶图处理数据,看数据分布就比较直观明了;要求通过观察茎叶图来分析结论,所以不需要计算有关的量,可以通过观察这两组数据的集中程度和分布情况来得出结论即可.【解】(1)茎叶图如图所示AB978758925054273314005534135363738394041424344453143561244577011367025620(2)由于每个品种的数据都只有25个,样本不大,画茎叶图很方便,此时茎叶图不仅清晰明了地表示了数据的分布情况,便于比较,没有任何信息损失,而且还可以随时记录新的数据.(3)通过观察茎叶图可以看出:①品种A的亩产量的数据较多的集中在420附近,品种B的亩产量的数据较多的集中在390~400附近,所以品种A的亩产量要比品种B的高;②品种A的亩产量的数据的分布范围是从357到454,分布范围较大,而品种B的相关数据分布范围是从363到430,且比品种A更为集中,所以品种A的亩产量的稳定性不如品种B.【思维总结】用样本估计总体,与所抽取的样本有直接的关系.如果样本的代表性差,那么对总体所作出的估计就会产生偏差,在实际操作中为了减少错误的发生,条件许可时,通常采取增加样本容量的方法.总体的平均数与标准差往往通过样本的平均数、标准差来估计.一般地,样本容量越大,对总体的估计越准确.(1)从数字特征上描述一组数据的情况平均数、众数、中位数描述其集中趋势,方差、极差和标准差描述其波动大小,也可以说方差、标准差和极差反映各个数据与其平均数的离散程度.用样本的数字特征估计总体的数字特征(2)方差和标准差的运用一组数据的方差或标准差越大,说明这组数据波动越大,方差的单位是原数据的单位的平方,标准差的单位与原单位相同.为了保护学生的视力,教室内的日光灯在使用一段时间后必须更换.已知某校使用的100只日光灯在必须换掉前的使用天数如下:试估计这种日光灯的平均使用寿命和标准差.例3天数150~180180~210210~240240~270270~300300~330330~360360~390灯泡数1111820251672【思路点拨】用每一区间内的组中值作为相应日光灯的使用寿命,再求平均寿命.【解】各组中值分别为165,195,225,255,285,315,345,375,由此算得平均数约为165×1%+195×11%+225×18%+255×20%+285×25%+315×16%+345×7%+375×2%=267.9≈268(天).将各组中值对于此平均数求方差得1100×[1×(165-268)2+11×(195-268)2+18×(225-268)2+20×(225-268)2+25×(285-268)2+16×(315-268)2+7×(345-268)2+2×(375-268)2]=2128.60(天2),故标准差约为2128.6≈46(天).所以估计这种灯泡的平均使用寿命约为268天,标准差约为46天.【名师点评】已知一组数据x1,x2,…,xn,其平均数为x,则称1nk=1n(xk-x)2为这组数据的方差,其算术平方根1nk=1nxk-x2为这组数据的标准差.对两个变量进行研究,通常是先作出两个变量之间的散点图,根据散点图直观判断两个变量是否具有线性相关关系,如果是,就可以求线性回归方程,由于样本反映总体,所以可以利用所求的线性回归方程,对这两个变量确定的总体进行估计,即根据一个变量的取值,预测另一个变量的结果;散点图和求线性回归方程是重点,要熟练掌握.在考试中,计算回归方程系数的公式一般都预先给出来,所以公式不需要记忆,只要理解公式中各个式子的含义就可以.线性回归方程及应用某电脑公司有6名产品推销员,其中5名推销员的工作年限与年推销金额数据如下表:推销员编号12345工作年限x(年)35679年推销金额y(万元)23345例4(1)作出推销金额y与工作年限x的散点图,并求y与x之间的相关系数r(精确到小数点后两位).(2)判断y与x之间的相关性;若是线性相关关系,求年推销金额y关于工作年限x的线性回归方程;(3)若第6名推销员的工作年限为11年,试估计他的年推销金额.【思路点拨】①作散点图,观察y与x之间的关系;②根据相关系数公式计算r,并判断y与x的相关性;③根据最小平方法的系数计算公式求b,a,写出线性回归方程;④根据线性回归方程进行预测.【解】(1)根据表中数据可以作出推销金额y与工作年限x的散点图,如图所示:根据求相关系数的公式得:∑5i=1(xi-x)(yi-y)=10,∑5i=1(xi-x)2=20,∑5i=1(yi-y)2=5.2,所以相关系数r=1020×5.2≈0.98,即年推销金额y与工作年限x之间的相关系数约为0.98.(2)由(1)中的散点图可直观得出推销金额y与工作年限x是线性相关关系,根据(1)中的相关系数为0.98,可以认为年推销金额y与工作年限x之间具有较强的线性相关关系;设所求的线性回归方程为y^=bx+a,则b=0.5,a=0.4,∴年推销金额y关于工作年限x的线性回归方程为y^=0.5x+0.4.(3)由(2)可知,当x=11时,y^=0.5x+0.4=0.5×11+0.4=5.9(万元),∴可以估计第6名推销员的年推销金额为5.9万元.【思维总结】我们通过建立回归直线方程,根据部分观测值,可获得对这两个变量之间整体关系的了解,若散点图中各点并不在一条直线附近,用公式求得的回归方程也是没有意义的.章末综合检测本部分内容讲解结束点此进入课件目录按ESC键退出全屏播放谢谢使用