本章内容本章介绍了从总体中抽取样本的常用方法,并通过实例,研究了如何利用样本对总体的分布规律、整体水平、稳定程度及相关关系等特性进行估计和预测.总体抽样分析估计简单随机抽样系统抽样分层抽样样本分布样本特征数总体分布总体特征数当总体容量大或检测具有一定的破坏性时,可以从总体中抽取适当的样本,通过对样本的分析、研究,得到对总体的估计,这就是统计分析的基本过程.而用样本估计总体就是统计思想的本质.要准确估计总体,必须合理地选择样本,我们学习的是最常用的三种抽样方法.获取样本数据后,将其用频率分布表、频率直方图、频率折线图或茎叶图表示后,蕴含于数据之中的规律得到直观的揭示.运用样本的平均数可以对总体水平作出估计,用样本的极差、方差(标准差)可以估计总体的稳定程度.对两个变量的样本数据进行相关性分析,可发现存在于现实世界中的回归现象.用最小二乘法研究回归现象,得到的线性回归方程可用于预测和估计,为决策提供依据.总之,统计的基本思想是从样本数据中发现统计规律,实现对总体的估计.2.1抽样方法1.简单随机抽样(1)抽签法为了了解高一(1)班50名学生的视力状况,从中抽取10名学生进行检查.如何抽取呢?通常使用抽签法,方法是:将50名学生从1到50进行编号,再制作1到50的50个号签,把50个号签集中在一起并充分搅匀,最后随机地从中抽10个号签.对编号与抽中的号签的号码相一致的学生进行视力检查.一般地,抽签法是从个体个数为N的总体中抽取一个容量为k的样本的过程。其步骤为:说明:1.抽样公平性原则—等概率—随机性;2.抽签法适用与总体中个数N不大的情形.1.将总体中的所有个体编号(号码可以从1到N);2.将1到N这N个号码写在形状、大小相同的号签上(号签可以用小球、卡片、纸条等制作);3.将号签放在同一箱中,并搅拌均匀;4.从箱中每次抽出1个号签,并记录其编号,连续抽取k次;5.从总体中将与抽到的签的编号相一致的个体取出.2.1抽样方法(2).随机数表法:下面我们用随机数表法求解本节开头的问题.(1)对50个同学进行编号,编号分别为01,02,03,…,50;(2)在随机数表中随机地确定一个数作为开始,如第8行第29列的数7开始.为便于说明,我们将附表中的第6行至第10行摘录如下:1622779439495443548217379323788735209643842634916484421753315724550688770474476721763350258392120676630163785916955567199810507175128673580744395238793321123429786456078252420744381551001342996602795457608632440947279654491746096290528477270802734328第29列第8行(3)从数7开始向右读下去,每次读两位,凡不在01到50中的数跳过去不读,遇到已经读过的数也跳过去,便可依次得到12,07,44,39,38,33,21,34,29,42这10个号码,就是所要抽取的10个样本个体的号码.将总体中的N个个体编号时可以从0开始,例如当N=100时,编号可以是00,01,02,…,99.这样,总体中的所有个体均可用两位数字号码表示,便于使用随机数表.当随机地选定开始的数后,读数的方向可以向右,也可以向左、向上、向下等.由此可见,用随机数表法抽取样本的步骤是:(1)对总体中的个体进行编号(每个号码位数一致);(2)在随机数表中任选一个数作为开始;(3)从选定的数开始按一定的方向读下去,得到的数码若不在编号中,则跳过;若在编号中,则取出;如果得到的号码前面已经取出,也跳过;如此继续下去,直到取满为止;(4)根据选定的号码抽取样本.小结:1.抽样无放回;2.抽样公平性;3.抽签法,随机数表法—简单的随机抽样.第四步将编号为,+10,+20,…,+610的个体抽出,组成样本.第三步在第一段000,001,002,…,009这十个编号中用简单随机抽样确定起始号码;因为624的10%约为62,624不能被62整除,为了保证“等距”分段,应先剔除4人.2.系统抽样:例某单位在岗职工共624人,为了调查工人用于上班途中的时间,决定抽取10%的工人进行调查.如何采用系统抽样方法完成这一抽样?0i分析:第一步将624名职工用随机方式进行编号;解:第二步从总体中剔除4人(剔除方法可用随机数表法),将剩下的620名职工重新编号(分别为000,001,002,…,619),并分成62段;0i0i0i0i系统抽样的步骤为:(1)采用随机的方式将总体中的个体编号;(2)将整个的编号按一定的间隔(设为k)分段,当(N为总体中的个体数,n为样本容量)是整数时,k=;当不是整数时,从总体中剔除一些个体,使剩下的总体中个体的个数N′能被n整除,这时k=,并将剩下的总体重新编号;(3)在第一段中用简单随机抽样确定起始的个体编号l;(4)将编号为l,l+k,l+2k,…,l+(n-1)k的个体抽出.NnNnNn1Nn小结:1.适用与总体中个体无明显的层次差异;2.系统抽样—等距抽样.3.分层抽样例某电视台在因特网上就观众对某一节目的喜爱程度进行调查,参加调查的总人数为12000人,其中持各种态度的人数如下表所示:很喜爱喜爱一般不喜爱2435456739261072电视台为进一步了解观众的具体想法和意见,打算从中抽取60人进行更为详细的调查,应怎样进行抽样?分析:因为总体中人数较多,所以不宜采用简单随机抽样.又由于持不同态度的人数差异较大,故也不宜用系统抽样方法,而以分层抽样为妥.解可用分层抽样方法,其总体容量为12000.“很喜爱”占“喜爱”占“一般”占“不喜爱”占因此,采用分层抽样的方法在“很喜爱”、“喜爱”、“一般”和“不喜爱”的2435人、4567人、3926人和1072人中分别抽取12人、23人、20人和5人.243548748760121200024002400,应取人456745676023120001200,应取人392639256020120001200,应取人107210772605120001200,应取人一般地,当总体由差异明显的几个部分组成时,为了使样本更客观地反映总体情况,我们常常将总体中的个体按不同的特点分成层次比较分明的几部分,然后按各部分在总体中所占的比实施抽样,这种抽样方法叫分层抽样(stratifiedsampling),其中所分成的各个部分称为“层”.分层抽样的步骤是:(1)将总体按一定标准分层;(2)计算各层的个体数与总体的个体数的比;(3)按各层个体数占总体的个体数的比确定各层应抽取的样本容量;(4)在每一层进行抽样(可用简单随机抽样或系统抽样).说明:1.适用与总体中个体有明显的层次差异,层次分明的特点;2.总体中个体数N较大时,系统抽样,分层抽样二者选其一.类别特点相互联系适用范围共同点简单随机抽样从总体中逐个抽取总体中的个体个数较少抽样过程中每个个体被抽到的可能性相同系统抽样将总体平均分成几部分,按事先确定的规则分别在各部分中抽取在起始部分抽样时,采用简单随机抽样总体中的个体个数较多分层抽样将总体分成几层,按各层个体数之比抽取各层抽样时采用简单随机抽样或系统抽样总体由差异明显的几部分组成以上我们学习了三种抽样方法,这些抽样方法的特点及适用范围可归纳如下:例1下列问题中,采用怎样的抽样方法较为合理?(1)从10台冰箱中抽取3台进行质量检查;(2)某电影院有32排座位,每排有40个座位,座位号为1~40.有一次报告会坐满了听众,报告会结束以后为听取意见,需留下32名听众进行座谈;(3)某学校有160名教职工,其中教师120名,行政人员16名,后勤人员24名.为了了解教职工对学校在校务公开方面的意见,拟抽取一个容量为20的样本.分析(1)总体容量比较小,用抽签法或随机数表法都很方便.(2)总体容量比较大,用抽签法或随机数表法比较麻烦.由于人员没有明显差异,且刚好32排,每排人数相同,可用系统抽样.(3)由于学校各类人员对这一问题的看法可能差异较大,故应采用分层抽样方法.例2.假设要考察某公司生产的500克袋状牛奶的质量是否达标,现从800袋牛奶中抽取60袋进行检验,利用随机数表抽样本时,先将800袋牛奶按000,001,…,799进行编号,如果从随机表第8行第18列的数开始向右读,请你依次写出最先检测的5牛奶的编号(下面摘取了一随机数表的第7行至第9行)84421753315724550688770474476721763350258392120676……6301637859169556671998105071751286735807443962587973211234297864560782524207443815510613429966027954……1.现有以下两项调查:①某装订厂平均每小时大约装订图书362册,要求检验员每小时抽取40册图书,检查其装订质量状况;②某市有大型、中型与小型的商店共1500家,三者数量之比为1∶5∶9.为了调查全市商店每日零售额情况,抽取其中15家进行调查.完成①、②这两项调查宜采用的抽样方法依次是()A、简单随机抽样法,分层抽样法B、分层抽样法,简单随机抽样法C、分层抽样法,系统抽样法D、系统抽样法,分层抽样法D2.要从已编号(1~60)的60枚最新研制的某型导弹中随机抽取6枚来进行发射试验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的6枚导弹的编号可能是()A.5,10,15,20,25,30B.3,13,23,33,43,53C.1,2,3,4,5,6D.2,8,14,20,26,32B3.某校有行政人员、教学人员和教辅人员共200人,其中教学人员与教辅人员的比为101,行政人员有24人,现采取分层抽样容量为50的样本,那么行政人员应抽取的人数为()A3B4C6D8C教学人员和教辅人员应抽取的人数分别为_____和_____.404统计的基本思想方法:用样本估计总体,即通常不直接去研究总体,而是通过从总体中抽取一个样本,根据样本的情况去估计总体的相应情况.统计的核心问题:如何根据样本的情况对总体的情况作出一种推断.这里包括两类问题:一类是如何从总体中抽取样本?另一类是如何根据对样本的整理、计算、分析,对总体的情况作出推断.用样本的有关情况去估计总体的相应情况,这种估计大体分为两类,一类是用样本频率分布估计总体分布,一类是用样本的某种数字特征(例如平均数、方差等)去估计总体的相应数字特征。整体介绍:国际奥委会2003年6月29日决定,2008年北京奥运会举办的日期比原定日期推迟两周,改在8月8日至8月24日举行.原因是7月末8月初北京地区得气温高于8月中下旬.下表是随机抽取的近年来北京地区7月25日至8月24日的日最高气温,得到如下样本(单位:ºC)7月25日至8月10日41.937.535.735.437.238.134.733.733.332.534.633.030.831.028.631.528.88月8日至8月24日28.631.528.833.232.530.330.229.833.132.829.425.624.730.030.129.530.3怎样通过上表中的数据,分析比较两时间段的高温(≥33℃)状况呢?问题引入:知识新授:1.频数与频率频数是指一组数据中,某范围内的数据出现的次数;把频数除以数据的总个数,就得到频率.2.频率分布表当总体很大或不便于获得时,可以用样本的频率分布估计总体的频率分布.我们把反映总体频率分布的表格称为频率分布表.说明:样本频率分布与总体频率分布有什么关系?通过样本的频数分布、频率分布可以估计总体的频率分布.7月25日至8月10日41.937.535.735.437.238.134.733.733.332.534.633.030.831.028.631.528.88月8日至8月24日28.6