授课章节第七章抽样原理与方法授课对象生物科学本科授课时数2学时授课时间第三学年下学期授课地点教学楼教学目的与要求掌握:抽样误差的估计,样本容量的确定,抽样的基本方法,抽样方案的制定。熟悉:抽样方案的制定。了解:调查研究的质量控制;常用的调查研究方法教学重点与难点重点:抽样方案制定的基本原则与内容以及常用的抽样研究方法。难点:抽样误差、样本容量的确定。教学方法与组织安排教学方法:课堂讲授为主。时间安排:教学教师讲授内容85分钟,课堂提问5分钟。教学方法讲授、CAI课件、举例。教具多媒体教学提纲、课堂小结与课后练习一、教学提纲1抽样误差的估计1.1样本平均数的标准误和置信区间1.2样本频率的标准误和置信区间2样本容量的确定2.1平均数资料样本容量的确定2.2频率资料样本容量的确定3.2成对资料和非成对资料样本容量的确定3抽样的基本方法3.1随机抽样3.2顺序抽样3.3典型抽样4抽样方案的制定1、抽样方案制定的基本内容:1.1确定调查目的和指标1.2确定调查对象和观察单位1.3确定调查方法1.4估计样本含量和抽样分数1.5总体单位编号2调查表的制定3抽样调查的组织工作二、课堂小结对于客观存在的现象进行直接或间接的询问和观察的研究方法统称为调查研究.其主要特点是没有人为地施加处理因素,而只能“被动”地观察客观实在.调查设计就是对整个调查研究做出完整的计划,包括搜集资料,整理资料和分析资料的计划.其关键是调查表的制定,调查方法的选择和样本含量估计.其中调查计划主要包括确定调查目的和指标,确定调查对象和观察单位,确定调查方法,确定调查资料搜集方式,拟订调查项目和调查表,估计样本含量,制定调查的组织计划.常用的抽样方法为简单随机抽样,系统抽样,分层抽样和整群抽样.第一节抽样方案的制定在科学研究中,除了进行控制试验外,有时也要进行调查研究。调查研究是对已有的事实通过各种方式进行了解,然后用统计的方法对所得数据进行分析,从而找出其中的规律性。例如,了解畜禽品种及水产资源状况;探索和分析对某种疾病有效的防治规律、措施以及新的检验手段和方法等。由于现场调查立足于生产实际,所以它是研究和解决实际问题的一种重要研究方法。同时,控制试验的研究课题,往往是在调查研究的基础上确定的;试验研究的成果,又必须在其推广应用后经调查得以验证。为了使调查研究工作有目的、有计划、有步骤地顺利开展,必须事先拟定一个详细的调查计划。调查计划应包括以下几个内容:(一)调查研究的目的任何一项调查研究都要有明确的目的,即通过调查了解什么问题,解决什么问题。例如,家畜健康状况的调查的目的是评定家畜健康水平;畜禽品种资源调查的目的是了解畜禽品种的数量、分布与品种特征特性等情况。同时,调查研究的目的还应该突出重点,一次调查应针对主要问题收集必要的数据,深入分析,为主要问题的解决提出相应的措施和办法。(二)调查的对象与范围根据调查的目的,确定调查的对象、地区和范围,划清调查总体的同质范围、时间范围和地区范围。例如,四川省家禽品种资源调查,调查地区为四川省,调查总体和对象为全省各市、县的家禽,调查时间从2000年1月到2000年12月。(三)调查的项目调查项目的确定要紧紧围绕调查目的。调查项目确定的正确与否直接关系到调查的质量。因此,项目应尽量齐全,重要的项目不能漏掉;项目内容要具体、明确,不能模棱两可。应按不同的指标顺序以表格形式列示出来,以达到顺利完成搜集资料的目的。例如,家禽品种资源调查项目有:种类(鸡、鸭、鹅等)、品种(柴鸡、来航、白洛克等),数量、体重、产蛋性能等项目。调查项目有一般项目和重点项目之分。一般项目主要是指调查对象的一般情况,用于区分和查找,如畜主姓名、住址及编号等。重点项目是调查的核心内容,如品种资源调查中的品种、数量及生产性能等。调查表的形式分为一览表和卡片,当调查的指标较少时多采用一览表的形式,它可以填入许多调查动物情况。若调查的内容多而复杂时可采用卡片的形式,一张卡片只填一个对象,以便汇总和整理,或输入计算机。(四)样本含量在抽样调查研究时,样本含量的大小关系到调查结果的精确性。样本含量太大,需耗费较多的人力、物力及资金;样本含量太小,增大了偶然性,使抽样误差大,影响调查结果的精确性。确定样本含量的方法将在本章第十节介绍。(五)调查方法调查分为全面调查和抽样调查两种。全面调查就是对总体的每一个个体逐一调查,其涉及的范围广、时间长、工作量大,因而需耗费大量的人力、物力和时间。抽样调查是指在全体调查对象中,通过某种方法抽取部分的有代表性的对象作调查,并以样本去推断总体。抽样方法常用的有以下5种:1、完全随机抽样首先将有限总体内的所有个体全部编号,然后用抽签或用随机数字表的方法,随机抽取若干个个体作为样本。如欲抽样调查某猪场母猪繁殖性能,应先将母猪逐一编号,再用抽签或随机数字表按所需数量抽样,抽取的每一个体均为调查对象。完全随机抽样适用于个体均匀程度较好的总体。2、顺序抽样也称系统抽样或机械抽样。先将有限总体内的每个个体按其自然状态编号,然后根据调查所需的数量,按一定间隔顺序抽样。如对某牧场500只奶山羊进行传染性无乳症的调查,抽查50只。可按编号顺序每隔10只抽一只,但第一个调查号应从1——10中随机选取。此法简便易行,适用于个体分布均匀的总体。3、分等按比例随机抽样分等按比例随机抽样又称分层按比例随机抽样。先按某些特征或变异原因将抽样总体分成若干等次(层次),在各等次(层次)内按其占总体的比例随机抽得各等次(层次)的样本,然后将各等次(层次)抽取的样本合并在一起即为整个调查样本。如对某地奶山羊传染性无乳症的调查,经初步了解得知,在欲调查的整个地区中,该病感染率为80%-90%的地区占10%,感染率为60%-80%的地区占60%,感染率为20%-50%的地区占30%。若调查200只山羊,则应采用按比例分等抽样,在感染率为80%-90%的地区随机抽取20只,感染率为60%-80%的地区随机抽取120只,感染率为20%-50%的地区随机抽取60只。分等按比例随机抽样法能有效地降低抽样误差,适用于总体分布不太均匀或个体差异较大的总体。但分等不正确,会影响抽样的精确性。4、随机群组抽样此种抽样是把总体划分成若干个群组,然后以群组为单位随机抽样。即每次抽取的不是一个个体,而是一群动物。每次抽取的群体可大小不等,但应对被抽取群体的每一个个体逐一进行调查。随机群组抽样容易组织,节省人力、物力,适用于群体差异较大,分布不太均匀的总体。5、多级随机抽样当调查的总体很大、并可以系统分组时,常采用多级随机抽样的方法。例如,调查某城市奶牛305天的1胎产奶量,可采用三级抽样:农场为初级抽样单位,分场为二级抽样单位,奶牛个体为三级抽样单位。多级抽样可以估计各级的抽样误差和探讨合理的抽样方案。(六)调查的组织工作调查研究是一项比较复杂的工作,要动员组织大量的人力,需要一定的经费,安排一定的时间,因此,应做好人员分工、经费预算、调查进程安排、调查表的准备及调查资料的整理等项工作,如此才能保证调查研究工作有计划、有步骤地完成。一般在正式调查前,需进行预调查,以检验调查设计的可行性,并培训参予调查的工作人员,以统一标准和方法。调查时若发现问题,应立即解决。特别要对资料进行检查,保证资料完整、正确,如发现遗漏、错误应及时补充、纠正。资料检查无误后,应妥善保存,避免丢失。第二节样本含量的确定如果我们要求调查研究或试验结果精确性高,则样本含量就要大,并且越大越好。但若样本太大,就会花费过多的人力、物力和时间。特别是破坏性试验,如畜牧试验中猪、牛羊等动物的屠宰试验。即使不是破坏性试验,如在农村进行活猪体重调查时,抓猪、拴猪也容易发生掉膘现象。所以,在实际调查与试验研究中,却要求样本越小越好。但样本太小必然影响精确性。因此,需要研究在一次调查或试验中如何确定适宜样本含量的问题。一、调查研究中样本含量的估计(一)平均数抽样调查的样本含量估计目前对调查研究所需样本含量,还没有一个精确的估计方法。根据以往研究,一般要求样本含量占抽样总体的5%为最小量,对变异较小的群体,则可低于5%。斯丹(C.Stein)认为,调查样本含量与调查要求的准确性高低及所研究对象的变异度大小有关。因此,需要提出我们能够接受的允许误差,并初步了解调查指标变异度的大小。由标本平均数与总体平均数差异显著性检验的t检验公式推出的样本含量计算公式为:222/dStn(12-9)式中:n为样本含量;t为自由度n-1、两尾概率为的临界t值;S为标准差,由经验或小型调查估得;d为允许误差)(x,可根据调查要求的准确性确定;1-为置信度。在首次计算时,可先用df=∞时t(当置信度为95%时,tα=t0.05=1.96;置信度为99%时,t=t0.01=2.58)值代入,若算得n30,再用df=n-1的t代入计算,直到n稳定为止。【例12.9】进行南阳黄母牛体高调查,已测得南阳黄母牛的体高的标准差S=4.07cm,今欲以95%的置信度使调查所得的样本平均数与总体平均数的允许误差不超过0.5cm,问需要抽取多少头黄牛组成样本才合适?已知:S=4.07,d=0.5,1-=0.95,先取t0.05=1.96,代入(12-9)式,得:n=1.962×4.072/0.52=254.54≈255(头)即对南阳黄母牛体高进行调查,至少需要调查255头,才能以95%的置信度使调查所得样本平均数与总平均数相差不超过5cm。(二)百分数抽样调查样本含量估计如果我们调查的目的是对服从二项分布的总体百分数作出估计,由样本百分数与总体百分数差异显著性检验u检验公式推出样本含量计算公式为:22/dpqun(12-10)式中:n为样本含量;p为总体的百分数;q=1-p;u为两尾概率为的临界u值,u0.05=1.96,u0.01=2.58;d为允许误差(pˆ-p),pˆ为样本百分率,可由经验得出;1-为置信度。总体百分数如果事先未知,可先从总体中调查一个样本估计。或令p=0.5进行估算。【例12.10】欲了解某地区鸡新城疫感染率,已知道通常感染率约60%,若规定允许误差为3%,取置信度1-=0.95,问至少需要调查多少只鸡?将p=0.6,q=1-p=1-0.6=0.4,d=0.03,u=1.96,代入(12-10)式,得:n=1.962×0.6×0.4/0.033≈1025(只)即至少需要调查1025只鸡,才能以95%的置信度使调查所得的样本百分数与总体百分数相差不超过0.03。此外,当样本百分数接近0%或100%时,分布呈偏态,应对x作1sinx转换。此时估算公式为:21)]1/(sin/3.57[ppdun(12-11)【例12.11】某地需抽样调查牛结膜炎发病率,已知通常发病率为2%,若规定允许误差为0.1%,取置信度1-=0.95,问至少需要调查多少头牛?将p=0.02,d=0.001,u=1.96,代入(12-11)式,得:1505]})02.01(02.0/001.0[sin/96.13.57{21n(头)即至少需要调查1505头牛,才能以95%的置信度使估计出的牛结膜炎发病率误差不超过0.1%。二、试验研究中重复数的估计(一)配对设计中重复数的估计由配对设计t检验公式导出:222/dStnd(12-12)式中:n为试验所需动物对子数,即重复数;dS为差数标准误,根据以往的试验或经验估计;t为自由度n-1、两尾概率为的临界t值;d为要求预期达到差异显著的平均数差值(21xx);1-为置信度。首次计算时以df=∞的t值代入计算,若n≤15,则以df=n-1的tα值代入再计算,直到n稳定为止。【例12.12】比较两个饲料配方对猪增重的影响,配对设计,希望以95%的置信度在平均数差值达到1.5kg时,测出差异显著性。根据以往经验dS=2kg,问需要多少对试验家畜才能满足要求?将t0.05(∞)=1.96,dS=2,d=1.5代入(12-12)式,得:n=1.962×22/1.52≈7(对)