试验资料的整理特征数的计算与第二章XYZ华中师范大学生命科学学院一、总体与样本二、参数与统计数三、变量与资料四、因素与水平五、处理与重复六、效应与互作七、误差与错误八、准确性与精确性回顾:第一章绪论在生物学试验及调查中,通过对某种具体事物或现象观察获得的结果称为资料(data)。原始数据无序有序统计分析揭示事物本质第一节:试验资料的搜集与整理一、试验资料的类型二、试验资料的搜集三、试验资料的整理对试验资料进行分类是统计归纳的基础。数量性状资料质量性状资料计数资料(非连续变量资料)计量资料(连续变量资料)变量定量变量定性变量连续变量非连续变量资料对资料进行分类整理是,必须坚持“同质”的原则。数量性状(quantitativecharacter)是指能够以计数和测量或度量的方式表示其特征的性状。观察测定数量性状而获得的数据就是数量性状资料(dataofquantitativecharacter)。数量性状资料的获得有计数和测量两种方式,因而数量性状资料又分为计数资料和计量资料两种。一、数量性状资料指用计数方式获得的数量性状资料。在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现,因此各观察值是不连续的,所以该类资料也称为非连续变量资料或间断变量资料或离散变量资料。例如,鱼的尾数只可能是1,2,3,4,…,n1、计数资料(enumerationdata)指用测量或度量法获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数据资料。其数据是用长度、重量、容积、温度、浓度等来表示,要带单位。这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精确度而定,它们之间的变异是连续性的,因此计量资料也称为连续变量资料。例如,小麦的株高是8095cm,可以是86.5cm或86.54cm。2、计量资料(measurementdata)质量性状(qualitativecharacter)是指能观察到而不能直接测量的性状。观察质量性状而获得的数据就是质量性状资料(dataofqualitativecharacter),也称为属性性状资料。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下两种:1.统计次数法;2.评分法二、质量性状资料1、统计次数法(frequencycounting)株数频率红花26626.6%紫花49449.4%白花24024.0%总计1000100.0%这种由质量性状数量化得来的资料又叫次数资料。在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。例如,在研究豌豆的花色遗传时,红花与白花杂交,子二代中红花、紫花和白花的株数分类统计如下表。对某一质量性状分成不同级别,对不同级别进行评分来表示其性状差异的方法。从而将质量性状进行数量化,以便统计分析。例如,小麦感染锈病的严重程度可划分为0级(免疫)、1级(高度抵抗)、2级(中度抵抗)、3级(感染)。2、评分法(pointsystem)两种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将一种类型资料转化成另一种类型的资料。例如,兽医临床化验动物的白细胞总数得到的资料属于计数资料,根据化验的目的,可按白细胞总数过高、正常或过低分为三组,清点各组的次数,计数资料就转化为质量性状次数资料。第一节:试验资料的搜集与整理一、试验资料的类型二、试验资料的搜集三、试验资料的整理样本资料的搜集(collection)是统计分析的第一步,也是全部统计工作的基础。没有数据,就没有发言权。调查试验资料搜集的方法普查抽样调查随机抽样简单随机抽样分层随机抽样整体抽样双重抽样顺序抽样典型抽样二、试验资料的搜集调查是对已经存在的事情的资料按某种方案进行收集的方法。如地质调查、水样调查、河南省内的昆虫调查等等。资料的调查又可以分为两种:普查和抽样调查。1、普查(census)是对研究对象的每一个个体逐一进行调查的方法。普查一般要求在一定的时间或范围进行,要求准确和全面。如人口普查、土壤普查等等。普查可以为制定行业政策提供理论依据。消耗大量的人力、物力和时间一、调查(survey)人口普查在国家统一规定的时间内,按照统一的方法、统一的项目、统一的调查表和统一的标准时点,对全国人口普遍地、逐户逐人地进行的一次性调查登记。人口普查工作包括对人口普查资料的搜集、数据汇总、资料评价、分析研究、编辑出版等全部过程,它是当今世界各国广泛采用的搜集人口资料的一种最基本的科学方法,是提供全国基本人口数据的主要来源。从1949年至今,中国分别在1953年、1964年、1982年、1990年、2000年与2010年进行过六次全国性人口普查。抽样调查是根据一定的原则从研究对象中抽取一部分具有代表性的个体进行调查的方法。通过抽样将获得的样本资料进行统计处理,然后利用样本的特征数对总体进行推断。生物学研究中,进行普查的情况极少,多数情况下还是进行抽样调查。2、抽样调查(samplingsurvey)“你不必吃完整一头牛,才知道它的肉是咬不动的。”————SamelJohnson抽样的方法有多种,主要有:随机抽样法、顺序抽样法和典型抽样法,一般情况下在统计学中常常采用随机抽样的方法。要使样本无偏差地估计总体,除了样本容量要足够大之外,重要的是采用科学的抽样方法,抽取有代表性的样本,取得完整而准确的数据资料。背景法兰克罗斯福总统争取连任、肯萨斯州州长兰登为共和党总统候选人美国经济正由大萧条中逐渐恢复九百万人失业,于1929年至1933年间实际所得降低三分之一宣称一:《文学文摘》认为兰登将以57%对43%赢此选战。此数字基于二百四十万人之民意调查结果。宣称二:盖洛普民意测验所采用分层抽样调查了3000人,预测罗斯福将当选为美国的新一任总统。选举结果罗斯福以62%对38%赢此选战。为什么?抽样的广泛应用缘于大选前的民意测验《文学文摘》的取样办法:通过登记的电话簿发放问卷在当时仅有一千一百万个部宅用电话,而全国人口超过1.2亿。可能问题的所在取样偏差:Digest杂志的取样中包含过多的富人,而该年贫富间选举倾向相距极大怎样才能预测准?----样本要有代表性。1)随机抽样(randomsampling)又被称为概率抽样(probabilitysampling),必须满足2个条件:一是总体中每个个体被抽中的机会是均等的;二是总体中任意一个个体是相互独立的,是否被抽中不受其他个体的影响。(1)简单随机抽样纯随机抽样,是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。N方法:将总体内所有抽样单位全部编号,采用随机方法确定被抽单位编号,这些编号所对应的抽样单位抽出来放在一起就构成一个随机样本。适用对象:个体间差异较小、所需抽取的样本单位较少的情况。4368652571421044038905138052511121014032905例2.1(2)分层随机抽样(stratifiedrandomsampling)分层随机抽样是一种混合抽样。其特点是将总体按变异原因或程度划分成若干区层,然后再用简单随机抽样方法,从各区层按一定的抽样分数抽选抽样单位。抽样分数(samplingfraction):一个样本所包括抽样单位数与其总体所包括的抽样单位数的比值。方法:(1)将总体变异原因与程度划分成若干区层,使得区层内变异尽可能小或变异原因相同,而区层间变异比较大或变异原因不明。(2)在每一个区层按一定的抽样分数独立随机抽样。相等配置比例配置最优配置如果各区层抽样单位数相等,可采用相等配置如果各区层抽样单位数不等,可按相应的抽样分数,将欲抽取的抽样单位总数分配到各区层根据各区层抽样单位数、抽样误差和抽样费用,确定各区层应抽取的抽样单位。在变异范围较大的区层,抽样分数应大一些;在抽样费用较高的区层,抽样分数应小一些。分层抽样的抽样单位数目配置方法(1)若总体内各抽样单位间的差异比较明显,那么就可以把总体分为几个比较同质的区层,从而提高抽样的准确度;(2)分层随机抽样既运用了随机原理,也运用了局部控制原理,这样不仅可以降低抽样误差,也可以运用统计方法来估算抽样误差;例2.2现有一块麦田,其长势呈单向趋向式变化,欲抽样估产,如何进行抽样?好坏长势(3)整体抽样(clustersampling)整体随机抽样是把总体分成若干群,以群为单位,进行随机抽样,对抽到的样本进行全面调查。如果总体内主要变异来源明显来自不同区层间,且每一区层均较大,则应采用分层抽样;若主要变异来源明显来自区层内各单位间,且每一区层所占面积较小,则宜用整体随机抽样。例如,估计麦田的害虫啃食率,钢材的合格率等;优点1由于一个整体只要一个编号,因而减少了抽样单位编号数,且因调查单位数减少,工作方便;2与简单随机抽样相比较,它常提供较为准确的总体估计值。3只要各群抽选单位数相等,整体抽样也可提供总体平均数的无偏估计。(4)双重抽样(doublesampling)变量1变量2简单变量复杂变量如果所研究的性状是不容易观察测定的,或必须有较多费用,或要求有精密设备、复杂计算过程与耗费较多调查时间的,或必须进行破坏性测定才能获得观察结果的,由于上述种种原因,直接调查研究这一类型性状是有困难的。首先,抽取一个初步样本(样本量较小),并搜取一些简单项目以获得有关总体的信息:做一次随机抽样,调查y(复杂)和x(简单)两种性状,从中求出y依x的回归方程。这个样本容量n不一定很大,但希望x和y有较大的幅度。然后,在此基础上再进行深入抽样。双重抽其具体步骤双重抽样的优点:1.对于复杂性状的调查研究可以通过仅测定少量抽样单位而获得相应于大量抽样单位的精确度;2.当复杂性状必须通过破坏性测定才能调查时,则仅有这种双重抽样方法可用。2)顺序抽样(ordinalsampling)顺序抽样又称为系统抽样、机械抽样、等距抽样它是按某种既定顺序从总体(有限总体)中抽取一定数量的个体构成样本。这种抽样方法可避免人们主观偏见的影响,且使用简便如果总体内存在周期性变异,则可能会得到一个偏差很大的样本,这种现象在统计上称为系统误差。由顺序抽样得到的样本不能计算抽样误差,估计总体值。首先,先将总体从1~N相继编号,计算抽样距离K=N/n。式中N为总体单位总数,n为样本容量;然后,然后在1~K中抽一随机数k1,作为样本的第一个单位,接着取k1+K,k1+2K……,直至抽够n个单位为止。顺序抽其的基本做法是:将总体中的各单元先按一定的顺序排列、编号,然后决定一个间隔,并在此间隔基础上选择被调查的单位个体例如:欲求100匹马的体重,你抽取20匹马作为样本来称重。1,K=100/20=5;2,15中随机选择3,接着抽取8(3+5),13(8+5),…,98为止。3)典型抽样(typicalsampling)根据初步资料或经验判断,有意识、有目的的选取一个典型群体作为代表(样本)进行调查,以估计整个总体,这种抽样方法就称为典型抽样。典型样本代表着总体的绝大多数,如果选择合适,可得到可靠的结果,尤其从容量很大的总体中选取较小数量的抽样单位时,往往采用这种抽样方法。这种抽样多用于大规模社会经济调查,而在总体相对较小或要求估算抽样误差时,一般不采用这种方法。试验是通过处理获得样本资料的方法。采用合理的试验设计能够以较少的投入获得较大的收获,起到“事半功倍”的效果。常见的试验设计方法有:对比设计、随机区组设计、平衡不完全区组设计、裂区设计、拉丁方设计、正交设计、正交旋转设计等等。试验设计须遵循的三大原则是:随机、重复和局部控制。二、试验(experiment)第一节:试验资料的搜集与整理一、试验资料的类型二、试验资料的搜集三、试验资料的整理三、资料的整理(一)原始资料(rawdata)的检查与核对调查试验原始数据核对:数据本身是否有错误检查:取样