1试验资料的整理特征数的计算与第二章2本章重点第一节试验资料的搜集与整理第二节试验资料特征数的计算★掌握对不同类型资料的整理方法★强调对平均数、变异数和变异系数基本概念的掌握★大样本连续型变数资料的分组方法★次数分布表、图的制作★平均数、样本标准差、样本变异系数的意义、计算方法和使用对象3第一节:试验资料的搜集与整理一、试验资料的类型二、试验资料的搜集三、试验资料的整理对试验资料进行分类整理是统计归纳的基础。4试验资料类型数量性状资料质量性状资料计数资料/非连续变量资料计量资料/连续变量资料5数量性状是指能够以计数和测量或度量的方式表示其特征的性状。数量性状资料的获得方式:计数、测量数量性状资料:计数资料和计量资料一)数量性状资料61、计数资料用计数方式获得的数量性状资料。两个相邻整数间无小数,各观察值不连续也称为非连续变量资料,离散变量资料。72、计量资料用测量或度量法获得的,其数据是用长度、重量、容积温度、浓度等来表示,要带单位。相邻整数间可以有小数出现,之间的变异是连续性的,也称为连续变量资料。8二)质量性状资料质量性状:观察而不能直接测量的。也称为属性性状资料。这类性状本身不能直接用数值表示,以下两种方法对其观察结果作数量化处理91、统计次数法在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。例如,在研究豌豆的花色遗传时,红花与白花杂交,F2中红花、紫花和白花的株数分类统计如下表。性状株数频率红花26626.6%紫花49449.4%白花24024.0%总计1000100.0%这种由质量性状数量化得来的资料又叫次数资料。表2-1豌豆的花色遗传分离情况102、评分法对某一质量性状分成不同级别,对不同级别进行评分来表示其性状差异的方法。从而将质量性状进行数量化,以便统计分析。例:药物治疗胃溃疡的动物实验实验方法量化指标结果统计11其它:半定量或等级资料是指将观察单位按所考察的性状或指标的等级顺序分组,然后清点各组观察单位的次数而得的资料。这类资料既有次数资料的特点,又有程度或量的不同。12如粪便潜血试验的阳性反应是在涂有粪便的棉签上加试剂后观察颜色出现的快慢及深浅程度分为六个等级;又如用某种药物治疗实验动物的某种疾病,疗效分为“无效”、“好转”、“显效”和“控制”四个级别;然后统计各级别的动物数。13不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将一种类型资料转化成另一种类型的资料。14调查试验资料搜集的方法二、试验资料的搜集15一)、调查调查是对已经存在事情的资料按某种方案进行收集。调查又可以分为两种:普查和抽样调查。1、普查是对研究对象的全部个体逐一进行调查的方法。普查一般要求在一定的时间或范围进行,要求准确和全面。162、抽样调查是根据一定原则从研究对象中抽取一部分具有代表性的个体进行调查的方法。随机抽样必须满足2个条件:一是总体中每个个体被抽中的机会均等;二是总体中任意个体相互独立,是否被抽中不受其他个体的影响。17二)、试验试验是对事物加以处理的方法。试验设计须遵循的三大原则是:随机、重复和对照。18(一)原始资料的检查与核对调查试验原始数据核对检查订正检查和核对原始资料的目的:确保原始资料的完整性和正确性。三、试验资料的整理19完整性是指原始资料无遗缺或重复。正确性是指原始资料的测量和记载无差错或未进行不合理的归并。检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。重复、异常或遗漏的资料----删除或补齐;错误、相互矛盾的资料----更正,复查或重新试验。201.计数资料的整理计数资料基本上采用分组法进行整理。特点:用样本变量自然值进行分组,每组用一个或几个变量值来表示。试验资料的整理(三)资料的整理当观测值n≤30时,不必分组,直接进行统计分析。当观测值n30时,宜将观测值分成若干组,以便统计分析。将观测值分组后,制成次数分布表,即可看到资料的集中和变异情况。151712141314121114131614141317151414161414151514141411131214131413151413151413141516161413141513151315151514141614151713161416151314141414161213121412151615161413151714131412171415表2-2100只来亨鸡每月的产蛋数11~17来亨鸡每月产蛋数变动范围:分为7组统计各组次数计算频率和累积频率制表每月产蛋数次数频率累积频率FrequencyPercentCumulativePercent1120.020.021270.070.0913190.190.2814350.350.6315210.210.8416110.110.951750.051.00表2-3100只来亨鸡每月产蛋数次数分布表每月产蛋数次数频率累积频率FrequencyPercentCumulativePercent1120.020.021270.070.0913190.190.2814350.350.6315210.210.8416110.110.951750.051.00表2-4100只来亨鸡每月产蛋数次数分布表1自然值进行分组,最大值17,最小值11。2数据主要集中在14,向两侧分布逐渐减少。24051015202530354011121314151617图2.1月产蛋数次数分布柱形图00.050.10.150.20.250.30.350.411121314151617图2.2月产蛋数频率分布柱形图条形图(barchart),又称柱形图计数资料特点:柱形之间要间隔一定的距离产蛋数次数产蛋数频率252饼图(piechart)11121314151617图2.6来亨鸡月产蛋次数分布图计数资料质量性状资料试验资料的整理262.计量资料的整理计量资料一般采用组距式分组法。全距组数组距组限归组制表试验资料的整理表2-5150尾鲢鱼体长(cm)564962784147654558555965696273525260516278664558586057525148564658707276775666585855535065635765855958546248634661625738585254556652485675725737467656637565485255546271486258465738545365428366485358464666587655605458495256826365547565864677706940565861545352435264585854785256615954596468515968635263281、求全距全距是资料中最大值与最小值之差,又称为极差(range),用R表示,即R=Max(x)-Min(x)本例R=Xmax-Xmin=85-37=48(cm)试验资料的整理29(2)确定组数组数是根据样本观测数的多少及组距的大小来确定的,同时考虑到对资料要求的精确度以及进一步计算是否方便。组数组距多小统计数精确,计算不方便少大统计数不精确,计算方便试验资料的整理30组数的确定样本容量分组数30~605~860~1007~10100~2009~12200~50010~1850015~30表2-9样本容量与分组数的关系试验资料的整理31(3)确定组距每组最大值与最小值之差称为组距,记为i。分组时要求各组的组距相等。组距的计算公式为:组距(i)=全距/组数=48/10=4.85cm32(4)确定组限和组中值组限是指每个组变量值的起止界限。上限下限组中值是两个组限的中间值。组中值=下限+上限2=组距2下限+=组距2上限-试验资料的整理33最小值为37.0,第一组的组中值取37.5,因组距已确定为5.0,所以第一组的下限为:37.5-(1/2)×5.0=35.0;第一组的上限也就是第二组的下限为:35.0+5.0=40.0;第二组的上限也就是第三组的下限为:40.0+5.0=45.0,……,以此类推,一直到某一组的上限大于资料中的最大值为止。34最小一组的下限必须小于资料中的最小值,最大一组的上限必须大于资料中的最大值;组限可取到10分位或5分位上;通常将上限略去不写。临界值就高不就低。35~,40~,45~,…,85~。35(5)分组确定好组数和各组上下限后,可按原始资料中各观测值的次序,将各个数值归于各组,计算各组的观测数次数、频率、累积频率,制成一个次数分布表。计数的方法卡片法唱票法画“正”字画“”组限组中值次数频率累积频率FrequencyPercentCumulativePercent35~37.530.02000.020040~42.540.02670.046745~47.5170.11330.160050~52.5280.18670.346755~57.5400.26660.613360~62.5250.16670.780065~67.5170.11330.897370~72.560.04000.933375~77.570.04670.980080~82.520.01330.993385~87.510.00671.0000表2-6150尾鲢鱼体长的次数分布表图2.3鲢鱼体长次数分布图直方图(histogram),又称矩形图计量资料354045505560657075808590特点:各组之间没有距离38图2.4鲢鱼体长次数分布图354045505560657075808590试验资料的整理39多边形图(polygon),又称折线图(broken-linechart)05101520253035404537.542.547.552.557.562.567.572.577.582.587.5计量资料图2.5鲢鱼体长次数分布图40样本大小(即样本内包含观察值的个数的多少)极差的大小便于计算能反映出资料的真实面貌在确定组数和组距时应考虑41注意不要重复或遗漏,归组划线后将各组的次数相加,结果应与样本含量相等,如不等,证明归组划线有误,应予纠正。同一组资料,不同的人编制的频数表,结果不尽相同,允许合理的结果并存。42频数分布表和频数分布图的用途描述分布类型描述分布的特征便于发现特大、特小的可疑值便于计算有关指标、统计分析与处理表2-750株水稻产量(单位:克)186111175131187149181119157163205123163152154140142191189131216149100175173145194102156163145175176192168209175125214161131119149205159123126197215177练习题44对于质量性状资料、半定量(等级)资料,可按性状或等级进行分组,分别统计各组的次数,然后制成次数分布表。3.质量资料的整理45例:药物治疗皮肤病实验实验方法实验结果量化指标结果统计46量化指标有效,破损区未恢复面积2×2,无红肿显效,破损区未恢复面积小于2×2,无红肿痊愈,破损区已恢复,新毛长出,无红肿无效,破损区未恢复面积大于2×2,红肿,或有脓47指标只数频率累积频率无效120.120.12有效270.270.39显效390.390.78痊愈220.221.00表2-8××对皮肤病的治疗作用48(四)统计表和统计图491.统计表要求:结构简单,层次分明,安排合理,重点突出,数据准确。总横标目(或空白)纵标目1纵标目2……横标目1横标目2数字资料……表号标题1)、标题简明扼要、准确地说明表的内容。2)、标目标目分横标目和纵标目两项。标目需注明计算单位,如%、kg、cm等等。3)、数字阿拉伯数字,以小数点对齐,小数位数一致。4)、线条多用三线表,上下两条边线略粗。试验资料的整理50统计表的种类统计表可根据纵、横标目是否有分组分为简单表和复合表两类。简单表由一组横标目和一组纵标目组成,纵横标目都未分组。此类表适于简单资料的统计