1看清数据的神器2生物统计学第二章试验资料的整理与特征数的计算ZL第一节试验资料的搜集与整理第二节试验资料特征数的计算3第一节试验资料的搜集与整理一、试验资料的类型数量性状指能够用计数、测量或度量所获得的数值来表示其特征的性状。质量性状指能观察到而不能直接测量的性状。也称属性资料。数量性状资料计数资料:也称非连续变量资料、间断变量资料、离散变量资料。计量资料:连续变量资料质量性状资料次数资料:统计次数法获得,如研究花色遗传。评分资料:评分法获得,如质量等级。4150尾鲢鱼体长(cm)15171214131412111413161414131715141416141415151414141113121413141315141315141314151616141314151315131515151414161415171316141615131414141416121312141215161516141315171413141217141513151714131412171415100只来亨鸡每月的产蛋数5649627841476545585552526051627866455858564658707276775666586357658559585462486358525455665248567555637565485255546261625453654283664853585760545849525682636148706940565861545352435852566159545964685155475658646772585452465738396462636765525960584653573762525965625751504846586468697352486572765658635二、试验资料的搜集试验调查详见:第八、九章三、试验资料的整理作分布图次数分布表检查校对原始数据目的:确保原始资料的完整性和正确性。过程:检查——核对——订正重点:缺失、重复、错误、异常6次数分布表总体要求:结构简单,层次分明,安排合理,重点突出,数据准确。总横标目(或空白)纵标目1纵标目2……横标目1横标目2数字资料……表1标题过程方法:变动范围确定组数各组范围归组制表注意:不同类型数据资料不尽相同。7次数分布表计数资料整理单项式分组法,其特点是用样本变量自然值进行分组,每组用一个或几个变量值来表示。100只来亨鸡每月的产蛋数1517121413141211141316141413171514141614141515141414111312141314131514131514131415161614131415131513151515141416141517131614161513141414141612131214121516151614131517141314121714151315171413141217141511~177组11、12、…17归组制表8每月产蛋数次数频率累积频率1120.020.021270.070.0913190.190.2814350.350.6315210.210.8416110.110.951750.051.00表2-1100只来亨鸡每月产蛋数次数分布表归组制表整理结果:1.来亨鸡每月产蛋数最大值17,最小值11。2.其每月产蛋数主要集中在14,向两侧分布逐渐减少。计数资料整理918~6245组表2-2小麦品种300个麦穗穗粒数的次数分布表每穗粒数次数频率累积频率18-2230.01000.010023-27180.06000.070028-32380.12670.196733-37510.17000.366738-42680.22670.593443-47530.17660.770048-52410.13670.906753-57220.07330.980058-6260.02001.0000计数资料整理300个麦穗穗粒数9组5个值一组归组制表10次数分布表计量资料整理一般采用组距式分组法。其特点在于通过计算组距来确定各组范围(组限)。150尾鲢鱼体长(cm)56496278414765455855596569627352526051627866455858605752514856465870727677566658585553506563576585595854624863466162573858525455665248567572573746765663756548525554627148625846573854536542836648535846462636765560545849525682636554756586467770694056586154535243526458585478525661595459646851596863526337~85?组主要与样本容量有关,可查表或计算得来。11?组计量资料整理150尾鲢鱼体长(cm)样本容量分组数30~605~860~1007~10100~2009~12200~50010~1850015~30表2-3样本容量与分组数的关系L=1+3.322lgnn=150L=8.23同时考虑资料要求精确度以及进一步计算方便。10组12计量资料整理37~8510组各组范围组距150尾鲢鱼体长(cm)组距=全距÷组数=(85–37)÷10=4.8≈5组限(下限,上限)最小组下限必须小于资料中的最小值;最大组上限必须大于资料中的最大值;组限最好取到10分位或5分位上;最小组组中值最好接近资料中最小值。35~,40~,…,85~归组制表13组限组中值次数频率累积频率35~37.530.02000.020040~42.540.02670.046745~47.5170.11330.160050~52.5280.18670.346755~57.5400.26660.613360~62.5250.16670.780065~67.5170.11330.897370~72.560.04000.933375~77.570.04670.980080~82.520.01330.993385~87.510.00671.0000表2-6150尾鲢鱼体长的次数分布表整理结果:(1)其体长变化范围:37~85cm;(2)从表中可看出,55~60cm体长组尾数最多,占26.66%(或50~65cm尾数最多,共占62.00%);向两侧分布呈减少趋势。归组制表计量资料整理临界值就高不就低14内容:把次数(频率)分布资料画成统计图形特点:直观、形象类型:条形图、直方图、多边形图、饼图和散点图作分布图绘图要求(1)标题简明扼要,列于图的下方;(2)纵、横两轴应有刻度,注明单位;(3)图形比例美观,可选长宽比例约5:4或6:5;(4)图中代表不同事物时,应有图例说明。15图2-1月产蛋数次数分布柱形图作分布图条形图,又称柱形图月产蛋数(个)次数适合资料:计数资料、属性资料特点:柱形之间要间隔一定的距离16作分布图直方图,又称矩形图图2-2鲢鱼体长次数分布直方图体长(cm)次数适合资料:计量资料特点:矩形之间要没有距离17作分布图多边形图,又称折线图图2-3鲢鱼体长次数分布折线图体长(cm)次数适合资料:计量资料横坐标:组中值18图2-5鲢鱼体长次数分布散点图体长(cm)次数作分布图散点图适合资料:计数资料、计量资料19图2-4月产蛋数次数频率分布饼图作分布图饼图适合资料:计数资料、属性资料20第二节试验资料特征数的计算集中性:变量在有着向某一中心聚集的性质。离散性:变量有着离中心分散变异的性质。平均数算术平局数中位数众数几何平均数……变异数极差方差标准差变异系数……21一、平均数算术平均数定义:总体或样本资料中所有观测数的总和除以观测数的个数所得的商,简称平均数、均数或均值。计算直接计算法:减去(加上)常数法加权计算法:nxxi/nxfxii/主用于n≤30以下、未经分组资料对于n30以上且已分组的资料22特性离均差总和等于0,即Σ(x-x)=0离均差平方和最小,即Σ(x-x)2Σ(x-a)2算术平均数作用指出变量资料的中心位置,标志着资料所代表性状的数量水平和质量水平。作为样本或资料的代表数与其他资料进行比较。通过平均数提供计算样本变异数的基本数据。用样本的平均数估计总体平均数。23定义:资料中所有观测数依大小顺序排列,居于中间位置的观测数称为中位数或中数。一、平均数中位数Md计算n为奇数:Md=n为奇数:Md=2/)1(nx2)12/(2/nnxx24注意:(1)对于某些数据而言,如均匀分布,并不存在众数;(2)对于某些数据存在两个或两个以上的众数;(3)主要用来描述频率分布。一、平均数众数Mo定义:资料中出现次数最多的那个观测值或次数最多一组的组中值或中点值。25定义:资料中有n个观测数,其乘积开n次方所得数值。适用范围:几何均数适用于变量X为对数正态分布,经对数转换后呈正态分布的资料。G=一、平均数几何平均数Gnnxxxx...321计算:26定义:又称全距,是数据分布的两端变异的最大范围,即样本变量值最大值和最小值之差。计算:R=max{x1,x2,……,xn}-min{x1,x2,……,xn}26二、变异数极差R优缺点:简单明了;但有很大局限性——仅仅反映最大、最小值,且其大小往往与样本容量有关(正相关),故n相差大时不宜用。适用范围:资料很多且要求迅速判断其变异程度。27二、变异数122nxxsNx22自由度df方差MS28二、变异数122nnxxs定义:方差的平方根。实际计算(样本):标准差Sd作用:(1)表示变量分布的离散程度。(2)估计平均数的标准误。(3)进行平均数的区间估计和变异系数计算。29二、变异数标准差Sd标准误定义:全称平均数标准误差,Sd/。与标准差区别标准差:表示一般观测值的离散程度标准误:表示样本均数观测值的离散程度n特点标准误越小,表示样本均数的可靠性越大,即用以代表均数的代表性越强。30定义:样本的标准差除以样本平均数,所得到的百分比。CV=s/x×100%特点是样本变量的相对变异量,不带单位。可以比较不同样本(指标)相对变异程度的大小。二、变异数变异系数CV计算:31本章作业题1.如何进行资料的整理?2.调查问卷中选择题答案如何整理?3.反映数据集中性和离散性的统计数常用的有哪些,如何进行计算?4.查阅资料,看除课上讲述的外,还有哪些平均数和变异数?