试验设计与分析(园艺)第二章理论分布与抽样分布

chrisduowan
1 ℃
2020-01-17

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第二章理论分布与抽样分布第一节试验数据资料的整理与描述第二节二项分布第三节正态分布第四节抽样分布第一节试验数据资料的整理与描述一、相关统计学术语二、试验数据资料的性质三、次数分布表与分布图四、数量资料的特征数一、相关统计学术语1数据与变量数据：组成样本的每种性状的观察值的集合，也称资料变量：构成数据的每一个观察值2参数与统计数参数：由总体的全部变量计算所得到的总体某一特征数，用希腊字母表示，如μ表示总体平均数，σ表示总体标准差统计数：由样本的全部变量计算所得到的样本某一特征数，用拉丁字母表示，如表示样本平均数，s表示样本标准差x二、试验数据资料的性质1数量性状资料（quantitativetrait）指可以通过一定的度量方式而用数字描述的性状，其度量有计数和量测两种方式，其所得的变量不同（1）不连续性或间断性变量：指用计数方法获得的资料，如出苗数、叶片数等，其各个观察值必须以整数表示，不允许有带小数点的数值存在。（2）连续性变量：指用称量、度量或测量方法得到的数据，如千粒重等，其各个观察值并不限于整数，小数位数的多少，因称量的精度而异二、试验数据资料的性质2质量性状资料（qualitativetrait）指只能观察叙述而不能测量的性状，即属性性状如果实的色泽、叶色、叶片上毛茸的有无等要获得这些性状的数量资料，可采用下列3种方法三、次数分布表与分布图1不连续性数量性状变量资料的整理采用单项式分组法进行整理特点：用样本变量自然值进行分组，每组均用一个或几个观察值来表示。分组时，可将数据资料中每个观察值分别归入相应的组内，然后制成次数分布表。（1）如果观察值个数较少，或变异幅度较小，就以每一个变量为一组进行整理。（2）如果观察值个数较多，或变异幅度较大，就以相邻的几个变量为一组进行整理。三、次数分布表与分布图第11页，例1-2-1，100个麦穗的每穗小穗数18151719161520181917171817161820191716181716171918181717171818151618181817201918171915171717161718181719191719171816181717191616171717151716181918181919201716191817182019161819171615161817181717161917三、次数分布表与分布图每穗小穗数(y)次数(f)频次（f/y）1560.0616150.1517320.3218250.2519170.172050.05合计1001100个麦穗每穗小穗数的次数分布表（图）00.050.10.150.20.250.30.35151617181920频率小穗数三、次数分布表与分布图2连续性数量性状变量资料的整理类似于不连续性变量资料的第2种情况（第12页例1-2-2）1.831.771.811.811.801.791.821.821.811.811.871.781.801.811.871.811.771.781.771.781.771.771.711.951.781.811.791.801.771.761.821.801.821.791.901.821.791.821.791.861.761.781.831.751.781.731.831.811.811.831.891.811.861.821.821.841.841.841.811.811.741.781.781.801.741.781.791.851.751.711.711.881.821.761.851.731.781.791.771.781.871.871.831.651.641.781.751.821.801.771.811.831.831.901.801.851.811.771.781.841.851.841.851.851.841.821.851.841.781.78120个黄瓜叶片中叶绿素a含量的测定值三、次数分布表与分布图2连续性数量性状变量资料的整理（1）求极差极差：所有数据中最大观察值与最小观察值的差值，也称全距。表示整个样本的变异幅度。用R表示。R=（1.95-1.64）mg/g鲜重=0.31mg/g鲜重（2）确定组数组数要根据样本的容量、全距、便于计算、能反映资料的真实面貌等因素来确定。样本容量分组数30-605-860-1007-10100-2009-15200-50012-18500以上15-30三、次数分布表与分布图2连续性数量性状变量资料的整理（3）计算组距组距：每组内的上下限范围。分组时要求各组的距离相同，即各组是等组距的。组距=极差/组数=0.31/15mg/g鲜重≈0.02mg/g鲜重三、次数分布表与分布图2连续性数量性状变量资料的整理（4）确定组限与组中值组限：每组观察值的界限。包括上限和下限。①组限要明确，最好比原始资料的数字多一位小数，这样可使观察值归组时不至于含糊不清。②为了把资料中最小和最大的观察值包括在内，最小一组的下限必须小于最小观察值，最大一组的上限必须大于最大观察值。组中值：每组下限和上限的中间值。为了避免第一组中观察值数过多，一般第一组的组中值最好接近或等于资料中的最小值。组中值=（下限+上限）/2=下限+1/2组距=上限-1/2组距三、次数分布表与分布图2连续性变量资料的整理频率叶绿素a含量（mg/g鲜重）三、次数分布表与分布图属性分组次数频率有色非糯4910.6608有色糯性760.1023无色非糯900.1211无色糯性860.1158合计74313质量性状变量资料的整理整理前，把资料按各种质量性状进行分类，分类数等于组数，根据各个观察值在质量属性上的具体表现，归入相应的组内，即可得到属性分布的规律性认识。第14页例1-2-3，水稻杂种F2代植株米粒性状的分离情况00.10.20.30.40.50.60.7有色非糯有色糯性无色非糯无色糯性四、数量资料的特征数120个黄瓜叶片中叶绿素a含量的次数分布图集中性离散性变异数平均数（一）平均数1.平均数的意义数据资料的代表值，表示全部观察值的中心位置，代表该组数据与其他数据进行比较2.平均数的种类nxnxnxxxxxniin1321算术平均数：nnnnxxxxxxxxG1321321几何平均数：中位数：大小居中的观察值（Md）众数：次数最多的观察值（M0）（一）平均数3.算术平均数的性质离均差之和为零，即各观察值与其平均数之差的总和等于零)(xx0xxnxnxxx0)(xxxnx（一）平均数3.算术平均数的性质离均差平方和最小，即各观察值与其平均数的差数的平方的总和，小于各观察值与任何一个数值的差数的平方的总和22)()(axxxxa)0(2)(ax2)(xx])(2)[(22xxxx2])[(xx22)(2)(nxxxx0222)()(xxax0)(xx22)(2)(xxxx（二）变异数1.引入变异数的意义平均数作为数据资料的代表，其代表性的强弱由各观察值变异程度的大小决定A组10；8；10；11；11B组2；18；8；15；710x10x使用平均数描述数据资料是不够的，还需要引进一个表示变异程度的统计数，即变异数常用的有极差、方差、标准差和变异系数（二）变异数2.极差定义：又称全距（R），最大和最小观察值的差值缺点：由观察值中两个极端值决定，不能反映全部观察值的信息，而且容易受资料中不正常极端值的影响优点：快速简单A组10；8；10；11；11R=3B组2；18；15；8；7R=16C组2；18；10；10；10R=1610x10x10x（二）变异数3.方差离均差：可以反映全部观察值的变异情况，但0)(xx2)(xxSSA组8；8；12；12B组8；1210x10x8SS16SS平方和：各个离均差的平方的总和（二）变异数3.方差方差：用观察值数目来除平方和1)(22nxxsNx22)(为什么用n-1，而不用n？总体方差：样本方差：（二）变异数22)()(xxx估计xn-1称为自由度（df）x多数情况下：这样，用样本SS代替总体SS就会使σ2值偏小，为了校正，分母使用较小的n-1而不是n当n＜30时，分母必须使用n-1，当n≥30时，n和n-1差异不大，分母可使用n估计1)(22nxxsNx22)(（二）变异数4.标准差方差的缺点度量单位也平方平方使数值的量增大，与实际变异度有差距1)(2nxxs标准差：方差的平方根标准差的优点：保留方差的优点；度量单位上与平均数一致；在数量水平上也比较客观sx数量资料的表示方法：（二）变异数5.变异系数标准差的缺点:比较两个样本的变异程度时，两个样本的单位、平均数和性质必须相同%100xsCV如果不同，需要引入表示相对变异程度的变异数，即变异系数（CV）变异系数在田间试验中有重要用途，如在空白试验时，可作为土壤差异的指标。但变异系数同时受标准差和平均数的影响，因此，在使用变异系数时，要同时列举平均数和标准差，否则可能会引起误解。（二）变异数5.变异系数例：小麦A品种的株高为95±9.02(cm)，B品种为75±8.50(cm)，问哪个品种株高整齐度好？%5.9%1009502.9ACV%3.11%1007550.8BCV直接用标准差比较：9.02＞8.50(cm)，B品种较整齐但二者平均数不相同，需用变异系数比较：9.5＜11.3（%），A品种较整齐（三）自由度的含义自由度样本内独立而能自由变动的离均差个数如一个样本为（3，4，5，6，7），平均数为5，前面`4个数的离均差分别为－2，－1，0，1，那么第5个数的离均差必须为2，才能满足各观察值的离均差之和为零这个特性。一般来说，样本自由度等于观察值的个数（n）减受条件约束的个数（k），即df=n－k在应用上，小样本一定要用自由度来估计标准差，大样本的n和n－1相差不大，也可不用自由度，而直接用n作除数。但大样本与小样本之间没有明确的界限和统一的规定，所以一般样本在估计标准差时，都用自由度。（四）标准差的计算1、直接计算在直接计算标准差时，先求出，再求，最后再计算s。这样比较麻烦，而且当由四舍五入而来时，容易引起计算误差。所以将作如下变形：2、利用矫正数xx2xxx2)(xx=22(2)xxxx=222xxxnx=222[]xxxxnnn=222()()2xxxnn=22()xxns=22()1xxnn矫正数，C120个黄瓜叶片中叶绿素a含量的平均数与标准差80.112037.198nxx25.0112012037.1989731.3571222nnxxsmg/g鲜重mg/g鲜重（四）标准差的计算3、减去常数法如果观察值较大或较小，可将各观察值都减去（或加上）一个常数，所得的s值不变。2()xA=22(2)xAxA=222xAxnA2[()]xA=2[]xA=2[]xnA=222()2xnAxnA2()xA-2[()]xAn=222xAxnA-222()2xnAxnAn=222xAxnA-22()2xAxnAn=22()xxn第二节二项式分布一、二项总体二、二项式分布三、二项式分布的概率计算方法四、二项式分布的形状五、二项式分布的参数六、多项式分布七、泊松分布一、二项总体二项总体：由非此即彼的两项（对立事件）构成的总体黄瓜种子发芽和不发芽桃果实的有毛和无毛豌豆的黄色与绿色、圆粒与皱粒等“此”事件以变量“1”表示，具

试验设计与分析(园艺)第二章 理论分布与抽样分布

试验设计与分析(园艺)第二章理论分布与抽样分布