试验设计与分析的数理统计基础

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

使用教材试验设计与分析DesignandAnalysisofExperiments袁志发教授主编2007年8月第二版第一章试验设计与分析的数理统计基础试验设计与分析:简称试验统计,是数理统计的一个分支,是进行科学研究不可缺少的工具.包括两部分内容:一是对试验或调查进行周密而审慎的设计,然后经过试验或调查得到统计数据;二是对数据进行统计学分析,对试验或调查的结果给以合宜的结论.统计分析的一般过程总体随机变量-参数:N,,2,随机样本获取数据资料,x1,x2,数据整理,,,2sxn分析数据参数估计,假设检验对总体作出推断计算基本统计量:;作表,作图§1试验设计原理1-1试验误差系统误差:观察值与真值之间发生了有一定方向的偏离,这种偏离叫做系统误差。随机误差如果观察值与真值之间仅发生了一些无方向的微小的偏离,即这种偏离具有随机性,这种偏离称为随机误差。错失误差试验中由于试验人员粗心大意所发生的差错称为错失误差。准确度(accuracy):是指同一处理的观察值(observation)与其真值接近的程度,越是接近,则试验越准确.精确度(precision):是指同一处理的重复观察值间彼此接近的程度.由于处理的真值往往不知道,因而准确度不易确定;而精确度在统计上是可以计算的.当试验没有系统误差时,精确度与准确度是一致的.•图1-1-1系统误差与随机误差的大小a()大的系统误差b()小的系统误差c()大的随机误差d()小的随机误差生物及农业试验中误差的主要来源:(1)供试材料固有的差异(2)环境条件的差异(3)管理不一致所引起的差异(4)观察测定的不一致性造成的差异实践中应注意:•选择同质一致的试验材料;•改进操作、管理及记载技术,使之标准化;•控制引起差异的外界主要因素;•应用良好的试验设计和相应的统计分析可起到消灭系统误差、降低随机误差的作用.1-2试验方案试验:是人为控制条件下有目的地进行的一种实践活动。试验指标:在任何试验中,都必须选定一个或几个判据,作为判明所研究对象优劣之用,这些判据称为试验指标.试验因素:在试验中所研究的影响试验指标的某一项目称为因素或因子。因素水平:试验因素所处的某种特定状态或数量等级称为因素水平,简称水平.试验处理:事先设计好的实施在试验单元上的具体项目,即试验中具体比较的项目称为试验处理,简称处理.试验方案:试验方案是指根据试验目的与要求所拟定的进行比较的一组试验处理的总称.完全试验方案不完全试验方案多因素试验方案试验方案单因素试验方案•按供试因素的多少可区分为单因素试验方案和多因素试验方案.•在单因素试验中,一个水平就是一个处理,因此单因素试验方案由该试验因素的所有水平构成.这是最基本、最简单的试验方案.•多因素试验方案由该试验的所有试验因素的水平组合(即处理)构成.多因素试验方案分为完全方案和不完全方案两类.•在完全方案中,列出试验方案时,要求每一个因素的每个水平都要碰见一次.这时,水平组合(即处理)数等于各个因素水平数的乘积.•根据完全试验方案进行的试验称为全面试验.•多因素全面试验的效率高于多个单因素试验的效率.•全面试验的主要不足是,当因素个数和水平数较多时,水平组合(处理)数太多,以至于在试验时,人力、物力、财力等都难以承受,试验误差也不易控制.因而全面试验宜在因素个数和水平数都较少时应用.不完全方案也是一种多因素试验方案.但它是将试验因素的某些水平组合在一起形成少数几个水平组合.这种在全部水平组合中挑选部分水平组合获得的方案称为不完全方案.根据不完全方案进行的试验称为部分实施试验.拟定试验方案的注意点•根据试验提出的问题的多少决定用简单的或复杂的方案•因素水平应力求简明,水平间的差异须适当•试验方案中应包括作为比较标准的对照•试验处理(包括对照)之间应遵循唯一差异原则1-3试验单元与试验空间试验单元:在试验中能够施以不同处理的最小的材料单元。或提供处理的一个具有独立随机误差的观察值的单元。试验空间:所有试验单元构成了试验空间.试验单元的形式是根据科学试验的要求而确定的.它可以是一只培养瓶中的果蝇、一盆植物、一头家畜或一个笼中的若干只鸡等,随研究目的而定.尽管如此,必须要求在试验中各试验单元是条件相同的,如果不相同就要在试验设计中予以重视.设置重复随机化局部控制(区组化)1-4Fisher试验设计的三个基本原理•试验中同一处理的试验单元数,即为重复数•试验单元的分配和各个试验进行的次序都是随机确定的,这个原理称为随机化.•当试验空间的非试验因素不均匀,即有系统误差时,单元分配必须运用局部控制原理.设置重复随机化排列局部控制消除系统误差,无偏的试验误差估计估计和降低随机误差与随机化相组合,分离系统误差,降低随机误差提高准确度和精确度,保证统计推断的可靠性1-5试验模型试验的一般模型:试验的数学模型:试验单元输入(处理)输出(试验指标)随机干扰),(ijiijufxijxiu§2随机数据的属性及其简单处理•总体(population):根据研究目的确定的研究对象的全体称为总体;•样本(sample):总体的一部分称为样本•总体中的一个研究单位称为个体(individual);2-1随机数据具有变异性2-2随机数据的频率分布2-2-1随机数据的频率分布试验指标一般可分为数量性和质量性的两种,数量性的又分为计数性的和量测性的两种.数量性状(quantitativecharacter)是指能够以量测或计数的方式表示其特征的性状。观察测定数量性状而获得的数据就是数量性状资料(dataofquantitativecharacteristics)。如体高、产奶量、体重、绵羊剪毛量等。数量性状资料的记载有量测和计数两种方式,因而数量性状资料又分为计量资料和计数资料两种。质量性状(qualitativecharacter)是指能观察到而不能直接测量的性状,如颜色、性别、生死等。这类资料通过计数获得数据。(1)间断性数据的频率分布【例1-2-1】从某小麦品种大田中,随机抽取了100个麦穗,计数每穗小穗数,未加整理的资料如表1-2-1所示.表1-2-1100个麦穗的每穗小穗数18151719161520181917171817161820191716181716171918181717171818151618181817201918171915171717161718181719191719171816181717191616171717161716181918181919201516191817182019171817171615161817181617191917表1-2-2100个麦穗每穗小穗数的频率分布表每穗小穗数划计次数if频率nfi15正60.0616正正正150.1517正正正正正正正丅320.3218正正正正正250.2519正正正丅170.1720正50.05合计1001小穗数频率(2)连续性数据的频率分布【例1-2-2】表1-2-3所示为黄瓜群体品种叶片中叶绿素a含量的120个测定值(㎎/g鲜重).叶绿素含量为量测性的连续数据,它可以取某一区间内的任一数值,用分组整理法整理出它们的分布情况较上面的例子麻烦一些,但步骤一样.表1-2-3120个黄瓜叶片中叶绿素a含量的测定值(㎎/g鲜重)1.861.831.771.811.811.801.791.821.821.811.811.871.821.781.801.811.871.811.771.781.771.781.771.771.771.711.951.781.811.791.801.771.761.821.801.821.841.791.901.821.791.821.791.861.761.781.831.751.821.781.731.831.811.811.831.891.811.861.821.821.781.841.841.841.811.811.741.781.781.801.741.781.751.791.851.751.711.711.881.821.761.851.731.781.811.791.771.781.871.871.831.651.641.781.751.821.801.801.771.811.831.831.901.801.851.811.771.781.821.841.851.841.851.851.841.821.851.841.781.78表1-2-4120个黄瓜叶片中叶绿素a含量(㎎/g鲜重)的频率分布表组限iixx,1划计次数if频率nfpiiˆ累加频率iFˆ1.635-1.655丅20.01670.01671.655-1.67500.00000.01671.675-1.69500.00000.01671.695-1.715丅20.01670.03341.715-1.735丅20.01670.05011.735-1.755正80.6670.11681.755-1.775正正130.10830.22511.775-1.795正正正正230.19170.41681.795-1.815正正正正240.20000.61681.815-1.835正正正正210.15700.79181.835-1.855正正140.11670.90851.855-1.875正60.05000.95851.875-1.895丅20.01670.97521.895-1.915丅20.01670.99191.915-1.93500.00000.99191.935-1.95510.00831.0002总计1201.0002叶绿素含量频率00.050.10.150.20.251.61.651.71.751.81.851.91.952图1-2-3120个黄瓜叶片中叶绿素a含量(㎎/g鲜重)的频率分布多边形图叶绿素含量频率图1-2-2120个黄瓜叶片中叶绿素a含量(㎎/g鲜重)的频率分布柱形图(3)质量性状数据的频率分布表2-1白猪和黑猪子二代的毛色分离情况毛色次数(f)频率(%)白色33273.78黑色9621.33花色224.89合计450100.002-2-2数据的中心位置构造刻画数据中心位置的量有算术平均数、中位数、众数和几何平均数等,最重要的是数据的算术平均数:niinxnxxxnx1211)(1算术平均数具有两个重要特性:(1)样本各观察值与其平均数的差数的总和等于零:niixx10)(.(2)样本各观察值与其平均数的差数平方的总和,较各观察值与任意其他数值的差数平方的总和为小,亦即离均差平方的总和最小.2-2-3数据的变异度刻画数据变异的量:(1)极差(Range)(2)方差(variance)或标准差(StandardDeviation,SD•刻画所有数据偏离中心的总变异量用数据的偏差平方和:•刻画平均到每一个独立数据的变异度常用方差或标准差Sninininiiiiixxxnxxnxxxl1112122221)(21xxlsn1xxlsn(3)变异系数(coefficientofvariation)100sCVx%§3总体及其样本3-1总体与样本通过试验或调查的实施,我们得到了各试验指标的观察值.同一处理的不同次观察值形成了随机数据,它是数理统计分析处理的对象.统计学是以概率论为基础的,概率论是研究随机变量的数学理论.因此,在统计学中将同一处理的随机数据看成是有一定分布的随机变量.一个试验指标称为一维随机变量,多个试验指标称为多维随机变量.总体与样本的关系3-2总体的理论分布3-2-1离散型随机变量的分布及其数字特征若随机变量X只取数轴上有限个或无限个孤立值x1,x2,…,并且这些值的取得对应着确定的概率p1,p2,…,即其概率函数为:iipxXP,2,1i(1-3-1)

1 / 72
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功