高级试验设计与数据分析申建波(Tel:3454;办公室205)E-mail:jbshen@cau.edu.cn中国农业大学资源环境学院例一:某化工厂开发了一种硫肥,又从国外引进一新型硫肥,请科学评价两种硫肥是否有差异,并确定最佳施用量,写出报告。例二:某科研所给你的任务是在指定区域通过科学的田间试验确定氮磷的最佳配比和经济用量。任务因素水平试验设计试验实施结果获得数据分析形成报告例三:同一汽车,在一个月内16天用甲汽油,14天用乙汽油,测定每升汽油行使的里程,问两种汽油的效果有无差异?讲授提纲第一章试验设计(2学时)第二章数据分析(6学时)1、误差表示方法2、方差分析3、回归与相关分析绪论第三章计算机应用(4学时)第四章回归组合设计(2学时)第五章回归最优设计(2学时)第六章其他最优设计(2学时)第七章试验效应分析(4学时)绪论Science:Theobservation,identification,description,experimentalinvestigation,andtheoreticalexplanationofphenomena.科学是对现象进行观察、认知、描述、实验性的研究及理论上的解释观察认知描述实验性的研究理论上的解释试验设计结果分析科学试验是揭示和验证自然规律的重要手段。正确的试验设计和数据分析是完成任何一项科学试验所必需的。只有正确的试验设计和数据分析才能从复杂的数据背后找出隐藏的科学规律。“基于统计理论”科学试验不仅是科学理论发展的动力,而且还是检验科学理论的标准。试验设计是属于一般研究方法中的科学试验方法范畴,它是由试验方法与数学方法特别是统计方法相互交叉而形成的一门科学。科学试验试验目的物质手段条件控制统计方法科学结论试验准备试验方案设计试验方案实施观察、收集数据分析整理科学结论假说Conjecture-设计design-试验experiment-分析analysis试验设计中的几个问题一、观察与试验观察所研究的是现象的自然进程,必须具有以下特点:1、观察必须全面;2、观察必须有重点;3、所得的结果必须真实,而不是错觉。试验比观察更复杂、更有效。主要区别在于:在试验中,研究者干预现象的进程。试验必须有明确的目的性,并且具有以下特点:1、把研究对象和它的复杂环境隔离开来;2、可以得到在自然状态下很少遇到或根本不出现的现象;3、把复杂的过程分解为简单的部分,把自然界大规模的现象分解为试验中的小模型。4、可以使一种现象多次重复出现;5、使人的认识同生产实践相联系。二、指标衡量和判断试验效果好坏的标准。指标可分为量反应、质反应(生死)和时反应(剧痛、很痛、微痛、不痛)。指标要求具有:合理性、特异性、正确性、重现性指标的确定:例如,这个措施使果树生长好-太空乏测定指标的条件是否具备?三、因子(多少?)影响指标值变化和取值的要素称为因子或因素。试验者的任务就是不断改变因子和因子组合,使观察值发生变化,通过统计分析再来推断他们对指标值的影响。如:饲料的不同配方,施肥量,农作物品种等等水平:是因子的不同状态、类别和量级处理:单因素试验中不同水平即是不同的处理;而复因子试验中因子间的不同水平的组合称值之为处理对照:任何试验都必须有对照五、随机化统计分析的基础是概率论,概率的基础是随机变量。试验中有随机误差和系统误差,除了局部控制的方法外,可以通过随机化,把系统误差转化为随机误差。四、重复六、设计的种类1、完全随机试验设计2、随机区组设计3、拉丁方设计4、析因试验设计七、资源和约束第一章试验设计科学试验的实质是通过样本来研究总体的某些性质或变化规律。一、试验设计的意义试验设计就是在试验前根据研究目的和试验条件,制定出能用较少的人力和物力,有效地控制试验误差,对试验效应作出科学评估的试验方案。二、试验设计的类型试验设计按其技术程序可分为方案设计和方法设计两类:第一节试验设计的意义和类型方案设计就是据试验目的和试验条件制定试验方案,其内容包括试验因素、因素水平和试验处理的确定等。据试验因素的多少和统计分析方法又可将方案设计分为:(一)方案设计1、采用t检验方法的配对设计:例如在不同农户田分设施肥与不施肥处理进行肥料效应对比试验。2、采用方差分析方法的单因素设计、复因素设计(或析因设计):例如:某作物的氮肥用量试验,设5个施肥量水平,就是一个单因素试验;3、采用回归分析或相关分析方法的回归设计(二)方法设计方法设计就是据既定的试验方案和试验材料特点制定试验方案的实施方法。其主要内容包括试验小区和区组的形状和大小,小区和区组的排列和组合方式及试验重复次数的确定等。小区和区组的组合关系是方法设计的关键,据此可将方法设计大致分为:(1)非区组设计对各处理的时空位置随机安排,但没有对试验条件进行区组控制。这种设计多用于室内分析、盆栽试验和土壤肥力比较均匀的田间试验。N1-2N2-2N2-1N1-3N3-2N3-3N2-3N1-1N3-1(2)随机区组设计对试验条件的变异如土壤肥力差异、温室的光热条件等,在一个方向上进行局部控制。随机区组是一种最常用的方法设计。土壤肥力变异小大IIIIIIIV五处理四次重复的随机区组试验N3N5N1N4N2N2N3N4N5N1N1N4N5N2N3N4N2N3N1N5(3)拉丁方设计对试验条件的变异在两个方向上进行控制,多用于试验精度要求高或试验材料变异规律尚不十分清楚的试验。IIIIIIIVN3N5N1N4N2N2N3N4N5N1N1N4N5N2N3N4N2N3N1N5N5N1N2N3N4VIIIIIIIVV(4)裂区设计该设计将原试验小区作为主区并进一步划分成裂区,对不同试验因素设主、副处理。分别安排不同试验因素。裂区试验设计多用于因素性质不同的复因素试验。N1N2P1N1N2P2N1N2P3N1N2P4N1N2P5N1N2P5N1N2P3N1N2P1N1N2P4N1N2P2第二节方案设计常规方案设计可大致分为采用方差分析方法的析因设计和采用回归分析方法的回归设计。一、方案设计的基本原则(一)基本概念1.因素和水平试验因素就是要研究的对象。如当研究小麦施氮量和灌水量时,则施氮量和灌水量就是两个试验因素。试验因素的基本特点是设有不同水平。方案中只允许对试验因素设不同水平,而非试验因素则必须保持相对一致。试验因素的不同变化状态称为水平,它是为了考察试验因素对试验效应产生的影响而设置的不同变化状态。差异就是水平•例如在小麦施氮量试验中,将施肥量(N,kg/hm2)设为0、75、150、225、3005个水平。•施肥方法试验的表施、表施覆土、深施等施肥措施。•作物育种试验的不同品种等也是水平。为研究试验效应而设置的不同水平或不同水平组合称为试验处理。同一试验所有处理的总和称为试验方案。例如:某氮肥用量试验共设4个施肥水平:N0、N1、N2、N3,则这4个水平就是4个试验处理并构成氮肥试验方案。2.处理和方案如:某氮磷肥料配合试验,氮磷各设3个水平:N0、N1、N2;P0、P1、P2。他们相互搭配可得到9个试验处理:N0P0、N1P0、N2P0、N0P1、N1P1、N2P1、N0P2、N1P2、N2P2,则这9个处理就构成氮磷肥试验方案。在复因素试验方案中,最重要的是完全实施方案:如上述3×3设计9个处理的氮磷肥料试验方案就是一完全实施方案。它具有均衡可比性即正交性。处理号123456789处理N1P1N1P2N1P3N2P1N2P2N2P3N3P1N3P2N3P3N水平111222333P水平123123123产量y1y2y3y4y5y6y7y83×3设计9个处理的氮磷肥料试验方案处理号1258处理N1P1N1P2N2P2N3P2N水平1123P水平1222产量y1y2y5y8氮磷肥料不完全实施试验方案3.主效应和交互作用主效应就是不同水平效应的平均值。交互作用则是指不同因素之间在效应上的相互关系表2-1冬小麦氮磷肥的产量效应分析(产量为kg/0.1hm2)磷肥氮肥P0P1增产(P1-P0)N037041040N143049060增产(N1-N0)6080P0:N1-N0=60P1:N1-N0=80N0:P1-P0=40N1:P1-P0=60N效应=(60+80)/2=70P效应=(40+60)/2=50NP=(490-370)-(430-370)-(410-370)=20高级试验设计与数据分析申建波(Tel:3454;办公室205)E-mail:jbshen@cau.edu.cn中国农业大学资源环境学院(二)方案设计的共同原则1.明确的目的性2.消除非试验因素影响空白对照(CK1)肥底对照(CK2)标准对照(CK3)例如:评价磷矿粉的效应①不施(CK1);②NK(CK2);③NK+过磷酸钙(CK3);④NK+磷矿粉①不施(CK1);②施用磷矿粉3.提高试验效率试验效率是指单位人力、物力投入所获得试验信息的多少,复因素试验处理较多,尤其要注意提高试验效率。适当减少试验因素是提高试验效率的有效途径。此外应注意因素水平的设计,对重点研究的因素,水平数可适当增加。基本原则例如:北京地区某土壤的氮磷有效养分水平较低,钾营养水平中等,交换性钾95mg/kgK,如何确定冬小麦氮、磷、钾肥的合理用量。应将过量施用易造成作物倒伏的氮肥作为主要试验因素,设4个水平;磷肥次之,2个水平;钾肥只作为辅加处理进行探索试验。于是提出了一个4×2+2设计方案,即在氮磷完全实施方案为基础上加一个施钾处理和不施肥处理。(三)析因设计和回归设计的特殊原则4.设计方法与统计方法的对应性1.析因设计的原则析因试验设计是指能将试验效应按不同变异因素进行分析的试验设计。这类设计多为完全实施方案,即将不同因素不同水平的所有可能组合均作为试验处理的方案,能分析出主效应、交互作用和因素优化组合。(1)均衡可比性(完全实施方案)N0P0、N1P0、N2P0、N0P1、N1P1、N2P1均衡不完全实施方案,通常要借助于正交表进行正交设计(3)试验处理数和因素水平数研究线性变化趋势,二水平试验即可;研究非线性变化趋势,如产量随施肥量增加而出现“报酬递减”等,水平数不能少于3个。(2)试验重复只有设置重复才能估计随机误差和进行统计检验析因试验对试验处理数和因素水平数无特殊要求2.古典回归设计的原则古典回归设计是指以完全实施方案为基础,凭专业知识或经验而进行的回归设计。如要建立回归方程并能够统计检验,须满足以下三个基本条件(1)试验处理数试验处理数必须多于回归方程待估参数个数,并留有足够的剩余自由度,以便能进行统计检验。例如,建立P元二次多项式回归方程,必须使处理数2)2)(1(++PPN2)2)(1(++PPN=当该设计虽然可以建立回归方程,但如果不设重复就无法检验回归方程的显著性。时,无剩余自由度,称为饱和设计。(2)因素水平数•建立线性回归方程,水平数可以为2,•建立非线性方程,如二次多项式方程,水平数至少为3•为了正确揭示肥料效应变化趋势,特别是在非多点试验条件下,因素水平数不应少于4。统计上的约束条件(3)试验因素数•适当增加试验因素能减少模型误差,提高回归方程的拟合性。•过多地增加试验因素,不但增加试验的成本和难度,还会得出难以解释的试验结果,并非越多越好。•此原则适于各种回归分析和相关分析。(4)信息矩阵行列式在回归系数求解公式中,信息矩阵行列式|A|=0,而且越大越好。若|A|=0,为退化矩阵,无法通过最小二乘法求解回归系数,因而无法建立回归方程。关于信息矩阵的概念,在后面回归分析的章节里会作进一步解释。均衡性析因设计回归设计必须具有不要求处理数必须足够要求不严格重复必须设置*在保证有足够剩余自由度和回归方程模式已经确定情况下,不需要对模型误差进行统计检验时,可以不设重复。这时随机误差虽然与模型误差相混杂,但它假定模型误差很小,可以忽略不计。可以不设重复*析因设计和回归设计的主要区别配对设计属于2个处理的对比试验在简单的对比试验中,有时需要设置3个或更多的处理,如何设计?二、配对设计这类二个处理的对比试验应按配对设计进行