实验设计与数据处理2016.03主讲:赵爽课程性质实验设计和数据处理是一项通用技术,是当代科技和工程技术人员必须掌握的技术方法。课程任务使学生了解实验设计和数据处理的基本知识和基本概念,初步掌握常用的实验设计方法,初步掌握几种实验数据的分析方法,为毕业设计阶段结合实际研究内容进行化学实验设计和数据分析打下基础。第一章实验设计简介1.1实验设计的概念与意义实验设计是以概率论与数理统计为理论基础,经济地、科学地制定实验方案以便对实验数据进行有效的统计分析的数学理论和方法。(多、快、好、省)设计一个好的实验方案概率论与数理统计知识广博的专业技术知识丰富的实际经验例某农场想移植外地的优良品种,选了A,B,C三种品种进行试验,看哪一种品种在本地更适合一些。表1.1人造再生木材实验因素水平表A(配比)B(反应温度)/℃C(反应时间)/min11:11503022:31653533:718040水平因素先固定B和C为B1、C1,变化AB1C1A1A2A3例某厂想用高压聚乙烯与木屑化合物加温加压试制“人造再生木材”实验结果A3最好,然后固定A为A3、C为C1,变化BA3C1B1B2B3实验结果B2最好,然后固定A为A3、B为B2,变化CA3B2C1C2C3实验结果A2最好,于是下结论说A3B2C2最好。简单对比法简单对比法的优缺点:优点:实验次数少缺点:(1)试验点不具代表性。考察的因素水平仅局限于局部区域,不能全面地反映因素的全面情况。(2)无法分清因素的主次。(3)如果不进行重复试验,实验误差就估计不出来,因此无法确定最佳分析条件的精度。(4)无法利用数理统计方法对实验结果进行分析,提出展望好条件。A1A2A3B3B2B1C1C2C3另一种方法叫全面实验法,就是把三个因素的所有水平都一一搭配起来,从而找出最好的实验条件。A1B1C1A2B1C1A3B1C1A1B1C2A2B1C2A3B1C2A1B1C3A2B1C3A3B1C3A1B2C1A2B2C1A3B2C1A1B2C2A2B2C2A3B2C2A1B2C3A2B2C3A3B2C3A1B3C1A2B3C1A3B3C1A1B3C2A2B3C2A3B3C2A1B3C3A2B3C3A3B3C3共有3³=27次实验。如图所示,立方体包含了27个节点,分别表示27次试验。A1A2A3B3B2B1C1C2C3全面实验法的优缺点:优点:对各因素与实验指标之间的关系剖析得比较清楚缺点:(1)实验次数太多,费时、费事,当因素水平比较多时,实验无法完成。(2)不做重复实验无法估计误差。(3)无法区分因素的主次。例如选六个因素,每个因素选五个水平时,全面实验的数目是56=15625次。实验设计可以帮助我们有效地解决如下问题:科学地、合理地安排实验,可以减少实验次数,缩短实验周期,节约人力、物力,提高经济效益,尤其当因素水平较多时,效果更为显著。通过对实验的设计和结果分析能使我们在众多的因素中分析主次,找出影响指标的主要因素。通过实验设计可以分析因素之间交互作用影响的大小。通过方差分析,可以分析出实验误差影响的大小,提高实验的精度。通过实验设计能尽快地找出较优的设计参数或生产工艺条件,并通过对实验结果的分析、比较,找出达到最优化方案进一步实验的方向。能对最优方案的指标值进行预测。1.2实验设计的发展概况20世纪二三十年代,由于农业实验的需要,英国统计学家费歇耳(R.A.Fisher)在实验设计和统计分析方面做出了一系列先驱工作,从此开创了一门新的应用技术学科。20世纪三四十年代,英国、美国、苏联等国将实验设计法逐步推广到工业生产领域中。第二次世界大战期间,英美等国在国防工业实验中采用实验设计法取得显著效果。战后,日本把实验设计作为管理技术之一。20世纪五十年代,田口玄一博士创造了用正交表安排分析实验的正交实验设计法,在方法解说方面深入浅出为实验设计的更广泛使用作出了巨大的贡献。我国实验设计法的发展我国从20世纪50年代后期,在著名统计学家许宝禄教授引导下,数学工作者才深入实验设计这个领域。20世纪60年代末,我国研究人员编制了一套较为适用的正交表,创立了简单易懂的正交实验方法。自20世纪70年代以来,国内在研究和推广正交实验设计方面有了很大的进展,成果日渐增多,已经取得了至少上万项的好成果。为解决导弹弹道系统的指挥仪设计问题,1978年中科院王元院士和方开泰研究员提出了均匀设计,得到国际统计界的极大关注。1.3实验设计的常用术语实验指标:实验需要考察的效果称为实验指标;可以直接用数量表示的叫定量指标;不能用数量表示的叫定性指标。实验设计时,应尽量使定性指标定量化。如按评定结果打分或者评出等级,以便用数量表示。因素:对实验指标有影响的参数称为因素,因素一般用大写英文字母来表示。水平:因素所处的不同状态称为因素的水平。水平通常用1,2,3…表示。安排任何一项实验明确实验的目的是什么?用什么指标来衡量考核实验的结果?对实验指标可能有影响的因素是什么?为了搞清楚影响的因素,应当把因素选择在哪些水平上?第二章正交实验设计正交实验设计兼顾全面实验法和简单对比法的优点,是利用正交表来合理安排和分析众多因素的实验方法。它可以用较少的实验次数获得较优的结果。事实上,正交最优化方法的优点不仅表现在实验的设计上,更表现在对实验结果的处理上。正交实验设计是科研和生产中应用最多的实验研究方法之一,尤其用于生产改造、最优配方及最优工艺过程的研究。由于它方便、简洁而得到研究人员的认可。2.1概述2.1.1正交表正交表是正交实验设计的基本工具,它是根据均衡分散的思想,运用组合数学理论在拉丁方和正交拉丁方的基础上构造的一种表格。它的形式和广泛的应用是与日本统计学家田口玄一的工作分不开的。Ln(tq)正交表代号正交表横行数代表实验次数正交表列数因素数因素的水平数代表表中数码数2.1.2正交表的特点实验号列号1234111112122231333421235223162312731328321393321L9(34)1.正交性正交表中任意两列横向各数码搭配所出现的次数相同,这可保证实验的典型性。2.均衡性任一列中不同水平个数相同,即任一列中每个数码出现的机会是均等的。3.独立性没有完全重复的实验。任何两个实验间都有两个以上因素具有不同水平。12345671111111121112222312211224122221152121212621221217221122182212112L8(27)列号实验号2.1.3正交表的优点(1)实验点代表性强,实验次数少。(2)不需做重复实验,就可以估计实验误差。(3)可以分清因素的主次。(4)可以使用数理统计的方法处理实验结果,提出展望好条件。2.1.4正交表的分类规则表---各个因素具有相同的水平数。如L8(27),L9(34)不规则表(混合水平表)---每个因素的水平数不再严格相等,有的因素水平数多,而有的因素水平数少。12345111111212222321122422211531212632121741221842112L8(4×24)行号列号2.2正交实验设计的基本方法例“人造再生木材”提高抗弯强度实验。12明确实验目的,确定实验指标实验目的:提高“人造再生木材”的抗弯强度。实验指标:再生木材的抗弯强调y为指标,且y越高越好。制订因素水平表-根据以往经验和资料分析制订人造再生木材实验因素水平表配比A加温温度B/℃保温时间C/min1A1=1:1B1=150C1=302A2=2:3B2=165C2=353A3=3:7B3=180C3=40水平因素3选用合适正交表首先根据因素的水平数,来确定选用几水平的正交表。然后再根据因素的个数来决定选择多大的表。实验号列号1234111112122231333421235223162312731328321393321L9(34)4设计实验方案实验方案表原料配比A1加温温度B/℃2保温时间C/min311(1:1)1(150)1(30)21(1:1)2(165)2(35)31(1:1)3(180)3(40)42(2:3)1(150)2(35)52(2:3)2(165)3(40)62(2:3)3(180)1(30)73(3:7)1(150)3(40)83(3:7)2(165)1(30)93(3:7)3(180)2(35)实验号因素“因素顺序上列,水平对号入座”*因不考虑因素间的交互作用,一个因素占有一列(可以随机排列)*空白列(空列):最好留有至少一个空白列5进行实验,并记录结果因素实验号“人造再生木材”的抗弯强度实验数据分析表原料配比A加温温度B/℃保温时间C/min指标yi抗弯强度11(1:1)1(150)1(30)13521(1:1)2(165)2(35)23031(1:1)3(180)3(40)32942(2:3)1(150)2(35)326.452(2:3)2(165)3(40)12662(2:3)3(180)1(30)21573(3:7)1(150)3(40)22083(3:7)2(165)1(30)32093(3:7)3(180)2(35)123I9481.47084T=224.4II67.47679.465III63677575.4R3114.49.4196实验结果的计算与分析通过对实验结果的计算、分析,可解决以下几个问题:1.分清各因素对指标影响的主次顺序。2.找出最优化的方案。3.分析因素与指标的关系,找出指标随因素变化的规律和趋势,用于指出进一步的实验方案。正交实验的数据处理方法有两种,及直观法(极差法)和方差法(统计分析法)。6进行分析–计算极差I=因素所在的列中数码“1”所对应的指标值之和,II=因素所在的列中数码“2”所对应的指标值之和,III=因素所在的列中数码“3”所对应的指标值之和。全部实验数据的总和记为T。同一因素的I,II,III之和等于T。每个因素的极差R=该因素的I,II,III中最大的与最小的之差。确定主次因素顺序:极差R的大小反映了相应因素作用的大小。R越大,说明该因素的水平变化对实验结果指标影响越大,因而这个因素对实验指标就越重要。主次ABC若空列R较大,可能原因:漏掉某重要因素因素之间可能存在不可忽略的交互作用选取较优方案:如果要求指标越大越好,则要取I,II,III中最大者所对应的水平;如果要求指标越小越好,则要取I,II,III中最小者所对应的水平。本例中,因素A中最优水平为水平1;因素B中最优水平为水平1;因素C中最优水平为水平2;最优水平组合为A1B1C26进行分析在选取最优方案时,还应考虑到因素的主次。对于主要因素,一定要按有利于指标的要求来选取该因素的水平。对于次要因素,可以选取有利于指标要求的水平,也可以按照优质、高产、低耗和便于操作等原则来选取水平。6进行分析画趋势图:有助于发现正交表中未列入而可能更优的水平值,为下一轮正交实验确定水平值提供依据。验证实验:验证实验的目的,在于考察较优方案的再现性。将已做过的实验中最好条件与计算分析得到的最优条件同时验证,以确定其中的优劣。在验证的基础上还可安排第二批、第三批实验(可根据趋势图安排)。6进行分析正交试验设计中,因素可以定量的,也可以使定性的。而定量因素各水平间的距离可以相等也可以不等。直接分析与计算分析的关系对于大多数项目,计算分析的好条件不在已做过的实验中,将会得到超出直接分析的好条件。但有时会出现计算分析得出最优条件的效果不如直接分析好条件的效果。其原因:(1)可能是实验误差过大。(2)可能是另有影响因素没有考虑进去。(3)可能是因素的水平选择不当。正交实验设计的优点:(1)实验点均衡分散(2)实验数据整齐可比A1A2A3B3B2B1C1C2C3123654789方案均衡地分散在一切水平搭配的组合之中。如对因素A的各水平来说,因素B、C的三个水平都各出现了一次。即,当对表内某因素的同一水平所导致的实验结果之和进行比较时,其他条件是固定的。它是选取各