1/13试验设计与数据处理方法总述及总结王亚丽(数学与信息科学学院08统计1班081120132)摘要:实验设计与数据处理是一门非常有用的学科,是研究如何经济合理安排试验可以解决社会中存在的生产问题等,对现实生产有很重要的指导意义。因此本文根据试验设计与数据处理进行了总述与总结,以期达到学习、理解、掌握的以及灵活运用的目的。1试验设计与数据处理基本知识总述1.1试验设计与数据处理的基本思想试验设计与数据处理是数理统计学中的一个重要分支。它是以概率论、数理统计及线性代数为理论基础,结合一定的专业知识和实践经验,研究如何经济、合理地安排实验方案以及系统、科学地分析处理试验结果的一项科学技术,从而解决了长期以来在试验领域中,传统的试验方法对于多因素试验往往只能被动地处理试验数据,而对试验方案的设计及试验过程的控制显得无能为力这一问题。1.2试验设计与数据处理的作用(1)有助于研究者掌握试验因素对试验考察指标影响的规律性,即各因素的水平改变时指标的变化情况。(2)有助于分清试验因素对试验考察指标影响的大小顺序,找出主要因素。(3)有助于反映试验因素之间的相互影响情况,即因素间是否存在交互作用。(4)能正确估计和有效控制试验误差,提高试验的精度。(5)能较为迅速地优选出最佳工艺条件(或称最优方案),并能预估或控制一定条件下的试验指标值及其波动范围。(6)根据试验因素对试验考察指标影响规律的分析,可以深入揭示事物内在规律,明确进一步试验研究的方向。2/131.3试验设计与数据处理应遵循的原则(1)重复原则:重可复试验是减少和估计随机误差的的基本手段。(2)随机化原则:随机化原则可有效排除非试验因素的干扰,从而可正确、无偏地估计试验误差,并可保证试验数据的独立性和随机性。(3)局部控制原则:局部控制是指在试验时采取一定的技术措施方法减少非试验因素对试验结果的影响。用图形表示如下:2试验设计与数据处理方法总述和总结2.1方差分析(1)概念:方差分析是用来检验两个或两个以上样本的平均值差异的显著程度。并由此判断样本究竟是否抽自具有同一均值的总体。(2)优点:方差分析对于比较不同生产工艺或设备条件下产量、质量的差异,分析不同计划方案效果的好坏和比较不同地区、不同人员有关的数量指标差异是否显著时,是非常有用的。(3)缺点:对所检验的假设会发生错判的情况,比如第一类错误或第二类错误的发生。(4)基本原理:方差分析的基本思路是一方面确定因素的不同水平下均值之间的方差,把它作为对由所有试验数据所组成的全部总体的方差的第一个估计值;另一方面再考虑在同一水平下不同试验数据对于这一水平的均值的方差,由此计算出对由所有试验数据所组成的全部数据的总体方差的第二个估计值。比较上述两个估计值,如果这两个方差的估计值比较接近就说明因素的不同水平下的均值间的差异并不大,就接受零假设;否则,说明因素的不同水平下的均值间的差异比较大。3/13(5)数据处理基本步骤:定义总离差和为各样本观测值与总均值的离差平方和,_211()knTijijSSXX其中:_X——样本均值,即_111knijijXXN式中:Nnk——样本观测值总数对离差平方和分解如下:2_11()knTijijSSXX___11______221111[()()][()()]2()()knijiiijknkknijiiijiiijiijXXXXXXnXXXXXX式中:_iX——第i个样本的均值即_11niijjXXn交叉项:___12()()knijiiijXXXX___11____12[()()]2()()0kniijiijkiiiiXXXXXXnXnX令__21()kTiiSSnXX_211()knEijiijSSXX其中,ESS刻画了全部n次试验中纯粹由随机因素影响所产生的离差平方和,简4/13称为组内平方和,也称为误差平方和。RSS刻画了因素水平A的差异对数据离散型的作用,称为组间平方和,或因素平方和。例如四种不同灯丝配料方案数据如下,问灯丝配料方案对灯泡使用寿命有无显著影响?解:运用方差分析发得总试验次数123426,4,7,5,8,6Nknnnn计算如下:75861234111111760,=8310,13090,9410ijijijijjjjjTXTXTXTX758622221234111119785400,=13828100,21503700,14778700ijijijijjjjjQXQXQXQX2111142570,69895900knknijijijijTXQX2195711.54TTSSQN241151350.83iEiTSSQNRTESSSSSS将上述各项计算出结果后,可利用方差分析表进行方差分析灯泡品种试验结果/h1A16001610165016801700172018002A158016401640170017503A146015501600162016401660174018204A1510152015301570160016805/13表-1方差分析表方差来源离差平方和自由度均方差统计检验量显著性配料方案44360.71314786.902.15误差15135.83226879.58总方差195711.5425(6)结论:从F分布表中差得0.5(3,22)3.05F,因为0.5(3,22)FF故接受0H,即可认为灯丝不同配料方案对灯泡使用寿命无显著影响,亦可说明各方案都可制作灯泡。但在实际生产中可选用工艺简单、造价经济的配料方案,进行方差分析的目的也在此。2.2正交试验设计(1)基本思想:正交试验设计利用正交表即可对试验进行合理安排,挑选少数具有代表性的组合处理试验——以少代多,又可对实施的少数个组合处理结果进行科学的分析,做出正确的结论——以少求全。(2)优点:正交试验设计从全面试验中挑选部分试验点进行试验,减少试验次数,且试验点均匀分散,整齐可比。(3)缺点:为了照顾整齐可比,试验点有时不能保证均匀分散,且试验点的数目就会比较多(试验次数随水平数的平方而增加).(4)表示符号:()qnLt,其中L是正交表代号n,是行数(安排试验次数),t是因素水平数,q是列数(最多安排因素个数)(5)性质:(1)表中任何一列,各水平都出现,且出现次数相等。(2)表中任意两列之间,各种不同水平的所有可能组合都出现,且出现的次数相等。(6)正交试验设计和数据处理步骤:(1)明确试验目的,确定试验指标(2)挑选因素与水平,制定因素水平表(3)选择正交表,并进行表头设计(4)确定试验方案例题:乙醇溶液提取葛根中有效成分的试验,试验考察指标有3项:提取物得率,提取物中葛根总黄酮含量,总黄酮中葛根素含量,且3个指标越大越好。选取3个相对重要的因素:乙醇浓度,液固比和提取物回流次数进行正交试验。解:运用综合平衡法,不考虑交互作用,选用正交表49L(3)安排试验,试验和结果表如表-26/13表-2葛根有效成分提取试验方案与结果试验方案试验结果试验号A乙醇浓度%B液固比C回流次数提取物得率/%葛根总黄酮含量/%葛根素含量/%111116.25.12.1212227.46.32.5313337.87.22.6421238.06.92.4522317.06.42.5623128.26.92.5731327.47.32.8832138.28.03.1933216.67.02.2先对各指标分别进行直观分析,分别得出因素的主次和最优组合条件,结果如表-3:表-3葛根有效成分提取试验结果分析试验结果AB空列C提取物得率/%1K21.421.622.619.82K23.222.622.023.03K22.222.622.224.01k7.137.207.536.602k7.737.537.337.673k7.407.537.408.00极差R1.81.00.64.2因素主次CAB最优组合条件322ABC或323ABC1K18.619.320.018.57/13葛根总黄酮含量/%2K20.220.720.220.53K22.321.120.922.11k6.206.436.676.172k6.736.906.736.833k7.437.036.977.37极差R3.71.80.93.6因素主次ACB最优组合条件333ACB葛根素含量/%1K7..27.37.76.82K7.48.17.17.83K8.17.37.98.11k2.402.432.572.272k2.472.702.372.603k2.702.432.632.70极差0.90.80.81.3因素主次CAB最优组合条件322ABC再进行综合平衡分析得,最优组合条件323ABC,即乙醇浓度70%,液固比为6,回流3次。2.3均匀实验设计(1)概念:均匀实验设计就是只考虑试验点在试验范围,是部分因子设计的主要方法之一,它适用于多因素多水平的试验设计场合,试验次数等于因素8/13的水平数,是大幅度减少试验次数的一种优良的试验设计方案。(2)特点:(1)每个因素的每个水平做一次且仅做一次试验。(2)任两个因素的试验点点在格子上,每行每列有且仅有一个试验点,且这两点反映了试验安排的均衡性。(3)均匀设计表任两列组成的试验方案一般并不等价。(4)当因素的水平数增加时,试验数按水平数的增加在增加。(3)思想:均匀试验设计沿用近30年来发展起来的“回归设计”方法,运用控制论中的“黑箱”思想,把整个过程看作一个“黑箱”,把参与试验的因素12,,nxxx,通过运用均匀设计法安排试验,并作为系统的输入参数而把试验指标(结果)Y,作为输出参数(如图-1所示)。1x2xY……nx图-1试验因素(输入)与试验指标(输出)系统在数学上可以把输出参数Y与输入参数(1,2,,)ixin的关系用函数式表示12(,,)nYfxxx函数的模型对不同的系统可根据理论或凭经验进行假设,然后根据试验结果运用回归分析等方法确定模型中的系数。(4)优点:“均匀设计”方法的思路是去掉“整齐”可比的要求,通过提高试验点“均匀分散”的程度,使试验点具有更好的代表性,使得能用较少的试验获得较多的信息。(5)表示符号:*()()mmnnUnUn或,其中,“U”表示均匀设计,小标“n”表示要做n次试验,括号中“n”表示每个因素有个n水平(试验时水平数可以小于试验次数,但必须能被试验次数整除),“m”表示该表有m个因素(列),U的右上角加“*”和不加“*”分别代表两种不同类型的均匀设计表。示例系统(黑箱)9/13表-435(5)U12311242243331214431555535(5)U的使用表(7)试验数据处理及步骤:具体步骤见例题例题:考虑一个三状态123,,AAA和两状态12,BB以及12,CC之定性因素的均匀设计。我们选的表36(32)U如下所示A状态对应3个特征变量111213,,,ZZZ我们选其中2个1112,,ZZ;B状态对应2个特征变量2122,ZZ,我们选21Z,C状态对应2个特征变量3132,ZZ,我们取31Z。因素数列号D2120.310031230.4570ABCY123231AAAAAA122112BBBBBB112212CCCCCC59264655050160853210/13这是可列出含有4个虚拟变量的回归方程为:01111121221213131YkkZkZkZkZe建立回归方程后再求解即可,此处不再赘述。(8)均匀试验设计应特别注意的问题:(1)试验次数为奇数时的均匀试验设计表的问题,对策之一在因素排列水平不变的条件下,将均匀设计表中某些列从上到下的水平号码做适当的调整,也就是将原来最后一个水平与第一个水平衔接起来,组成一个封闭圈,然后从任意一处开始定为第一水平,按原方向或相反方向排出第二水