逆向思维与统计研究课件

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1试验设计数据的方差分析和一般线性模型吴喜之2试验设计•在几乎所有领域都有各种试验。比如•如何对不同的土壤、气候等各种条件找出最合适的作物,使得收益最大•如何使得工业产品优质、价廉•什么环境下,儿童才能在心理上健康成长•企业采取的什么主动措施能够增加收益3试验设计模型就是回归模型•在水产养殖业中,比如养蟹,因变量是产量,自变量是水温,饲料,疾病等。•描述试验设计的模型就是回归模型的一种•但试验设计问题本身有很大一部分是如何设计试验,使得人们有可能用最少的资源得到最好的结果。•当然,我们不打算详细讨论如何设计试验,而把主要精力放在试验设计数据的方差分析上。4方差分析•方差分析(analysisofvariance,ANOVA)是分析各个自变量对因变量影响的一种方法。•这里的自变量就是定性变量的因子及可能出现的称为协变量(covariate)的定量变量。•分析结果是由一个方差分析表给出的。5方差分析分解因素贡献的机理•原理为:因变量的值随着自变量的不同取值而变化。我们把总变化(差的平方和)按照自变量(因素)进行分解,显示每一个自变量的贡献;最后剩下无法用已知的因素解释的则看成随机误差的贡献。•然后用各自变量的贡献和随机误差的贡献进行比较(F检验),以判断该自变量的不同水平是否对因变量的变化有显著贡献。输出就是F-值和检验的一些p-值。•下面看一个例子。6单因素方差分析回顾(data12.01)饲料比较数据,n=19头猪,用p=4种饲料喂养一段时间后的重量增加问题:四种饲料是否不同?饲料ABCD133.8151.2193.4225.8125.3149.0185.3224.6143.1162.7182.8220.4128.9143.8188.5212.3135.7153.5198.67饲料例子(继续):饲料(fodder)为自变量(单因子),重量增加(weight)为因变量(一个数量变量)(SPSS计算机数据形式有所不同)饲料ABCD133.8151.2193.4225.8125.3149.0185.3224.6143.1162.7182.8220.4128.9143.8188.5212.3135.7153.5198.6均值A=133.36均值B=152.04均值C=189.72均值D=220.7884555N=fodderDCBAWEIGHT2402202001801601401201008四种饲料的箱图四种饲料的均值图fodderDCBAMeanofWEIGHT2402202001801601401209假设:检验:H0:m1=…=mp212,,...,(,),1,...,iiiiniyyyNipm服从分布线性模型:,1,...,,1,...,ijiijiyipjnm10公式:总平方和=组间平方和+组内平方和22111()()inppiijiiiijSSTSSBSSEnyyyy其中,SST有自由度n-1,SSB有自由度p-1,SSE有自由度n-p,在正态分布的假设下,如果各组增重均值相等(零假设),则有自由度为p-1和n-p的F分布./(1)/()MSBSSBpFMSESSEnp11(比较一元总体的)ANOVAWEIGHT(重量)由SPSS可以得到方差分析表:SumofSquares(平方和)Df自由度MeanSquare(均方)FSig.BetweenGroups(处理)SSBP-1MSB=SSB/(p-1)F=MSB/MSEP(FFa)WithinGroups(误差)SSEn-pMSE=SSE/(n-p)Total(总和)SSTn-1这里n为观测值数目p为水平数,Fa满足P(FFa)=a.这是自由度为p-1和n-p的F-分布的概率12F0.05(3,15)面积=0.05F(3,15)分布密度图13ANOVAWEIGHT由SPSS可以得到方差分析表:SumofSquaresDfMeanSquareFSig.BetweenGroups20538.69836846.233157.467.000WithinGroups652.1591543.477Total21190.85818该表说明各饲料之间有显著不同.14TestofHomogeneityofVariances(Arobusttest)这是SPSS输出之一,明白即可,不用记住LeveneStatisticdf1df2Sig..024315.99515销售数据(sales.sav)•研究这个数目的主要目的是看销售额(因变量)是否受到促销方式、售后服务和奖金这三个自变量的影响(头两个是定性变量,亦称为因子,分别有3个和2个水平;而定量变量奖金是协变量)以及怎样的影响。16Excel数据1718多因素方差分析(只考虑主效应,不考虑交互效应及协变量)•首先假定自变量受到的仅仅有不同因素的主效应(maineffect)而没有交互效应(interaction)和协变量(covariate)的影响。•主效应就是每个自变量对因变量的单独影响,而交互效应是当两个或更多的自变量的某些水平同时出现时除了主效应之外的附加影响(“正面”或者“负面”的影响)。19多因素方差分析(只考虑主效应,不考虑交互效应及协变量)•拿我们例子来说,当单独考虑时,假定主动促销比被动促销可以多产生8万元效益,而有售后服务比没有售后服务多产生9万元效益。那么在没有交互作用时,同时采取主动促销和售后服务会产生8+9=17万元的效益(称为可加的)。•如存在交互效应,那么同时采取主动促销和售后服务会产生一个附加的效应即交互效应(可正可负),这时的总效应就不是17万元了。20方差分析(只考虑主效应,不考虑交互效应及协变量)•如要分析的只是因变量销售额和自变量促销和售后服务的主效应。用y表示销售额,ai表示促销(下标表示不同水平),bj表示售后服务;则相应的只有主效应的线性模型为:,1,2,3,1,2,1,2,3,4:)ijkijijkijkijijkyijkyabmab(或有常数项时为•这里的下标i代表促销的水平,下标j代表是否有售后服务,下标k代表每种ij组合中的第几个观测值。这里的最后一项ijk为随机误差项。21公式:总平方和=组间平方和+组内平方和222....1111()()()pqpqijijijijijSSTSSASSBSSEqyypyyyyyy其中,SSA有自由度p-1,SSB有自由度q-1,SSE有自由度(p-1)(q-1),在正态分布的假设下,如果各组增重均值相等(零假设),则分别有自由度为p-1和(p-1)(q-1)及自由度为q-1和(p-1)(q-1)的F分布./(1)/(1);/(1)(1)/(1)(1)ABMSASSApMSBSSBqFFMSESSEpqMSESSEpq22TestsofBetween-SubjectsEffectsDependentVariable:XXXSPSS:GLM-GeneralFactorial-Model,custom(maineffect)Note:SS.c=SSA+SSBSourceTypeIIISumofSquaresdfMeanSquareFSig.CorrectedModelSS.cP+q-2MSS.cMSS.c/MSEIntercept…1……EffectASSAp-1MSAMSA/MSEEffectBSSBq-1MSBMSB/MSEErrorSSE(p-1)(q-1)MSETotal…pqCorrectedTotalSST=SSA+SSB+SSEPq-123TestsofBetween-SubjectsEffectsDependentVariable:SALES21469.667a45367.417257.224.000579.2502289.62513.880.000532.0421532.04225.497.000417.3332020.86721887.00024SourceModelPROMOTSERVICEErrorTotalTypeIIISumofSquaresdfMeanSquareFSig.RSquared=.981(AdjustedRSquared=.977)a.•对于这个模型,SPSS输出为•促销(promot)的F检验统计量(其自由度来自promot和error的自由度:2,20)取值为13.880,p-值为0.000(更精确些是0.0001658).而售后服务的F检验统计量为25.497,p-值为0.000(更精确些是0.00006135).R2为0.981.24•这里的估计只有相对意义。一定要放在模型中,或者考虑同一因子水平之间的差,比如a1-a3、a2-a3、b1-b2等等。上面的模型还可以有截距有截距时的SPSS默认约束是固定a3=b2=0;而目前的没有截距的a1,a2,a3的估计实际上等于截距的估计加上有截距时的a1,a2,a3的估计。•由于约束条件不一样,所以各种软件的各种选项的估计不尽相同,但相对大小是不会变的。ParameterEstimatesDependentVariable:SALES28.4581.86515.260.00024.56832.34832.7081.86517.539.00028.81836.59840.3331.86521.628.00036.44344.223-9.4171.865-5.049.000-13.307-5.5270a.....Parameter[PROMOT=.00][PROMOT=1.00][PROMOT=2.00][SERVICE=.00][SERVICE=1.00]BStd.ErrortSig.LowerBoundUpperBound95%ConfidenceIntervalThisparameterissettozerobecauseitisredundant.a.•对于这个模型,参数估计为2528.4589.417,Promote=0;Service=032.7089.417,Promote=1;Service=040.3339.417,Promote=2;Service=028.4580,Promote=0;Service=132.7080,Promote=1;Service=140yyyyyy.3330,Promote=2;Service=1:)ijkijijkymab(或有常数项时模型为根据上面估计,我们的模型为(各个参数仅有相对意义,常数项混合在其中)26•没有交互作用的模型可以从下面点图中直观看出。图10.1中下面一条折线连接了没有售后服务时三种促销状况的销售均值,而上面一条连接了有售后服务时三种促销状况的销售均值。由于模型选择为无交互作用,所以这两条线是平行的。从该图可以看出,两个因子效应综合效应是简单的加法。EstimatedMarginalMeansofSALESPROMOT2.001.00.00EstimatedMarginalMeans5040302010SERVICE.001.0028方差分析•如再加上作为协变量的定量变量奖金,看它对销售有没有影响;模型就又多了一个代表自变量奖金x的一项(加上系数g)gx:•而计算机的方差分析表的输出(主要部分)为:,1,2,3,1,2,1,2,3,4ijkijijkijyxijkababgTestsofBetween-SubjectsEffectsDependentVariable:SALES21799.925a73114.275608.012.000704.6332352.31768.784.000550.8621550.862107.547.000165.256282.62816.132.000186.1751186.17536.348.00087.075175.12221887.00024SourceModel

1 / 31
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功