方差分析方差分析(AnalysisofVariance,ANOVA)1928年由英国统计学家R.A.Fisher首先提出,为纪念Fisher,以F命名,故方差分析又称为F检验。方差分析的优点不受比较组数的限制,可比较多组均数可同时分析多个因素的作用可分析因素间的交互作用方差分析的应用条件独立性:各样本是相互独立随机的样本正态性:各样本都来自正态总体方差齐性:各样本的总体方差相等看一个实例例6.6某地用A、B和C三种方案治疗血红蛋白含量不满10g的婴幼儿贫血患者,治疗一月后,记录下每名受试者血红蛋白的上升克数,资料见表6.3,问三种治疗方案对婴幼儿贫血的疗效是否相同?婴幼儿贫血治疗后血红蛋白的增加量(g)A组B组C组1.81.45.02.02.1-0.70.51.20.20.01.91.32.32.30.51.61.71.13.70.70.33.00.20.22.40.51.91.62.00.72.01.41.00.01.50.91.51.72.43.00.90.82.73.0-0.40.71.1-0.31.13.22.01.2-0.20.70.92.51.60.71.31.4所有数据均数1.8401.4150.9301.395标准差0.9131.2970.781.071SS15.848231.966911.562667.668559.3755变异分解组间变异总变异组内变异SS总=SS组间+SS组内总=组间+组内总变异——SS总(离均差平方和)2XXSSij总总=N-1组间变异——SS组间2XXnSSii组间组间=k-1MS组间=SS组间/(k-1)组内变异——SS组内2iijXXSS组内组内=N-kMS组内=SS组内/(N-k)方差分析的基本思想抽样误差本质上的差别+抽样误差(组间差异)(组内差异)如果三种治疗方案效果相同,也即三组样本均数来自同一总体(H0:1=2=3),那么从理论上说组间变异应该等于组内变异,因为两者均只反映随机误差(包括个体差异),这时若计算组间均方与组内均方的比值:F=MS组间/MS组内则F值在理论上应等于1,但由于抽样误差的影响,F通常接近1,而并不正好等于1。相反,若三种疗法效果不同,则组间变异就会增大,F值则明显大于1,要大到什么程度才有统计学意义呢?可通过查附表4方差分析用F界值表得到P值,将其与事先规定的值比较后作出判断。单因素多个样本均数的比较(analysisofonewayvariance)处理因素只有一个属于完全随机设计:随机抽样随机分组随机试验NXC2CXSS2总CnXXXnSSiiii22组间组间总组内SSSSnsSSii12基本步骤建立检验假设计算检验统计量(列方差分析表)计算P值下结论建立假设H0:A=B=C,三种治疗方案治疗婴幼儿贫血的疗效相同,H1:三种治疗方案治疗婴幼儿贫血的疗效不全相同或全不相同。=0.05计算基本数据表6.4方差分析基础数据ABC总和iX36.8028.3018.6083.702iX83.5672.0128.86184.43计算SS总,SS组间,和SS组内C=(83.70)2/60=116.7615SS总=184.43-116.76=67.6685SS组内=0.91332×19+1.29712×19+0.78002×19=59.37472930.87615.1162060.1830.2880.36222组间SS列方差分析表表6.5单因素方差分析表变异来源SSMSFP总67.668559组间8.293024.14653.980.0241组内(误差)59.3755571.0417界定P值,作结论总自由度为N-1=60-1=59组间自由度=组数(k)-1=3-1=2组内自由度=总自由度-组间自由度=59-2=57。查方差分析表得F0.05(2,57)=3.15,F>F0.05(2,57),则P<0.05。故按=0.05的水准,拒绝H0,接受H1,故可认为三种治疗方案的治疗效果不一样。多个样本均数的两两比较在方差分析认为多组均数间差异有统计学意义的基础上,若需了解究竟哪些组均数之间有差别,还是各组间均有差别,可用多个样本均数的两两比较(又称多重比较multiplecomparison)。多个样本均数的两两比较不宜用t检验如用t检验,则第一类错误率将增大,此时易将无差别的两均数错判为有差别’=1-(1-)m(m=Ck2=k(k-1)/2)如:三个组的比较1-(1-0.05)3=0.14,比0.05大多了。多个样本均数间的两两比较用q检验(又称Student-Newman-Keuls法,即SNK法),统计量为q:BABAnnMSXXq112误差H0:A=B,每次对比时两个总体均数相等;H1:A≠B,每次对比时两个总体均数不等。=0.05。将三个样本均数按从大到小顺序排列并编上组次:组次123均数1.8401.4150.930组别(治疗方案)ABC表6.6三个样本均数两两比较的q检验对比组两均数之差组数q值q界值PA与BBAXXa=0.05(1)(2)(3)误差)2(4(5)(6)1与30.91033.98773.400.051与20.42521.86242.830.052与30.48522.12532.830.05q0.05,(57,3)=3.40q0.05,(57,2)=2.83结论总的说来,三种治疗方案的治疗婴幼儿贫血疗效有差别。而这种差别主要来自A方案和C方案。这一结论可用下列形式表示:ABC1.8401.4150.930多个实验组与一个对照组均数间的两两比较常用q‘检验,又称Duncan法,其计算公式为:公式与q检验公式类似,但需查附表9q'界值表。CTCTnnMSXXq112'组内两因素多个样本均数的比较(twowayanalysisofvariance)两因素:配伍因素和处理因素属于随机区组设计(randomizedblockdesign)又称“配伍组设计”配伍的概念是“配对”概念的扩展,不是按每两个配对,而是按每三个、每四个或更多个配起来,这就超出了“对子”的涵义,而是配伍组设计了。配伍设计的目的对研究因素以外的已知的干扰因素加以控制,从而将研究因素的作用与干扰因素的作用区分开,以达到提高检验的功效之目的。实例例6.10在抗癌药筛选试验中,拟用20只小白鼠按不同窝别分为5组,分别观察三种药物对小白鼠肉瘤(S180)的抑瘤效果,资料见表6.7,问三种药物有无抑瘤作用?表6.7三种药物抑瘤效果的比较(瘤重:g)窝别(配伍组)对照ABC配伍组合计Ⅰ0.800.360.170.281.61Ⅱ0.740.500.420.362.02Ⅲ0.310.200.380.251.14Ⅳ0.480.180.440.221.32Ⅴ0.760.260.280.131.43处理组合计iX3.091.501.691.247.52(X)2iX2.09170.51960.62170.33583.5688(2X)两因素方差分析的原理类似于单因素方差分析,前者仅在后者的基础上,从误差中再分离出配伍组效应,使误差减少,达到提高检验功效之目的SS总=SS处理+SS配伍+SS误差实验因素:H0:三种药物对小白鼠肉瘤(S180)的抑瘤效果与对照组相同,即对照=A=B=C;H1:三种药物对小白鼠肉瘤(S180)的抑瘤效果与对照组不全同或全不同。=0.05。建立检验假设干扰因素:H0:5个窝别小白鼠对肉瘤生长的反应相同;H1:5个窝别小白鼠对肉瘤生长的反应不全相同或全不相同。=0.05。82752.24552.722bkXC74128.082752.25688.32CXSS总计算SS总,SS处理,SS配伍和SS误差11233.082752.2443.1432.1414.1402.2461.1222222CkXSSjj配伍SS误差=SS总-SS处理-SS配伍=0.74128-0.41084-0.11233=0.2181141084.082752.2524.1569.1550.1509.322222CbXSSii处理计算自由度总=总例数-1=20-1=19处理=处理组数-1=4-1=3配伍=配伍组数-1=5-1=4误差=总-处理-配伍=19-3-4=12表6.8两因素方差分析表变异来源SSMSFP总0.7412819处理0.4108430.136957.530.01配伍0.1123340.028081.540.05误差0.21811120.01818列方差分析表界定P值,作结论F0.05,(3,12)=3.49F0.05,(4,12)=3.26F0.01,(3,12)=5.95F0.01,(4,12)=5.41显然处理组间均数的检验结果是F>F0.01,P<0.01,拒绝H0,接受H1,差别有统计学意义,可认为三种药物对小白鼠肉瘤(S180)的抑瘤效果与对照组不同;但配伍组间差别无统计学意义,即各窝小白鼠对肉瘤生长的反映相同。方差齐性检验两个方差的齐性检验多个方差的齐性检验方差分析的正确应用要求资料满足独立性、正态性和方差齐性变量变换对数转换平方根转换平方根反正弦转换方差分析的正确应用两两比较F值、t值、q值、q值之间的关系