医学统计学方差分析AnalysisofVariance利用统计学进行客观认知的模式总体同质、变异总体参数未知样本代表性、抽样误差随机抽样样本统计量已知统计推断风险问题的提出t检验的局限性两均数的比较单因素两水平问题的提出t检验实例某大学的学工部门想知道2009年进入该校就读的学生中,市区的学生和县区的学生成绩是否有差异。因素:生源的区域水平:市区,县区单因素两水平问题的提出t检验实例不同药物的降血糖效果。分别给对照组和试验组服用拜唐平胶囊和阿卡波糖胶囊,观察8周后血糖下降值的差异。因素:服用的药物水平:阿卡波糖,拜唐平单因素两水平问题的提出江苏、安徽、浙江三省的平均入学成绩安徽平均分571.23?单因素三水平江苏平均分592.79浙江平均分569.83问题的提出假如安徽和江苏比,犯一类错误的概率是0.05,安徽和浙江比,犯一类错误的概率是0.05,浙江和江苏比,犯一类错误的概率是0.05。那么这三次相关的比较,犯一类错误的概率是31(10.05)0.1426问题的提出一种新的降血脂药,120人分为安慰剂组,用药组1(2.4g),用药组2(4.8g),用药组3(7.2g)。实验结束后观察血脂水平。安慰剂组3.43mmol/l用药组12.72mmol/l用药组22.70mmol/l用药组31.97mmol/l?单因素四水平问题的提出假如每次t检验犯一类错误的概率是0.05,那么要完全地进行比较须经过6次检验,则犯一类错误的概率是61(10.05)0.2649方差分析方差分析,又称变异数分析。AnalysisofVariance,简写为ANOVA。对变异进行分解和分析。由英国统计学家R.A.Fisher提出。又称为F检验。应用:单因素多水平比较多因素多水平比较多因素多水平+交互作用的比较R.A.Fisher1890~1962第一节方差分析的基本思想完全随机设计将观察对象随机分配为两组或多组,每组接受一种处理。目的:通过两个或多个样本来推断相应的总体均数是否相等。完全随机设计的相关概念因素(factors):将试验对象按某种标准随机分为若干个组,加以不同的干预,这种标准称为处理因素。在相同研究因素下的不同状态,称为不同的水平(level)。血型作为研究因素时,A型、B型、AB型和O型就是该因素的4个水平;性别作为研究因素时,男性和女性就是该因素的2个水平。样本均数间存在差异的可能原因一是随机因素引起的差异。包括抽样研究中的抽样误差,以及测量误差;二是样本所属的总体确实存在实质性的差异,即差异由处理因素引起。随机因素是无法避免的,而实质性差异是我们需要得到的。如何排除随机因素的干扰,利用样本信息对总体均数间是否存在差异作出推断?方差分析的基本思想按照设计类型将总变异分解为处理因素引起的变异和随机因素造成的变异;以处理因素变异与随机因素变异之比来构造检验统计量F。处理因素没有效应时,即处理因素变异主要表现为随机误差,此时F值近似为1;否则F值大于1。方差分析的基本思想F值要大到多少才表明这个差别并非随机因素造成?需要查F界值表,通过比较F值与界值的大小来作出统计推断。完全随机设计的数据结构处理分组i观察值Xij组均值ix样本含量1111121,,,nXXX1x1n2221222,,,nXXX2x2nk12,,,kkkknXXXkxkni(i=1,2,…,k)表示总共k个不同分组水平中的第i组,第i组的样本含量为ni(各个ni可以不相等),总样本含量为N=n1+n2+…+nc。用Xij表示第i组的第j个观察值(j=1,2,…,ni)。ix表示第i组的均数,x表示总均数。变异分解1、总变异(SST或SS总):k个处理组的所有观察值各不相同,这种变异为总变异,可用每一个变量值Xij与总均数的离均差平方和(简写为SS)来表示,即:SST的大小与总样本例数N的大小有关,N越大SST越大,相应的自由度为T=N-1。211()inkTijijSSXx变异分解2、组间变异(SSTR或SS组间):k个不同处理组的样本均数也不相等,其差异称为组间变异。组间变异可能包含了处理因素的效应,也包括了自身的随机误差,其大小可用各组均数与总均数的离均差平方和表示,即:ixixx21()kTRiiiSSnxx变异分解SSTR的大小与组数以及各组例数的多少有关,相应的组间自由度TR=k-1。为消除相应组数的影响,能客观反映组间变异的是组间均方:/TRTRTRMSSS变异分解3、组内变异(SSe或SS组内):各个处理组内每个观察值并不相等,其差异来源于同一总体内的个体变异与测量误差,称为组内变异。大小可用k个处理组中各组的每个观察值Xij与该组均数的离均差平方和来表示,即:ix211()inkeijiijSSXx变异分解SSe的大小也与各组例数ni有关,其自由度e=N-k,为消除相应例数的影响,能客观反映组内变异的是组内均方:/eeeMSSS三种变异的关系通过数学上的证明可以表示为:SST=SSTR+SSe,T=TR+e构建检验统计量:F=MSTR/MSe方差分析的原理F检验是从分析资料的变异来源入手,进而比较各种变异(组间和组内变异)的相对大小,再作出统计学结论的一类方法。方差分析的应用条件为:各样本来自正态总体;各总体方差齐;样本独立性。方差分析的优点不受比较组数的限制;可同时分析多个因素的作用;还可分析因素间的交互作用。第二节单因素方差分析单因素方差分析单因素方差分析:研究的是一个处理因素的不同水平间效应的差别。处理因素水平1水平2水平c水平1水平2单因素方差分析例1、某地用A、B和C三种方案治疗血红蛋白含量不满10g的婴幼儿贫血患者,A方案为每公斤体重每天口服2.5%硫酸亚铁1ml,B方案为每公斤体重每天口服2.5%硫酸亚铁0.5ml,C方案为每公斤体重每天口服3g鸡肝粉,治疗一月后,记录下每名受试者血红蛋白的上升克数,资料见下表,问三种治疗方案对婴幼儿贫血的疗效是否相同?A、B、C三种方案治疗婴幼儿贫血的疗效观察表治疗方案血红蛋白增加量(g)A1.80.52.33.72.42.01.52.71.10.9n=201.41.22.30.70.51.41.73.03.22.5B0.20.50.31.91.02.4-0.42.01.62.0n=190.01.63.01.60.03.00.71.20.7C2.11.91.70.22.01.50.91.1-0.21.3n=20-0.71.31.10.20.70.90.8-0.30.71.4分析思路:该数据要比较三组的均数,t检验不再适用,使用方差分析。可将变异分为三类:总变异(SST)组间变异(SSTR)组内变异(SSe)计算检验统计量F=MSTR/MSe如果三种治疗方案效果相同,F值在理论上应等于1。分析思路:若三种疗法效果不同,则组间变异就会增大,F值则明显大于1。F值大到什么程度才有统计学意义呢?根据自由度(TR,e),通过查F界值表得到P值,将其与事先规定的值比较后作出判断。若P<,则可判断H0不成立,而接受H1;若P>,说明上述概率并不太小,还不能认为H0不成立,故不拒绝H0。F检验步骤建立检验假设确立检验水准计算检验统计量F计算各组基础数据分别计算SST,SSTR,和SSe列出方差分析表确定P值结论Attention:上述结论仅说明三种治疗方案的效果总体有差别,并不表示任何两种治疗方案的效果均有差别,只能认为可能至少有两种治疗方案的效果之间有差别。若要了解各种治疗方案相互间有无差别,还需作进一步的两两比较。第三节多个样本均数的两两比较多个样本均数的两两比较方差分析认为多组均数间差异有统计学意义,并不表示任何两种处理的效果均有差别,只能认为至少有两种处理的效果之间有差别。那么在方差分析之基础上,若需了解究竟哪些组均数代表的总体之间有差别,还是各组间均有差别,可用多个样本均数的两两比较。Attention:组数大于2时用t检验分别对每两个对比组作比较,会加大犯一类错误的概率,即有可能把本来没有差别的两个总体判为有差别。每次比较的第一类错误率为多次比较后,至少范一次第一类错误的概率为1-(1-)m。如k=6,m=C62=15次,若=0.05,则至少有一次错误地拒绝H0(即犯一类错误)的概率为1-(1-)m=0.540.05多个样本均数的两两比较一是各组均要相互比较,以了解任何两组间是否有差别——q检验。二是仅考虑某指定组与其它各组比较,例如有一组为对照组,意欲了解其它各实验组与该对照组间是否有差别——q’检验。一、q检验多个样本均数间的两两比较常用的统计方法为q检验(又称Student-Newman-Keuls法,简称SNK法),其统计量为q:ν=νe112ABABMSqXXnne一、q检验例、在前面对某地用A、B和C三种方案治疗血红蛋白含量不满10g的婴幼儿贫血患者的例题(完全随机设计方差分析例1)进行了方差分析,我们得出三组总体不等的结论。究竟哪些总体均数之间存在着差别,我们需要在前方差分析基础之上,再对该资料作两两比较的q检验。二、q'检验多个实验组与一个对照组均数间的两两比较常用的统计方法为q‘检验,又称为Dunnett检验,其计算公式为:ν=νe该公式与q检验统计量计算公式类似,区别仅在于算得q'值后需查附表9的q'界值表。11'TCTCqXXMSnne二、q'检验例、设前面对某地用A、B和C三种方案治疗血红蛋白含量不满10g的婴幼儿贫血患者的例题中的A组为对照组,B、C两组为实验组,要求将B组、C组分别与对照组比较。第四节两因素方差分析随机区组设计(配伍组设计)为什么要配伍?配对的目的:排除干扰因素的影响;配伍的目的:使同一区组内除了研究因素外的其他其他特征尽可能相似,排除干扰因素的影响;按窝配伍;田间试验按区块配伍;当研究因素只有两水平时,配伍即配对配伍设计方差分析对应配对t检验(配伍是配对的延伸)随机区组设计随机区组设计(randomizedblockdesign)可以考察两个因素的作用。因素A称为处理因素;因素B称为区组因素(可能对实验效应产生影响的主要非处理因素)。其数据可用随机区组设计的方差分析(或称两因素方差分析)作两因素多个样本均数间的比较,以提高检验功效。随机区组设计的方差分析随机区组设计资料的总变异可分解成三部分:SST=SSA+SSB+SSe,νT=νA+νB+νe将因素B产生的变异分离出来,达到在分析因素A的作用时控制因素B干扰的目的。随机区组设计的方差分析例1、在抗癌药筛选试验中,拟用20只小白鼠按不同窝别分为5组,分别观察三种药物对小白鼠肉瘤(S180)的抑瘤效果,资料见下表,问三种药物有无抑瘤作用?第五节方差齐性检验两个方差的齐性检验出现两个样本方差不等的两种可能性:1、对应的总体方差实质上不相等;2、对应的总体方差相等,由于抽样误差导致了两样本方差的不等。检验统计量F计算公式式中为较大方差,为较小方差,1、2为相应的自由度,n1、n2为相应的样本含量。统计量F必然大于1。须查附表5方差齐性检验专用F界值表,得P值,按所取水准(一般取0.2)作出统计推断。21S22S2221ssF111n221n例、某医生研究转铁蛋白对病毒性肝炎诊断的临床意义,测得12名正常人和15名病毒性肝炎患者血清转铁蛋白含量(g/dl),试判断正常人与病毒性肝炎患者血清转铁蛋白含量是否方差齐。多个方差的齐性检验用方差分析比较多个样本均数前,须进行多个方差的齐性检验。常用Bartlett检验。第六节方差分析的正确应用方差分析的正确应用一、方差分析的应用条件二、变量转换三、两两比较四、F值、t值、q值、q值之间的关系一、方