中国疾病预防控制中心1方差分析AnalysisofVariance(ANOVA)中国疾病预防控制中心2胡跃华中国疾病预防控制中心公共卫生监测与信息服务中心卫生统计研究室E-mail:huyueer@163.com中国疾病预防控制中心31、统计思维:用最小的风险、最低的成本、最高的信度得到最大的效益;2、概念理解与实际工作结合,淡化公式和计算过程;3、结论:概率性统计的根本是概率思维。如何才能依靠有限的数据资料,对需要的信息作出更加准确的判断。中国疾病预防控制中心养猴人心中暗笑:“朝四暮三和朝三暮四,不是都等于七吗?这畜牲就是不如人聪明。”猴子们窃窃私语:“朝四暮三和朝三暮四,虽然吃到肚子里都等于七,但朝四暮三更符合早吃饱、晚吃少的科学道理,不信去问问费雪。人虽然比我们聪明,但没学过统计的人,智商还真不如我们高”。——新编《齐物论》4中国疾病预防控制中心5ANOVA由英国统计学家R.A.Fisher首创,为纪念Fisher,以F命名,故方差分析又称F检验(Ftest)。用于推断多个总体均数有无差异中国疾病预防控制中心6方差分析设计基本思想、基本原理单因素方差分析的定义单因素方差分析过程以及方差分析的用途、要求条件学习要点SAS实现中国疾病预防控制中心7完全随机设计资料的方差分析多个样本均数两两比较SAS实现方差分析概述第一节第二节第三节第四节方差分析(一)——概述、单因素方差分析方差分析概述第一节中国疾病预防控制中心这两组的平均数都是70,但A组的标准差为18.708分,B组的标准差为2.37分,说明A组学生之间的差距要比B组学生之间的差距大得多。8均数标准差{0,5,9,14}{5,6,8,9}A、B两组各有6位学生参加同一次语文测验A组分数:95、85、75、65、55、45,B组分数:73、72、71、69、68、67。标准差的直观含义:均数10标准差3均数10标准差10中国疾病预防控制中心表1喂养不同饲料的大白鼠红细胞数(×1012/L)编号普通饲料10%大豆饲料14.784.6524.656.9233.984.4444.046.1653.445.9963.776.6773.655.2984.914.7094.795.05105.316.01114.055.67125.164.68均数4.385.52回忆t检验9X%大豆饲料中国疾病预防控制中心10方差分析:推断多个总体均数是否有差别。也可用于两个(结果与t检验同效)中国疾病预防控制中心t检验:方差分析:一个或两个样本均数的假设测验11多个样本均数的假设测验中国疾病预防控制中心表2喂养三种不同饲料的大白鼠红细胞数(×1012/L)编号普通饲料10%大豆饲料20%大豆饲料14.784.656.8024.656.925.9133.984.447.2844.046.167.5153.445.997.5163.776.677.7473.655.298.1984.914.707.1594.795.058.18105.316.015.53114.055.677.79125.164.688.03均数4.385.527.3012中国疾病预防控制中心表3血滤液放置不同时间的血糖浓度(mmol/L)放置时间(分)区组0459013515.275.274.944.6125.275.224.884.6635.885.835.385.0045.445.385.275.0055.665.445.384.8866.226.255.615.2275.835.725.384.8885.275.115.004.44均数5.605.505.204.8013中国疾病预防控制中心方差分析单因素:完全随机设计两因素:随机区组设计多因素:析因、拉丁方、正交设计重复测量设计单组多组中国疾病预防控制中心因素是指所要研究的变量,它可能对因变量产生影响。因素是一个独立的变量,是方差分析研究的对象。例如,要分析不同给药方式对药物吸收量是否有影响,所以,药物吸收量是因变量,而给药方式是可能影响药物吸收量的因素。15基本概念中国疾病预防控制中心16基本概念只分析处理组间有无差别,以说明研究因素对结果有无影响的均数间比较的检验方法。即只有一个因素变量的方差分析称为单因素方差分析。研究多个因素变量对因变量的影响的方差分析称为多因素方差分析,其中最简单的情况是双因素方差分析。中国疾病预防控制中心方差分析用途:1)用于多个(或两个)样本均数的比较;2)用于分析因素间的交互作用;3)用于方差齐性检验;4)用于方程的拟合度检验。17中国疾病预防控制中心方差分析要求条件:1)各样本是随机独立;2)样本来自正态总体(服从正态分布);3)各总体方差相等,即σ12=σ22=……=σn2;18中国疾病预防控制中心方差分析基本思想:将所有测量值上的总变异按照其变异的来源分解为两个或多个部分,即每个部分的变异可由某因素的作用来解释。通过比较可能由某因素所至的变异与随机误差,即可了解该因素对测定结果有无影响(评价由某种因素所引起的变异是否具有统计学意义)。19中国疾病预防控制中心单因素方差分析基本思想:将所有测量值上的总变异按照其变异的来源分解为两个部分:1)组间变异(处理因素的影响)用MS间表示2)组内变异(个体因素的影响)用MS内表示F=MS间/MS内如果:处理组因素确无效的话,MS间≈MS内,F≈1;处理组因素确有效的话,MS间MS内,F1F越大,P值越小,就越有理由认为组间有差别。20中国疾病预防控制中心方差分析的基本原理¾自由度和平方和的分解¾F测验表4完全随机设计的方差分析表¾多重比较变异来源SSdfMSF组间(处理组间)SS组间k-1SS组间/v组间MS组间/MS组内组内(误差)SS组内N-kSS组内/v组内总SS总N-121¾H0:μ1=μ2=…=μn;H1:μi(i=1,2,…,n)不全相等中国疾病预防控制中心22方差分析的实质中国疾病预防控制中心方差分析的实质¨如果原假设成立,即H0:μ1=μ2=μ3=μ4四种颜色饮料销售的均值都相等没有系统误差这意味着每个样本都来自均值为μ、差为σ2的同一正态总体XXXf(X)f(X)f(X)μμ11==μμ22==μμ33==μμ4423中国疾病预防控制中心方差分析的实质¨如果备择假设成立,即H1:μi(i=1,2,3,4)不全相等至少有两个总体的均值是不同的有系统误差意味着四个样本来自的四个正态总体均值不全相同,极端情况:XXXf(X)f(X)f(X)μμ33≠≠μμ11≠≠μμ22≠≠μμ4424中国疾病预防控制中心全部测量值大小不同,这种变异称为总变异。总变异的大小可以用离均差平方和(sumofsquaresofdeviationsfrommean,SS)表示,即各测量值Xij与总均数差值的平方和,记为SS总。总变异SS总反映了所有测量值之间总的变异程度。1.总变异:25211()ingijijXCN===∑∑其中:1Nν=−总()221111iinnggijijijijSSXXXC=====−=−∑∑∑∑总计算公式为中国疾病预防控制中心各处理组由于接受处理的水平不同,各组的样本均数(i=1,2,…,g)也大小不等,这种变异称为组间变异。其大小可用各组均数与总均数的离均差平方和表示,记为SS组间。2.组间变异:26计算公式为21211()()inijjggiiiiiXSSnXXCn===∑=−=−∑∑组间1gν=−组间中国疾病预防控制中心在同一处理组中,虽然每个受试对象接受的处理相同,但测量值仍各不相同,这种变异称为组内变异(误差)。组内变异可用组内各测量值Xij与其所在组的均数的差值的平方和表示,记为SS组内,表示随机误差的影响。3.组内变异:27计算公式为Ngν=−组内211()ingijiijSSXX===−∑∑组内中国疾病预防控制中心28SS总SS组间三种变异的关系:SS组内ννν=+总组间组内SSSSSS=+总组间组内中国疾病预防控制中心SSMSSSMSνν==组间组间组间组内组内组内均方差,均方(meansquare,MS)29中国疾病预防控制中心检验统计量F:如果,则都为随机误差的估计,F值应接近于1。如果不全相等,F值将明显大于1。用F界值(单侧界值)确定P值。12,,MSFMSνννν===组间组间组内组内12gμμμ===L,MSMS组间组内2σ12,,,gμμμL参考:单因素方差分析基本思想30中国疾病预防控制中心(1)具有平均数=1(2)取值区间为[0,∞];(3)某一特定曲线的形状则仅决定于参数v1和v2。¾在v1=1或v1=2时,F分布曲线是严重倾斜成反向J型;Fμ0.51.01.52.02.53.03.54.04.55.05.56.00.00.20.40.60.81.0Ff(F)¾当v1≥3时,曲线转为偏态。4,521==νν5,221==νν5,121==νν图F分布曲线(随v1和v2的不同而不同)F分布曲线特征:31中国疾病预防控制中心32ααFF分布分布FFαα((kk--1,1,nn--kk))00拒绝拒绝HH00不拒绝不拒绝HH00FF构造检验的统计量(F分布拒绝域)中国疾病预防控制中心33方差分析概述多个样本均数两两比较SAS实现第一节完全随机设计资料的方差分析第二节第三节第四节方差分析(一)——概述、单因素方差分析完全随机设计资料的方差分析第二节中国疾病预防控制中心回顾1完全随机设计方案:定义:按照纳入和排除标准选择出来的全部实验单位随机地分配到各处理组,再观察其实验效应。纳入标准排除标准研究总体随机化受试对象实验组对照组34中国疾病预防控制中心2统计分析方法选择:1)对于正态分布且方差齐同的资料,常采用完全随机设计的单因素方差分析(one-wayANOVA)或成组资料的t检验(g=2);2)对于非正态分布或方差不齐的资料,可进行数据变换或采用秩和检验。35中国疾病预防控制中心表5完全随机设计资料的方差分析表变异来源自由度SSMSF总变异N-1211ingijijXC==−∑∑组间g-1211()inijgjiiXCn==−∑∑SSν组间组间MSMS组间组内组内N-gSSSS−总组间SSν组内组内36中国疾病预防控制中心完全随机设计资料方差分析的步骤例1:为研究大豆对缺铁性贫血的恢复作用,某研究者进行了如下实验:选取已做成贫血模型的大鼠36只,随机等分为3组,每组12只,分别用三种不同的饲料喂养:不含大豆的普通饲料、含10%大豆饲料和含15%大豆饲料。喂养一周后,测定大鼠红细胞数(×/L),试分析喂养三种不同饲料的大鼠贫血恢复情况是否不同?121037中国疾病预防控制中心普通饲料10%大豆饲料15%大豆饲料合计X4.784.656.804.656.925.913.984.447.284.046.167.513.445.997.513.776.677.743.655.298.194.914.707.154.795.058.185.316.015.534.055.677.795.164.688.03in12121236(n)iX∑52.5366.2387.62206.38(X∑)iX4.385.527.305.73(X)2iX∑234.2783373.2851647.73121255.2946(2X∑)表6喂养三种不同饲料的大鼠红细胞数(×/L)121038中国疾病预防控制中心1、建立检验假设,确定检验水准H0:,即喂养三种不同饲料的大鼠红细胞数相同H1:不等或不全相等,即喂养三种不同饲料的大鼠红细胞数不全相同05.0=α321μμμ、、321μμμ==39中国疾病预防控制中心2.计算检验统计量:22()/(206.38)/36=1183.1307CXN==∑22()1255.2946-1183.1307=72.1639SSXXXC=−=−=∑∑总22()=()iiiiSSnXXXnC=−−∑∑∑组间22252.5366.2387.62(