134第六章统计数据分析方法6.1方差分析方法在科学实验中常常要探讨不同实验条件或处理方法对实验结果的影响。通常是比较不同实验条件下样本均值间的差异。方差分析是检验多个样本均值间的差异是否显著的一种方法。例如医学界研究几种药物对某种疾病的疗效,不同品牌的奶粉对婴儿体重增长的效果等,都可以使用方差分析方法去研究。如果在一项实验中,只有一个因素变化,其他因素保持不变,称这种实验为单因素实验。如果有两个因素变化,其他因素保持不变,称这种实验为双因素实验。如果有两个以上因素变化,就称之为多因素实验。例如,把MK个实验对象随机分成K组,然后分别进行K种不同的处理,考虑这K种处理是否存在显著差异,测得数据见表6-1。表6-1单因素K水平的实验设计ji处理1处理2...处理K111X12X...KX1...............M1MX2MX...MKX其中Mi,,1,是实验对象序号,Kj,,1是不同的处理序号,ijX是对第i个实验对象进行第j种处理所得的观测值。方差分析假定所有观测数据具有以下特征:(1)各种处理下的数据是相互独立的。(2)各种处理下的数据分别来自正态分布),(2jjN,Kj,,1。(3)各种处理下的样本方差相同,即221K。这样,定义样本总均值ijijXKMX1,第j种处理下的样本均值135iijjXMX1,组间样本偏差平方和KjjbXXMSS2,组内样本偏差平方和KjjijMiWXXSS121。为消除样本量的影响,令)1(MSSMSbb,)1(KMSSMSww。如果处理没有作用,即样本均值相同K1,则比值wbMSMSF服从自由度为}1{,1KMM的F分布。因此,可以通过比较此比值与F分布临界值F的大小来推断不同处理间有无差异。如果组间均方bMS远远大于组内均方wMS,则FF,对应用的概率P,说明处理造成的均值差异显著。否则,FF,对应用的概率P,说明数据来自相同总体,处理间无差异。下面我们通过几个具体的例子来说明基于SPSS软件的方差分析过程。例6.1(单因素方差分析)表6-2列出了随机选取的某电子元件的四种品牌的使用寿命.表6-2某电子元件的寿命ABCD1920161822211522203318191827261815401720这里,实验的指标是电子元件的寿命,电子元件品牌为因素,这一因素有四个水平。实验的目的是研究不同品牌的电子元件的使用寿命是否有显著差异。注意到只有电子元件品牌这一因素,显然此为一单因素实验。1、操作方法与步骤(1)在数据窗中建立数据文件,定义两个变量,并输入数据,这两个变量如下:136○1品牌变量band,数值型,取值1,2,3,4,分别代表A,B,C,D四种品牌。这里值得注意的是不能把A,B,C,D作为变量的取值。○2寿命变量life,数值型,其值为电子元件的寿命(2)按AnalyzeCompareMeansOne-WayANOVA顺序单击菜单,展开单因素方差分析主对话框,如图5-1所示图6-1单因素方差分析对话框(3)根据分析要求指定方差分析的因变量与因素变量○1选定寿命变量进入DependentList框中。○2选定品牌变量进入Factor框中(4)单击OK按钮,执行这个命令程序。2、结果分析输出结果见表6-3表6-3单因素方差分析结果ANOVAlifeSumofSquaresdfMeanSquareFSig.BetweenGroups329.2003109.7334.411.019137WithinGroups398.0001624.875Total727.20019从表6-3中可知05.0019.0p,因此在水平05.0下拒绝各品牌电子元件平均寿命相同的假设,认为不同品牌电子元件的平均寿命有显著差异。例6.2(双因素方差分析)四个种系未成年雌性大白鼠各三只,每只按一种剂量注射雌激素,一段时间后,解剖秤其子宫重量,数据见表6-4。这里,实验的指标是子宫重量,白鼠的种系与注射的雌激素剂量为两个因素,显然此为双因素实验。实验的目的是研究注射不同剂量雌激素以及不同种系的白鼠的子宫重量是否有显著差异。表6-4不同种系、剂量的子宫重量剂量种系0.20.40.6A106116145B4268115C70111133D4263871.操作方法与步骤(1)在数据窗中建立数据文件,定义三个变量,两个分类变量,一个连续变量:○1种系变量mouse,数值型,取值1,2,3,4,分别代表A,B,C,D四种种系。这里值得注意的是不能把A,B,C,D作为变量的取值。○2雌激素剂量变量etrogen,数值型,取值1,2,3,分别代表0.2,0.4,0.6三种剂量。○3子宫重量变量wuteri,数值型连续变量,是本实验的研究对象。(2)按AnalyzeGeneralLinearModelGLM-Univariate顺序单击菜单,展开双因素方差分析对话框,如图6-2所示138图6-2双因素方差分析对话框(3)根据分析要求指定方差分析的因变量与因素变量○1选定wuteri变量进入Dependent框中。○2选定mouse和etrogen变量进入FixedFactor(s)框中(4)单击Model按扭,展开Model对话框,如图6-3所示。选择自定义Custom,在BuildingTerms栏内的参数框中选择Maineffect项,从Factors&Covariates框中分别选定mouse,etrogen并移入Model框中。(5)单击OK按钮,执行双因素方差分析过程。图6-3双因素方差分析Model对话框1392.结果分析输出结果见表6-5。表6-5双因素方差分析结果TestsofBetween-SubjectsEffectsDependentVariable:wuteriSourceTypeIIISumofSquaresdfMeanSquareFSig.CorrectedModel12531.667a52506.33327.677.000Intercept100467.0001100467.0001.109E3.000mouse6457.66732152.55623.771.001etrogen6074.00023037.00033.537.001Error543.333690.556Total113542.00012CorrectedTotal13075.00011a.RSquared=.958(AdjustedRSquared=.924)从两个主效应的F检验结果的P值看,由于两个主效应的P值均小于0.05,由此得出种系mouse和剂量etrogen对白鼠子宫重量在0.05水平上是有显著影响的,即:对相同剂量的雌激素,不同种系的大白鼠子宫重量增加明显不同。而对同种系的大白鼠,随着雌激素剂量的增加,子宫重量也有显著的增加。6.2聚类分析方法分类学是人类认识世界的基础科学。聚类分析是研究事物分类的基本方法。聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。根据分类对象的不同,分为样品聚类和变量聚类。1.样品聚类样品聚类在统计学中又称为Q型聚类。是根据被观测对象的各种特征,对观测对象进140行分类。例如在选拔少年运动员时,根据少年的身体素质,心理素质,生理功能的各种指标对少年运动员进行分类。2.变量聚类变量聚类在统计学中又称为R型聚类。反映同一事物特点的变量往往有很多,由于人类对客观事物的认识是有限的,因此难以找到有代表性的变量。例如在回归分析中,由于大量自变量的共线性导致回归系数不能真正反映自变量对因变量的影响。因此,往往先要进行变量聚类,找出彼此独立且具有代表性的变量。无论哪种聚类分析所得的结果都是为了某种目的所作的工作,往往并非在自然界真实存在这样的类。根据聚类过程不同又分为凝聚法和分解法。凝聚法开始时把参与聚类的每个个体(观测量或变量)视为一类,根据类与类之间的距离或相似度逐步合并,直到合并为一个大类为止。分解法是在开始时把所有的个体(观测量或变量)视为属于一大类,然后根据距离或相似度逐层分解,直到参与聚类的每个个体自成一类为止。无论哪种方法其聚类原则都是把相近的聚为一类,即距离最近或最相似的聚为一类。实际上以上两种方法是方向相反的两种聚类过程。3.各类型数据的距离和相似度的计算将样品(或变量)看作是多维空间中的一个点,则它们之间的相似度可用空间中点的距离来度量。设有n个样品,第个样品有p个指标变量,用ijX表示第i个样品的第j个指标变量的观测值,则常用的距离定义有:○1欧氏距离:2112),(pkjkikjiXXXXD。○2布洛克距离:pkjkikjiXXXXD1),(。○3闵氏距离:rpkrjkikjiXXXXD11),(。对于离散变量,第i个样品与第j个样品之间的相似度定义为141pkjjkpkiikpkjjkiikjiXXXXXXXXXXR12121,其中pkikiXpX11,pkjkjXpX11。jiXXR,的绝对值越接近1,表明第i样品与第j个样品性质越相似。如果jiXXR,的绝对值接近0,表明第i样品与第j个样品相似度较小。应该注意的是:如果数据存在量纲或数量级的差别,则在计算距离之前要先进行数据标准化处理。下面我们通过几个具体的例子来说明基于SPSS软件的聚类分析过程。例6.3(样品聚类)表6-6为6个不同民族的标化死亡率与出生时的期望寿命的数据。要求根据这些数据对这6个民族进行分类。表6-6不同民族的死亡率与期望寿命民族标化死亡率(‰)出生时期望寿命(岁)满族5.8070.59朝鲜族7.4467.14蒙古族8.1165.48维吾尔族10.2158.88藏族9.5159.24哈萨克族9.8160.471.操作方法与步骤(1)在数据窗中建立数据文件。(2)按AnalyzeClassifyHierarchicalCluster顺序单击菜单,展开聚类分析对话框,如图6-4所示142图6-4聚类分析对话框(3)根据分析要求选择分析变量和标识变量○1选定“死亡率”和“预期寿命”变量作为分析变量进入Variable(s)框中。○2选定“民族”变量作为标识变量进入LabelCases框中(4)选择Q型聚类。在Cluster栏中选择Cases项。(5)选择要求输出的统计量。在Display栏中选中Statistics复选项,单击Statistics按钮,展开统计量选择对话框。选中Proximitymatrix复选项,要求输出距离矩阵。(6)选择聚类方法。单击主对话框中的Method按钮,打开Method对话框。○1在Cluster参数框中选择Fuethestneighbor作为聚类方法。○2在Measure栏中选择Interval,下拉列表中选择Euclideandistance项,使用欧氏距离作为类间距离。○3在TransformValue栏中选择标准化方法。在Standardize列表中选择range0-1项,选择Byvariable项。(7)选择要求显示的统计图。在主对话框中的Display栏中选中Plots复选项,单击Plots按钮,展开统计图选择对话框,选中Dendrogram复选项,要求做树形图。(8)在主对话框中单击OK按钮,执行聚类分析过程。2.结果分析在输出窗中输出结果见表6-7以及图6-5。表6-7是欧氏距离矩阵,行顶,最左列均是民族名,在行列交叉点上是这两个民族的欧氏距离,体现的是不是相似,数值越大,两种民族越不相似。图6-5是反映聚类过程的树形图。可以在此图上用一把尺子垂直方向放143在图上左右移动,与尺子相交的每一根横线就是一类。每根横线左端与之联系的各观测量就是分到该类的成员。大致观察一下,来决定分成几类合适。可以看出分为3类时,类间距离比较大,说明各类的特点比较突出。表6-7欧氏相似性距离矩阵P