多元统计分析方法TheMethodsofMultivariateStatisticalAnalysis主要的统计分析方法卡方分析分类型数值型回忆方差分析回归分析比较率比较均值依存关系反应变量异同点?方差分析分析效应因子A对反应变量Y的影响,即,分析效应因子A的不同水平对反应变量Y的作用差异。。男性和女性之间收缩压的差异。试验药和对照药之间的作用差异。大学生和运动员之间肺活量的差异方差分析的原理分解总体变异:SST=SSA+SSEY的总体变异被因子A所解释的部分残差舒张压性别回归分析分析自变量X对因变量Y的依存关系,即,分析自变量X改变一个单位时,因变量Y的改变量大小。。收缩压和胆固醇的依存关系。肺活量和体重的关系。污染物浓度和污染源距离之间的关系回归分析的原理分解总体变异:SST=SSX+SSEY的总体变异被自变量X所解释的部分残差舒张压胆固醇方差分析和回归分析的相同点模型:因变量=自变量+残差方法原理:分解总体变异SST=SSA+SSESST=SSX+SSE因变量:连续型数值变量方差分析和回归分析的不同点自变量:方差分析:自变量---分类型回归分析:自变量---连续型结合?第五章广义线性模型分析GeneralLinearModelAnalysis什么是广义线性模型分析?协方差分析广义线性回归分析主要内容第一节广义线性模型分析的概念广义线性模型分析是将方差分析和回归分析的基本原理结合起来,用来分析连续型因变量与任意型自变量之间各种关系的一种统计分析方法。其意义是使得方差分析和回归分析的实用性和准确性得到进一步提高。两个典型的广义线性模型分析方法协方差分析广义线性回归分析含有数值型自变量的方差分析含有分类型自变量的回归分析第二节协方差分析协方差分析是将方差分析原理和线性回归分析原理结合起来的一种方差分析方法。它消除了混杂变量(协变量)对因变量的影响,使得方差分析结果更加准确。。男性和女性之间收缩压的差异。试验药和对照药之间的作用差异。大学生和运动员之间肺活量的差异方差分析存在的问题:结果不够准确用方差分析结果来对下面问题作结论,合适吗?年龄用药前水平身高方差分析不够准确的原因:年龄身高SST=SSA+SSEY的总体变异被因子A所解释的部分残差随机误差混杂因子肺活量职业解决的办法处理效应Y效应因子A,B,C,…混杂因子X1,X2,…选取条件相同的样本在方差分析模型中加入混杂因子协方差分析消除混杂因子的影响一、协方差分析的原理分解总体变异:SST=SSA+SSX+SSEY的总体变异因子A所解释的部分混杂因子X所解释的部分随机误差舒张压性别年龄协变量二、方差分析和协方差分析的区别区别(1):数据方差分析协方差分析AYAYX1y111y11x111y121y12x12∶∶∶∶∶1y1.n11y1,n1x1,n12y212y21x212y222y22x22∶∶∶∶∶2y2,n22y2,n2x2,n2区别(2):模型方差分析模型协方差分析模型μi是组均值μi是校正的组均值(groupmean)(adjustedgroupmean)εij是随机误差εij是随机误差β是协变量x对因变量y的影响在效应因子的每一个水平上,因变量y服从正态分布;方差相等。区别(3):假设条件在效应因子的每一个水平上,因变量y服从正态分布;方差相等;在效应因子的每一个水平上,因变量y和协变量x呈线性关系;斜率相同。方差分析协方差分析三、协方差分析的方法步骤o检验数据是否满足假设条件:正态分布性方差齐性线性相关性平行性o检验效应因子的显著性o估计校正的组均值o检验校正的组均值之间的差异【例6_1】为了研究两种药物对癫疯病菌的治疗效果,将30名病人随机分成3组,一组使用抗生素A,一组使用抗生素D,另一组作为对照组使用安慰剂。治疗前和治疗后分别对病人身体的癫疯病菌数量进行了检测,病菌的数量是由每一个病人身体上六个部位病菌感染的程度而定的,数据列在下表中。试对该试验研究进行统计分析。四、协方差分析的应用举例数据:解:这是一个完全随机设计资料。令x表示治疗前病人身体的癫疯病菌数量,y表示治疗后病人身体的癫疯病菌数量,drug表示用药方式,取值为A、D和F,分别表示使用抗生素A、抗生素D和安慰剂。首先建立SAS数据集dataeg6_1;doid=1to10;dodrug='A','D','F';inputxy@@;output;end;end;cards;116601613……301591220run;(一)检验协方差分析的4个假设条件是否满足(1)检验正态性:procsortdata=eg6_1;bydrug;run;procunivariatedata=eg6_1normal;vary;bydrug;run;(2)检验方差齐性:procdiscrimdata=eg6_1pool=test;classdrug;vary;run;(3)检验线性相关性:procregdata=eg6_1;modely=x;bydrug;run;(4)检验平行性:procglmdata=eg6_1;modely=drugxdrug*x;run;【SAS部分输出结果】(1)检验正态分布的结果:(H0:y服从正态分布)A组:W=0.928405,P=0.4166D组:W=0.871798,P=0.1002F组:W=0.972136,P=0.9023-------说明三个组的y值均近似服从正态分布。(2)检验方差齐性的结果:(H0:方差相等)Chi-Square=1.551005,DF=2,P=0.4605,--------说明三个组的方差在统计意义上是相等的。注意,以上检验过程应逐条进行,若发现有不满足假设条件的,应当选取适当的变量变换,使之尽可能接近假设条件。(3)检验线性相关性的结果:(H0:线性无关,H1:线性相关)A组:F=11.23,df=(1,8),p=0.0101D组:F=39.24,df=(1,8),p=0.0002F组:F=6.21,df=(1,8),p=0.0374--------说明三个组上y与x均近似呈线性关系。(4)检验平行性的结果:(H0:斜率相等)F=0.59,df=(2,24),p=0.560,--------说明三条直线近似平行。(二)假设条件满足后,再进行协方差分析:【SAS程序】procglm;classdrug;modely=drugx;lsmeansdrug/pdiff;run;【SAS输出结果】GeneralLinearModelsProcedureClassLevelInformationClassLevelsValuesDRUG3ADFNumberofobservationsindataset=30①DependentVariable:YSumofMeanSourceDFSquaresSquareFValuePrFModel3871.49740304290.4991343518.100.0001Error26417.2025969616.04625373CorrectedTotal291288.70000000R-SquareC.V.RootMSEYMean0.67626150.706044.00577757.9000000②SourceDFTypeISSMeanSquareFValuePrFDRUG2293.60000000146.800000009.150.0010X1577.89740304577.8974030436.010.0001③SourceDFTypeIIISSMeanSquareFValuePrFDRUG268.5537106034.276855302.140.1384X1577.89740304577.8974030436.010.0001TforH0:Pr|T|StdErrorofParameterEstimateParameter=0EstimateINTERCEPT-0.434671164B-0.180.86172.47135356DRUGA-3.446138280B-1.830.07931.88678065D-3.337166948B-1.800.08351.85386642F0.000000000B...X0.9871838116.000.00010.16449757LeastSquaresMeansDRUGYPr|T|H0:LSMEAN(i)=LSMEAN(j)LSMEANi/j123A6.71496351.0.95210.0793D6.823934820.9521.0.0835F10.161101730.07930.0835.ThemeansandadjustedmeansmeansadjustedmeansDrugA5.206.72DrugD6.106.82DrugF13.1010.16均值和校正均值【结果解释】①模型的总体检验结果:p=0.0001,R2=0.676,说明模型有统计意义,即drug和x对y的联合作用是显著的。②TyepISS对参数的检验结果:因为drug排在协变量x之前,根据第一类SS定义,检验drug对y的影响效应时,没有对x进行校正。此结果说明,不考虑治疗前的病情状况,这三种治疗方法是有显著性区别的(p=0.0010)。③TyepIIISS对参数的检验结果。根据第三类SS定义,检验模型中每一个自变量时,都校正模型中的其它变量对y的影响。此结果说明,校正了治疗前的病情状况后,这三种治疗方法是没有显著性区别的(p=0.1384)。④给出了三个处理组的校正均值,即,校正了治疗前的病情状况后三个组的均值,以及每一对均值的差异比较。因为上面结果已经说明三种治疗方法没有显著性差别,因此不需要解释这一部分的结果。因为数据满足协方差分析的假设条件,因此,上述协方差分析结果是可靠的。协方差分析的意义•可以消除多个混杂因素对处理效应的影响,得到校正均值;•提高方差分析结果的准确性和真实性;•医学研究中应用广泛,解决了很多条件不易控制的实验问题。协方差分析和随机区组设计的区别:•随机区组设计资料的方差分析仅可以消除一个混杂因素(分类型变量)对因变量的影响;•协方差分析可以消除多个混杂因素对因变量的影响。协方差分析在医学中的应用1)借助协方差分析来排除非处理因素的干扰,从而准确地估计处理因素的试验效应。2)协方差分析和方差分析一样,包括各种类型的模型,因此可以用来处理医学研究中各种不同设计资料的分析,例如,完全随机设计资料,随机区组设计资料等等。第三节广义线性回归分析广义线性回归分析是将线性回归分析原理和方差分析原理相结合起来的一种线性回归分析方法,它和线性回归分析的区别是模型的自变量可以是任意类型的变量。其主要目的是扩大线性回归分析的应用范围,使得它的应用价值得到进一步提高。广义线性回归分析的假设条件:1.因变量是连续随机变量;2.自变量相互独立;3.每一个数值型自变量与因变量呈线性关系;4.每一个数值型自变量与随机误差相互独立;5.观察个体的随机误差之间相互独立;6.随机误差{ei}~N(0,σ)。广义线性回归分析的应用举例【例6-2】为了解大学生中抑郁症的发病率极其原因,某医科大学临床系学生进行预防战略实习时,随机抽取了该市481名大学生进行调查。调查的内容包括测试抑郁症表现的34个问题(0=无,1=有时,2=经常,3=持续有)以及关于个人、家庭和学校的若干问题。如性别、年龄、身高、体重、父母文化程度、家庭月收入、父母是否离异、个人学习成绩、家庭气氛、对学校是否满意、对父母要求是否有压力、睡眠质量、有否经济压力、平时和同学关系、平时性格、社交能力、是否有知心朋友、有否恋爱困扰等问题。,其中,年龄、身高和体重是连续变量,其余都是顺序变量。数据经过整理,计算出34个问题的和,令其为因变量y,y值越大说明患抑郁症的可能性越大。其它问题作为自变量。经过初步分析,筛选出和y有显著线性关系的自变量以及年龄和性别两个重要变量,进行广义线性回归分析。进入模型的自变量是:年龄(x1