sas第九章t检验和方差分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第九章t检验和方差分析在科研中,我们往往是根据样本之间的差异,去推断其总体之间是否有差异。样本差异可能是由抽样误差所致,也可能是由本质的不同所致。应用统计学方法来处理这类问题,称为“差异的显著性检验”。若已知总体为正态分布,进行差异的显著性检验,称为“参数性检验”,SAS中MEANS、TTEST、ANOVA、GLM等均属此类检验;若未知总体分布,进行差异的显著性检验,称为“非参数性检验”,SAS中采用NPAR1WAY过程。第一节t检验9.1.1简介t检验是用于两组数据均值间差异的显著性检验。它常用于以下场合:1.样本均值与总体(理论)均值差别的显著性检验检验所测得的一组连续资料是否抽样于均值已知的总体根据大量调查的结果或以往的经验,可得到某事物的平均数(例如生理生化的正常值),以此作总体均值看待。SAS中采用MEANS过程,计算出观察与总体均值的差值,再对该差值的均值进行t检验。2.同一批对象实验前后差异的显著性检验(自身对照比较)或配对资料差异的显著性检验(配对比较检验)比如,在医学研究中,我们常常对同一批病人治疗前后的某些生理生化指标(如血压、体温等)进行测量,以观察疗效;或对同一批人群进行预防接种,以观察预防效果;或把实验对象配成对进行测定,比较其实验结果。SAS中采用MEANS过程,计算出两样本观察的差值(如治疗前、后实验数据的差值),再对该差值的均值进行t检验。3.两样本均值差异的显著性检验作两样本均值差异比较的两组原始资料各自独立,没有成对关系。两组样本所包含的个数可以相等,也可以不相等。每组观测值都是来自正态总体的样本。设1X与2X为两样本的均值,1n与2n为两样本数,21s,22s为两样本方差,分两种情形,其数学模型为:(1)方差齐(相等)时:)/1/1(21221nnsxxt)2/(])1()1[(212222112nnsnsns(2)方差不齐时:22212121//nsnsxxtSAS中采用TTEST过程,先作方差齐性检验(F检验),然后根据方差齐(EQUAL)和方差不齐(UNEQUAL)输出t值和P值以及基本统计量。在作方差齐性检验时,用F检验。F值计算公式为:),(),(22212221SSMinSSMaxF9.1.2用MEANS过程作t检验1.过程格式PROCMEANSMEANSTDSTDERRTPRT;VAR变量表;2.说明(1)PROCMEANS语句中,选择了5个统计量:均值、标准差、标准误差、t值、P值。(2)VAR语句中的变量是分析变量。缺省时,计算所有数值型变量。3.举例例1:样本均值与总体均值差别的显著性检验。已知某水样中含CaCO3的真值为20.7mg/L,现用某方法重复测定该水样11次,CaCO3的含量为:20.99,20.41,20.10,20.00,20.91,22.60,20.99,20.41,20,23,22。问用该法测CaCO3的含量所得的均值与真值有无显著差别?程序:(yp111.sas)编程说明:在数据步中,变量x读取测定值,产生一个差值变量y(y=x-20.7),在过程步中,计算出Y的均值、标准差、标准误差、t值、P值。结果说明:因t=1.0636907,0.05p=0.3125,故用此法测定水中CaCO3的含量的均值与真值间无显著差异。此法可信。例2:配对比较的t检验。研究食物中维生素E与肝脏中维生素A含量的关系。将大白鼠按性别、体重配对。每对随机分配,一个用正常饲料,一个用缺乏维生素E的饲料。经过一个时期饲养,杀死动物测定肝中维生素A的含量,结果如下表:大白鼠肝脏中维生素A含量(IU/g)配对号12345678正常饲料35502000300039503800375034503050缺乏E饲料24502400180032003250270025001750程序:(yp112.sas)编程说明:数据步中,把每对数据中的一个作为x,另一个作为y,计算出差数d(d=x-y),在过程步中,计算差数d的均值、标准差、标准误差、t值、P值。结果说明:因t=4.21p=0.00400.05,故有非常显著差异,即正常饲料组鼠肝维生素A含量比维生素E缺乏组的含量大。例3自身对照比较的t检验。应用克矽平治疗矽肺患者10名,治疗前后血红蛋白的含量如下表,问该药是否会引起血红蛋白的变化?治疗前后血红蛋白的含量(mg%)治疗前11.315.015.013.512.810.011.012.013.012.3治疗后14.013.814.013.513.512.014.711.413.812.0程序:(yp113.sas)编程说明:数据步中,把每对数据中的一个作为x,另一个作为y,计算出差数d(d=x-y),在过程步中,计算差数d的均值、标准差、标准误差、t值、P值。结果说明:因t=1.1989377,O.05p≤O.2612,故差别无显著差异,即该药不会引起血红蛋白的变化。9.1.3用TTEST过程作t检验1.过程格式PROCTTEST[DATA=数据集];CLASS变量;VAR变量表;2.说明(1)CLASS语句中的变量是分类变量,其水平值只能有两个,并对应两组观察。是必选语句。(2)VAR语句中的变量是被分析的变量,如果缺省,则对所有的数值型变量进行分析。3.举例观察某药物对大白鼠肉瘤的影响。数据如下表,试作差异性检验。对照组56555453565257545256实验组504849495050605543525657程序:(yp114.sas)编程说明:数据步中,用循环控制变量a作分类变量,其水平值为1(对照组)和2(实验组),变量n表示样本数,分别为10和12,用变量x读取原始数据,在过程步中,用CLASS语句标识分类变量,用VAR语句标识分析变量。结果说明:输出的最后:H0:Variancesareequal(方差相等)表示给出的是对方差相等假设的结果。先看方差齐性检验(F检验),然后根据F检验的结果,选择方差齐(Equal)或不齐(Unequal)的t值和p值,以及两组观察的均值、标准差、标准误差、最大值、最小值。找ProbF’=右边的值,即方差相等假设检验的P值,如果此值大于0.01则在方差相等假设下继续进行,否则只能使用近似T检验。因P=0.0074,说明方差差异显著,即方差不齐。当方差不齐时,T=2.0000,0.05P≤0.0644,故无显著差异,即此药物对大白鼠肉瘤无显著影响。第二节方差分析当试验结果受到多个因素的影响,而且也受到每个因素的各水平的影响,为从数量上反映各因素以至各因素诸水平对试验结果的影响时使用方差分析的方法。方差分析的基本思想是把全部数据关于总均值的离差平方和分解成几个部分,每一部分表示某因素交互作用所产生的效应,将各部分均方与误差均方相比较,从而确认或否认某些因素或交互作用的重要性。用公式概括为:总变异=组间变异+组内变异其中:组间变异由各因素所引起,组内变异由个体差异所引起的,或者说由误差引起的。常用的方差分析法有以下4种:(1)完全随机设计资料的方差分析(单因素方差分析)(2)随机区组设计资料的方差分析(二因素方差分析)(3)拉丁方设计资料的方差分析(三因素方差分析)(4)R*C析因设计资料的方差分析(有交互因素的方差分析)SAS系统中,ANOVA过程可以处理以上情形的方差分析,但它要求每个分类因子的组合观察数相等,即数据是均衡的。若不均衡,就要求用GLM过程进行处理。在只考虑组间变异和误差变异时,称为单向方差分析。此时ANOVA会自动处理均衡和非均衡数据。在方差分析中,每次只研究1个指标时,称之为一元方差分析(简称ANOVA),同时考虑多个指标时,称之为多元方差分析(MANOVA)。在这一节里,我们还将讨论协方差分析。9.2.1均衡数据的方差分析(ANOVA过程)1.过程格式PROCANOVA选项CLASS变量表;MODEL因变量表=效应;MEANS效应[/选择项];2.使用说明(1)程序中,CLASS语句和MODEL语句是必需的,而且,CLASS语句必须出现在MODEL语句之前。(2)CLASS语句中的变量是分类变量,可以是数值型,也可以是字符型。(3)MODEL语句指明因变量和自变量(因子变量)效应。效应是分类变量的各种组合,效应可以是主效应、交互效应、嵌套效应和混合效应。对应的效应模型如下:·主效应模型MODELy=abc;模型中,a,b,c是主效应,y是因变量。下同。·交互模型MODELy=abca*ba*cb*ca*b*c;模型中,a*b,a*c,b*c,a*b*c是交互效应。·嵌套效应模型MODELy=abc(ab);模型中,c(ab)是嵌套效应。·混合效应模型MODELy=ab(a)c(a)b*c(a);(4)MEANS语句是选择语句,计算并输出所列的效应对应的因变量均值,若指明了选择项,则将进行主效应均值间的检验。常用的选择项如下:BON、DUNCAN、LSD、REGWF、REGWO、SNK(Q检验)、SCHEFFE、SIDAK、SMM(GT2)、TUKEY、WALLER。以上选择项在实际应用中,一般选择一种或两种方法即可。ALPHA=p确定检验的显著性水平。缺省值是0.05。3.举例(1)完全随机设计资料的方差分析(单因素方差分析)某劳动卫生研究所研究棉布、府绸、的确凉、尼龙四种衣料吸附十硼氢量。每种衣料各做五次测量,所得数据如下表。试检验各种衣料吸附十硼氢量有没有显著差别?各种衣料间棉花吸附十硼氢量棉布府绸的确凉尼龙2.332.483.064.002.002.343.065.132.932.683.004.612.732.342.662.802.332.223.063.60程序:(yp115.sas)编程说明:数据步中,用循环控制变量a做分类变量,其水平数是4,分别代表不同的衣料。过程步中,用CLASS语句指明一个因素a,用MODEL语句反映出该因素的效果模型。结果说明:在输出中,找CLASS语句指出的变量的P值。此例中,P≤0.0003,可得出各衣料组间有非常显著差异。说明各种衣料间吸附十硼氢量是不同的。R-Square(R平方)对单向方差分析时,描述组间变异占总变异的比例,它越接近1,说明变异越归因于组间变异。(2)随机区组设计资料的方差分析(两因素方差分析)用4种不同方法治疗8名患者,其血浆凝固时间的资料如下表,试分析影响血浆凝固的因素。表:4种方法8名患者血浆凝固时间(分)资料受试者编号(区组)处理组123418.49.49.812.2212.815.212.914.439.69.111.29.849.88.89.912.058.48.28.58.568.69.99.810.978.99.09.210.487.98.18.210.0程序:(yp116.sas)编程说明:数据步中,变量a代表不同治疗方法,其水平数是4,变量b代表区组因素不同患者,其水平数是8。过程步中,用CLASS语句指明两个因素a和b,用MODEL语句指明二因素的效果模型。结果说明:总处理间:F=14.03,P≤O.0001,故总体有非常显著差异。A因素:F=6.62,P≤O.0025,故认为因素A(治疗方法)对血浆凝固时间影响很大。B因素:F=17.20,P≤0.0001,故认为因素B(不同患者)对血浆凝固时间影响很大。如果想对4种治疗方法进行两两比较,可在MODEL语句后增加一MEANS语句。例如,用SNK法比较,语句为:MEANSA/SNK;(yp117.sas)(3)拉丁方设计资料的方差分析(三因素方差分析)若试验中涉及到3个因素,各因素间不存在交互作用,或交互作用很小可忽略不计,同时各因素的水平数又都相同,此种资料称拉丁方设计资料。例:五种防护服,由五人各在不同的五天中穿着测定脉博数,如下表所示。试比较五种防护服对脉搏数有无不同。表:五人穿着五种防护服的脉搏数试验日期受试者甲乙丙丁戊1A12.98B116.2C114.8D104.0E100.62B144.4C119.2D113.2E132.8

1 / 17
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功