SAS/多元相关分析、假设检验和方差分析1SAS/多元推断分析过程一、多元相关分析基本语句Proccorr是分析相关系数的基本命令。Option选项如下:DATA=SAS数据集,指定分析的数据集。PEARSON,分析皮尔逊相关系数。SPEARMAN,分析斯皮尔曼相关系数。NOSIMPLE,不输出各变量的描述统计量。NOPROB,不输出相关系数检验的P值。COV,输出协方差矩阵。OUTP=SAS数据集,把皮尔逊相关系数储存到SAS数据集。OUTS=SAS数据集,把斯皮尔曼相关系数储存到SAS数据集。VAR变量名,指定分析相关系数的变量。WITH变量名,计算PARTIAL变量名,计算PARTIAL指定的变量固定不变时,WITH指定的变量与VAR指定的变量之间的偏相关系数。WEIGHT变量名,计算加权相关系数,把权数定义为行变量。BY变量名,以BY指定的变量为基准,计算VAR指定的变量之间的相关系数。例为了研究四川经济增长的影响因素,欲建立四川省经济增长模型。主要经济指标采用国内生产总值增长率(x1),投资指标—资本形成总额增长率(X2),人口指标—用自然增长率(X3),就业指标—失业率(X4)和就业率(X6)和消费指标—居民消费水平增长率(X5)。分析指标之间的关系。dataa;inputx1-x6;cards;数据行省略;proccorrnosimplcov;varx1;withx2x3x5;partialx4;run;TheCORRProcedure(相关分析过程)Proccorroption;VAR变量名;WITH变量名;PARTIAL变量名;WEIGHT变量名;BY变量名;SAS/多元相关分析、假设检验和方差分析21PartialVariables:x43WithVariables:x2x3x51Variables:x1PartialCovarianceMatrix,DF=19x1x257.84155774x34.50195351x553.16274206PearsonPartialCorrelationCoefficients,N=21Prob|r|underH0:PartialRho=0x1x20.88628.0001x30.264750.2593x50.96317.0001二、假设检验1、两独立样本的均值检验假设我们有两组样本分别来自两个独立总体,需要检验两个总体的均值或中心位置是否一样。如果两个总体都分别服从正态分布,而且方差相等,可以使用两样本t检验过程TTEST。基本语句CLASS语句指定分组变量。VAR语句指定要比较的变量,可以是多个变量。manovah=分组变量,要求程序做多元假设检验。中小企业的破产模型为了研究中小企业的破产模型,首先选定了X1总负债率(现金收益/总负债),X2收益性指标(纯收入/总财产),X3短期支付能力(流动资产/流动负债)和X4生产效率性指标(流动资产/纯销售额)4个经济指标,对17个破产企业为“1”和21个正常运行企业“2”进行了调查,得资料如下。如果这些指标是用来做判别分析和聚类分析的变量,他们之间没有显著性差异是不恰当的,所以检验所选择的指标在不同类型企业之间是否有显著的差异。dataa;inputx1-x4class@@;cards;数据行省略;procanova;classclass;procttest选项;class变量名;var变量名;manovah=分类变量;run;SAS/多元相关分析、假设检验和方差分析3modelx1-x4=class;manovah=class;run;H=AnovaSSCPMatrixforclassE=ErrorSSCPMatrixS=1M=1N=15.5StatisticValueFValueNumDFDenDFPrFWilks'Lambda0.545616206.874330.0004Pillai'sTrace0.454383806.874330.0004Hotelling-LawleyTrace0.832790156.874330.0004Roy'sGreatestRoot0.832790156.874330.00042、成对总体均值检验我们在现实中经常遇到两个总体是相关的测量结果的比较,比如,考察同一组人在参加一年的长跑锻炼前后的心率有无显著差异。这时,每个人一年前的心率和一年后的心率是相关的,心率本来较快的人锻炼后仍相对于其它人较快。所以,检验这样的成对总体的均值不能使用两样本t检验的方法,因为独立性条件不再满足。这时,我们可以检验两个变量间的差值的均值是否为零,这等价于检验两组测量值的平均水平有无显著差异。在SAS/STAT8.0以上的版本,成对样本均值差异性的检验,不需要做两成对样本的观测值之差21xx,直接可以得到结果。基本语句:例对电器组装车间研究引入新的组装方法后,单位时间内工人的组装数量是否有显著性提高。于是从组装线上随机抽调了15个工人,进行了一个月的培训,研究该成对样本的数据是否有显著性差异。dataa;inputworkerx1x2@@;cards;134332283632950445415263762741724398152191520102737112321123118132029143538152027;procttest;pairedx1*x2;run;TheTTESTProcedureStatisticsLowerCLUpperCLLowerCLUpperCLDifferenceNMeanMeanMeanStdDevStdDevStdDevStdErrMinimumMaximumx1-x215-10.63-5.933-1.2326.21528.489213.3882.1919-2113procttest选项;class变量名;var变量名;paired样本1的变量名*样本2的变量名;run;SAS/多元相关分析、假设检验和方差分析4T-TestsDifferenceDFtValuePr|t|x1-x214-2.710.01703、总体均值分量间结构关系的检验1例1设),(~pNx,),,(2,1pμ,n21xxx,,,时取自该总体的样本。检验pH10:jiH:0至少存在一对ji令100101010011C则与上面的原假设等价的假设为0C:0H0C:1H。注:矩阵C不是唯一的,100001100011C例2假定人类的体形有这样一个一般规律的身高、胸围和上臂围平均尺寸比例为1:4:6。检验比例是否符合这一规律。检验:32104161:H3211,41,61:H至少有两个不等601032C则上面的假设可以表达为0C:0H0C:1H,为了检验C:0HC:1H,可以用统计量))(1(2x(CCCS)xC1nnT当C:0H为真时,),(~)1(2knkFTnkkn,对给定的显著性水平,检验的规则1该检验在SAS程序上如何完成,我暂时无法给出,只能用EXCEL来完成该检验。SAS/多元相关分析、假设检验和方差分析5当),()1(2knkFTnkkn时,拒绝原假设;当),()1(2knkFTnkkn时,接受原假设。三、单因素方差分析ANOVA过程方差分析把指标的方差分解为由因素的不同取值能够解释的部分,和剩余的不能解释的部分,然后比较两部分,当能用因素解释的部分明显大于剩余的部分时认为因素是显著的。方差分析假定观测是彼此独立的,观测为正态分布的样本,由因素各水平分成的各组的方差相等。在这些假定满足时,就可以用ANOVA过程来进行方差分析。其一般写法为PROCANOVA,运行方差分析程序的命令。CLASS因素,表示因子,在模型中作为自变量使用。MODEL指标=因素;运行以指标为因变量,因素为自变量的单因素方差分析,指标可以是多变量的。manovah=因素,进行多变量的方差分析。MEANST/ALPHA=PLSDSCHEFFEBONREGWQ,利用给的显著性水平,进行LSD、SCHEFFE、BON和REGWQ多重检验。注(多重检验):方差分析只检验各组是否没有任何两两之间的差异,但不检验到底是哪两组之间有显著差异,即),,3,2,1,,(kjijiji。在三个或多个组之间进行两个或多个比较的检验叫做多重比较。多重比较在统计学中没有一个公认的解决方法,而是提供了若干种检验方法。因为多重比较要进行不只一次的比较,所以在多重比较的检验水平有两种:总错误率(experimentwiseerrorrate)和单次比较错误率。总错误率是指所有比较(比如,五个组两两之间比较有10次)的总第一类错误概率,单次比较错误率是指每一次比较的第一类错误概率。显然,总错误率要比单次比较错误率高.有10种比较法:(1)Bonferroni(简称Bon):要求对全部主效应的平均值的差异进行最小差异显著性水平T检验。(2)Tukey'sHSDD(简称TLUKEY):对所有主效应的平均值,进行TUKEY的学生化范围检验(Studentizedrangetest)。(3)Duncan'smultiple-rangetest(DUNCAN):对所有主效应的平均值进行Duncan如多重范围检验(Multiple-rangetest)。(4)Dunnett'st-test:Dunnett的T检验。(5)Fisher'sLSD:费歇尔LSD检验。(6)Gabrielmultipie-comparisonprocedure(GABRIEL):对所有主效应的均值进行Gabriel的多重比较(Multiplecomparison)。PROCANOVADATA=数据集;CLASS因素;MODEL指标=因素;MEANST/ALPHALSDSCHEFFE;RUN;SAS/多元相关分析、假设检验和方差分析6(7)Student-Newman-Keulsmultiple-rangetest(SNK):对所有主效应平均值进行比Keuls的多重范围检验。(8)waller—DuncanK-ratiot-test(WALLER):对所有主效应的平均值,进行Waller-DuncanK率的t检验。(9)Scheffe'smultiple—comparisonprocedure(SCHEFFE):对所有主效应的均值进行scheffe多重比较。(10)Ryan-Einot-Gabriel-Welschmultiple-rangetest(REGWF):对所有主效应的均值进行Ryan-Einot-Gabriel-welsch的多重F检验。如果采用命令法,则还有以下的选项:在SAS/ANOVA过程中使用MEANS语句进行多重比较。格式如下:MEANST/ALPHA=PLSDSCHEFFEBONREGWQ;如果不使用选项,则只对因素的各水平计算指标的平均值和标准差。要进行两两比较,有多种方法,可以在MEANS语句的选项中指定检验方法。例:为了研究某年全国各地农民家庭收支的分布情况,对全国28个地区进行了抽样调查。食品1x,衣着2x,燃料3x,住房4x,生活用品及其他5x和文化服务支出6x。进行多元方差分析。dataa;inputtypex1-x6@@;cards;1135.2036.4010.4744.1636.493.941146.6832.8317.7927.2939.093.471159.3733.3818.3711.8125.295.221144.9829.1211.6742.6027.305.741169.9232.7512.7247.1234.355.001115.8430.7612.2033.6133.773.852116.2229.5712.2413.7621.756.042153.1123.0915