19.PROCMEANS均值以及均值的T检验(一)PROCMEANS过程步由PROCUNIVARIATE过程步生成的大多数统计描述,用PROCMEANS过程步也可以实现。区别是,UNIVARIATE是做更深入的统计分析;如果只是需要计算少数的统计量,PROCMEANS更适合(不能做图形输出)。基本语法:PROCMEANSdata=数据集statistic-keywords;CLASSvariable;VARvariable-list;说明:(1)CLASS指定分组变量,VAR指定要做统计分析的变量;(2)默认置信水平是0.05(即95%的置信限),若要设定在统计量关键词位置加上,例如,ALPHA=0.1;(3)若不加统计量关键词,默认输出:均值、非缺省值个数、标准差、最小值、最大值。可选的统计量关键词包括:关键词说明关键词说明CLM双边置信限RANGE极差CSS校正平方和SKEWNESS偏度CV变异系数STDDEV标准差KURTOSIS峰度STDERR均值的标准误LCLM置信下限SUM求和MAX最大值SUMWGT求权重和MIN最小值UCLM置信下限MEAN均值USS未修正的平方和MODE众数N非缺省值个数NMISS缺省值个数PROBTT检验的概率TT值Q1或P25第1四分位数MEDIAN或P50中位数Q3或P75第3四分位数P11%分位数P55%分位数P1010%分位数P9090%分位数P9595%分位数P9999%分位数例1儿童书作家考察市面上儿童书的页数作为出书的参考,搜集数据(C:\MyRawData\Picbooks.dat)如下:读入数据,计算数据个数、均值、中位数,以及90%的置信限。代码:databooklengths;infile'c:\MyRawData\Picbooks.dat';inputNumberOfPages@@;run;*Producesummarystatistics;procmeansdata=booklengthsNMEANMEDIANCLMALPHA=0.10MAXDEC=2;title'SummaryofPictureBookLengths';run;运行结果:说明:有90%的把握说“儿童书的页数范围是:[26.44,29.56]”.(二)假设检验的P值法一、什么是假设检验?实际中,我们只能得到抽取的样本(部分)的统计结果,要进一步推断总体(全部)的特征,但是这种推断必然有可能犯错,犯错的概率为多少时应该接受这种推断呢?为此,统计学家就开发了一些统计方法进行统计检定,通过把所得到的统计检定值,与统计学家树立了一些随机变量的概率分布进行对比,我们可以知道在百分之多少的机遇下会得到目前的结果。倘若经比较后发现,涌现这结果的机率很少,即是说,是在时机很少、很罕有的情况下才出现;那我们便可以有信念地说,这不是巧合,该推断结果是具有统计学上的意义的。否则,就是推断结果不具有统计学意义。二、假设检验的基本思想——小概率反证法思想小概率思想是指小概率事件(Pα,α=0.05或0.01)在一次试验中基本上不会发生。反证法思想是先提出原假设(H0),再用适当的统计方法确定假设成立的可能性(P值)大小,如可能性小(P≤α),则认为原假设不成立,若可能性大,则还不能认为备择假设(H1)成立。三、原假设与备择假设原假设与备择假设是是完备且相互独立的事件组,一般,原假设(H0)——研究者想收集证据予以反对的假设;备择假设(H1)——研究者想收集证据予以支持的假设;假设检验的P值是由检验统计量的样本观察值得出的原假设可被拒绝的最小显著水平。假设检验判断方法有:临界值法、P值检验法。四、假设检验分类及步骤(以T检验为例)1.双侧检验I.原假设H0:μ=μ0,备择假设H1:μ≠μ0;Ⅱ.根据样本数据计算出统计量t的观察值t0;Ⅲ.P值=P{|t|≥|t0|}=t0的双侧尾部的面积;Ⅳ.若P值≤α(在右尾部分),则在显著水平α下拒绝H0;若P值α,则在显著水平α下接受H0;注意:α为临界值,看P值在不在阴影部分(拒绝域),空白部分为接受域。2.左侧检验I.原假设H0:μ≥μ0,备择假设H1:μμ0;Ⅱ.根据样本数据计算出统计量t的观察值t0(0);Ⅲ.P值=P{t≤t0}=t0的左侧尾部的面积;Ⅳ.若P值≤α(在左尾部分),则在显著水平α下拒绝H0;若P值α,则在显著水平α下接受H0;3.右侧检验I.原假设H0:μ≤μ0,备择假设H1:μμ0;Ⅱ.根据样本数据计算出统计量t的观察值t0(0);Ⅲ.P值=P{t≥t0}=t0的右侧尾部的面积;Ⅳ.若P值≤α(在右尾部分),则在显著水平α下拒绝H0;若P值α,则在显著水平α下接受H0;(三)T分布与T检验一、T分布若样本均数X服从正态分布2(,)XN,经过U变换XX,可以变成标准正态分布N(0,12),也成为U分布.实际工作中,由于总体标准差X未知,用样本标准差XS代替,则XXS不再服从标准正态分布,而是服从T分布:,1/XXXtnSSn其中,S为样本方差,n为样本含量,v为自由度。T分布只有一个参数——自由度v.v→∞时,T分布无限接近标准正态分布。T分布的图形说明:单侧概率(单侧尾部面积)用,t表示;双侧概率(双侧尾部面积)用/2,t表示;例如,t0.05,10=1.812,则P(t≤-1.812)=P(t≥1.812)=0.05t0.05/2,10=2.228,则P(t≤-2.228)+P(t≥2.228)=0.05二、T检验T检验,是一种参数假设检验,用来检验“单样本均数与已知均数、两独立样本均数、配对设计资料的均数”是否存在差异,这种差异是否能推论至总体。T检验适用于样本含量较小(比如n60,大样本数据可以用U检验),适用条件:①数据服从正态分布(做正态性检验);②满足方差齐性(即两样本的总体方差相等,做F检验);若满足①,②,可以尝试对数据做变量变换:对数变换、平方根变换、倒数变换、平方根反正弦变换等。正态性检验:(1)W检验,Shapiro-Wilk检验是基于次序统计量对它们期望值的回归而构成的。所用检验统计量为W,又称为W检验。在样本量3≤n≤50时使用。(2)D检验,Kolmogorov-Smirnov检验的统计量为D,所以也称D检验,在样本量50≤n≤1000时使用。假设检验H0:数据总体服从正态分布,H1:数据总体不服从正态分布。当P≤α时,拒绝H0,认为样本所来自的总体不服从正态分布;当P>α时,不拒绝H0,认为样本所来自的总体服从正态分布。F检验要求两样本数据的总体均服从正态分布,统计量F为为较大的方差与较小的方差的比值:21112222,1,1SFnnS假设检验H0:两总体方差相等;H1:两总体方差不相等。取α=0.10(α较大以减少II类错误),当P≤α时,拒绝H0,认为两总体方差不相等;当P>α时,不拒绝H0,认为两总体方差相等。(四)均值的T检验T检验“单样本均数与已知均数、两独立样本均数、配对设计资料的均数”是否存在差异。例如,检查学生成绩平均分是否在某个分值之上;比较同一老师教的两个班的学生平均分是否存在差异;正常饲料组和维E缺乏组大白鼠肝中维生素A含量的均值是否存在差异。T检验在SAS中用PROCTTEST过程步实现。一、单样本与指定均值基本语法:PROCTTESTdata=数据集H0=mu0options;VARvariable;说明:“H0=mu0”,对变量的均值与指定均值mu0(默认是H0=0),做T检验。原假设是μ=μ0.二、两独立样本的均值基本语法:PROCTTESTdata=数据集options;CLASSvariable;VARvariable;说明:CLASS语句指定分组变量,进行组间均值的比较。三、配对设计资料的均值基本语法:PROCTTESToptions;PAIREDvariable1*variable2;说明:配对均值T检验,是检验两个变量各数据的差的均值是否等于0.四、Options可选项(1)ALPHA=n指定显著水平α;(2)CI=type指定标准差的置信区间的类型,EQUAL(默认)为equal-tailed的置信区间,UMPU为基于一致最优无偏检验的置信区间,NONE不输出置信区间;(3)SIDES=type指定单侧、双侧检验,默认type=2为双侧检验,L为左侧检验,U右侧检验;五、绘制T检验的图形在TTEST语句中使用参数PLOTS=(绘图类型)即可。基本语法:PROCTTESTdata=数据集PLOTS=(绘图类型);可选的绘图类型:ALL或NONE——绘制全部图形或不绘制任何图形;BOXPLOT——盒形图;HISTOGRAM——直方图(包括正态分布、核密度线);INTERVALPLOT——均值的置信区间的图形;QQPLOT——QQ图;SUMMARYPLOT——在一张图中绘制直方图和盒形图;AGREEMENTPLOT——AGREEMENT图;PROFILESPLOT——PROFILESPLOT图;注意:TTEST过程步都默认绘制QQ图和SUMMARYPLOT图,配对T检验还默认绘制AGREEMENTPLOT图和PROFILESPLOT图。另外,指定绘制图形类型之后,那些默认图仍然会绘制,除非加上(ONLY):PROCTTESTdata=数据集PLOTS(ONLY)=(绘图类型);例250米女子自由泳的数据(C:\MyRawData\Olympic50mSwim.dat),变量包括姓名、决赛用时、半决赛用时:读入数据,用配对T检验考察决赛和半决赛用时有无明显差异。代码:dataSwim;infile'c:\MyRawData\Olympic50mSwim.dat';inputSwimmer$FinalTimeSemiFinalTime@@;run;procttestdata=Swim;pairedSemiFinalTime*FinalTime;title'50mFreestyleSemifinalvs.FinalResults';run;运行结果:程序说明:(1)总决赛用时与半决赛用时之差的均值为0.0850,其95%置信区间为[0.239,0.1461];标准差为0.0731,其95%置信区间为[0.0483,0.1488];(2)自由度为7的t值=3.29,P值=0.0133小于显著性水平α=0.05(P值在双尾部分“拒绝域”),故拒绝原假设H0.结论:两个均值不相同,其结果有统计学意义。