1统计功效与效应量华中师范大学心理学院刘华山一、统计功效(检验功效,效力,Power)统计功效指某检验能够正确地拒绝一个错误的虚无假设的能力。用1-β表示。或说:当总体实际上存在差异(备择假设H1为真),应该拒绝虚无假设时,正确地拒绝虚无假设的概率,或不犯β错误的概率。它表示某个检验探查出实际存在的差异,正确拒绝虚无假设的能力。在实验设计中,统计功效反映了假设检验能够正确侦查到真实的处理效应的能力。统计功效的大小取决于四个条件:1.两总体差异。当两总体实有差异越大,或处理效应越大,则假设检验的统计功效越大;(在α错误概率不变的情况下,1-β变大)2.显著性标准α:也称显著性水平,是一个特定的值,一个决策标准。通过p与α的决策比较,作出统计决策。而当假设H0是真实的时候,观察到的差异完全是由随机误差所致的概率称为观察概率p。显著性标准α越大,则β错误越小,从而统计功效1-β越大;反之,α变小,1-β变小3.检验的方向:当两总体差异一定,对于同样的显著性标准α,单侧检验比双侧检验的统计功效要大。4.样本容量。样本容量越大,样本平均数分布的标准误越小,分布曲线越瘦削,统计功效越大。◆单总体检验◆α错误的解释◆β错误的解释◆统计功效1-β◆决定统计功效的条件2二、效应量(效应大小,EffectSize,ES)效应量,反映处理效应大小的度量。效应量表示两个总体分布的重叠程度。ES越大,表示两总体重叠的程度越小,效应越明显。其实,两样本平均数的差异本身就是一个效应量。由计算出的ES大小,可由专门的表格中查出两样本分布的重叠的百分比。故效应量经常用两总体重叠的程度为指标,重叠的部分百分比越大,效应量越小。或以两个样本不重叠的程度为指标,不重叠的部分百分比越大,效应量越大。三、效应量检验的功能1.效应量有助于我们判断统计上显著差异是否有实际的意义已有统计显著性检验的条件下,检验效应大小的必要性:统计显著性与实际显著性的区别:差异的统计显著性、相关的统计显著性只是告诉你在特定的条件下,这差异、这相关系数是存在的、并不是完全由抽样误差造成的,但并不意味着这差异有实际意义。统计量是否显著,是在一定条件下取得的,这条件与与上述统计功效的条件是一致的。也就是说差异是否显著受几个条件影响:一是实际差异的大小,或处理效应的大小(从t检验的待检验的统计量t的计算公式上可看出);二是要求的置信度1-α的大小(或说是指定的显著性水平);三是样本规模的大小,四是检验的方向。在降低对做结论的把握的要求、增大样本规模的条件下,一个完全没有实际意义的差异或处理效应可以取得统计显著的结果。大样本比较容易获得统计显著性的结果,但这并不意味着差异是有意义的。例如如果有两个省的平均收入相差0.001元,由于样本规模达到几千万,这一微小差异在统计上一定是显著的。一个很容易的检测方法是在SPSS有关窗口下,将一套数据复制下来,再贴到原来的数据之后。这样以来,样本规模扩大了一倍。统计结果仍然保持原来的水平不变(数据的实际意义不变),但显著性水平得到了明显的提高。由于样本容量影响显著性水平,故即使统计检验显著,仍然应检查有实际意义的有关指标,如典型相关系数的平方所代表的典型变量之间的共享方差比例到底有多大,以判断其有无实际意义。反过来,统计不显著时,也许是因为样本容量太小。此时典型相关系数的平方仍然可以提供信息,以判断是否值得收集更多3案例来重新进行分析。2.在元分析中,将各个不同的相关研究进行概括分析的基础便是各个不同研究的效应量(的合成)。由于同类研究的各个具体研究的设计、因变量、数据收集方法、所用工具、样本容量很不相同,如何加以整合,以作出一个概化的结论呢?格拉斯(Glass,1976)提出以效应量作为估计值。APA出版手册第五版要求报告差异检验结果时一般要报告SE值。四、效应量和统计功效前述统计功效与两总体差异(或说处理效应大小)、样本容量、显著性水平、检验的方向性四个因素有关。而两总体差异大小与两样本分布的重叠有关。效应量恰恰表示两个总体分布的重叠程度。可见,效应量和统计功效有关。统计功效受效应量的制约。在检验方向、样本容量、显著性水平固定的条件下,效应量与统计功效有对应关系。见下表。【独立样本】表1在0.05水平下假设检验的统计功效样本容量效应大小0.20.50.8单尾100.110.290.53200.150.460.80300.190.610.92400.220.720.97500.260.800.991000.410.971.00双尾100.070.180.39200.090.330.69300.120.470.86400.140.600.94500.170.700.941000.290.941.00【此表反映了决定统计功效的几个因素:检验方向、样本规模、显著性水平、4差异大小(效应量)。】表中上栏中的3个数字为效应量,下栏对应的3列各数字为统计功效。从中可看出,在相同情况下(相同的检验方向、相同的样本容量,显著性水平),效应量越大,统计功效越高。其他项相同的条件下,样本容量越大,检验功效越高;其他项相同的条件下,单尾检验比双尾检验统计功效高。实际上当效应量较小时,而计算出的1-β越大,说明统计功效很高,即较小的效应量是对统计功效的严格检验。五、独立样本t检验的效应大小中,E.11除121-22112121221而是标准误公式本分布的标准误不是两平均数之差的样注意:是一限制。因为平均数对样本数据——,其中即以两样本自由度之和,本离差平方和之和即两样算术平方根,合成方差是两个样本合成方差的,而—XXpppPSSndf,ndfdfdfssssSSSXXES.的一部分。即公式部分的平方根。———中的————2)1()1(2)11(2)1()1(21222211212121222211nnsnsnnndfnnnnsnsnSEDX即2)1()1(21222211———nnsnsn上述效应量公式等价于2nnssssXXSE212121此公式的含义是以两样本平均数的差异用两样本的联合方差的平方根(联合标准差)去度量所得的量数,作为效应量的指标。【也应是Cohen’sd的一种?】从本公式中可看出:t检验公式中的),n,n(nnnn)nn(时2当11121212121其作用是:当样本容量越大时,)nn(2111越小,t越大,差异越显著。现在求Sp5公式中去掉了)nn(2111因子,等于是惩罚了大样本,消除了在效应量小的条件下,仅仅由于样本容量大而造成差异显著性高的情况。例:在大学一年级新生中选取10名双性化学生和20名非双性化学生,对他们施测自尊量表。10名双性化学生得分的平均数为,251=X离差平方和SS1=670;20名非双性化学生得分的平均数为,182=X离差平方和SS2=1010。问两组平均数有无差异?(设α=0.01)已知,251=XSS1=670;,182=XSS2=1010,则601991010670,240.116.5344.7416.5312010104474110670212122122221121=++=df+dfSS+SS=S==SS===dfSS=S,.==dfSS=Sp成方差为方差齐性,可以求合根据拇指原则,可以认进行方差齐性检验,得——22平均数差异的样本分布的标准误为所以无显著差异。--763.233.2318253)201101(60)11()28(201.021212=t==SEXX=t=+×=n+nS=SEpXD求效应量%8.44,90.060182521叠部分只有查表可知两样本分布重--pSXXES这说明由双性化与非双性化造成的差异还是较大的。2.Cohen'sd⑴指标12SSXXd2221216的方差21样本、SS的平均数21样本、XX222121,,即求效应量不用两样本的合成方差的算术平方根,而是用两样本方差的平均数的算术平方根。(2)指标2t-t检验值df-检验自由度当21nn时,变为2221-,nndfdftd此公式适用于提供了统计量t的情况。此式可以变形为212121nnssssXXd这与前述第一公式只有小的差异。(本公式分母中少了“减2”)Cohen(1988)定义d效应大小标准(解释)解释一d=0.2小d=0.5中d=0.8大解释二:用两个总体分布的重叠程度来解释附表Cohen’sd与两个样本分布的不重叠部分百分比Cohen的标准效应量PercentileStanding不重叠部分百分比(%)2.097.781.11.997.179.41.896.477.41.795.575.41.694.573.11.593.370.71.491.968.12121nndfnntd71.390.065.31.28862.21.18658.91.08455.40.98251.6大0.87947.40.77643.00.67338.2中等0.56933.00.46627.40.36221.3小0.25814.70.1547.70.0500.0【尝试解释:0.7为效应量,其含义是两个分布的对称轴【均数】相差0.7个标准分数,计算这个标准分数的标准差是联合方差的平方根。或说是处理组的平均数在控制组中的位置。0.76指上表中的百分位(PercentileStanding)(Whaiisthemagnitudeofd?Themeanoftreatmentgroupisthe___percentileofthecontrolgroup.),意为平均数大的样本的平均数在平均数小的样本分布中的百分位。含义8是,大的平均数压倒另一样本的76%个体的分数。图题OL%可能是重叠百分比,OL=Overlap.上表中最后一列为不重叠百分比(percentofoverlap)】3.Glass’estimatorgˊ221SXXg1X为处理组的平均数,2X为对照组平均数,2S为对照组标准差。本指标的使用范围同Cohen′sd指标。Glass认为:在几个不同处理均与控制组比较时,最好用控制组的标准差,这样就不会出现相同的均值因不同的标准差而出现不同的效应量.(1)实验组与控制组的标准差相差不大时,可以用本公式。(2)如果实验组与控制组的标准差相差较大,分母就要用实验组与控制组的联合方差的平方根来代换。4.Hedges'ĝ(1)指标1ĝ9nn4312nnS1nS1nXXg212122221121)()()(ˆ(2)指标2gwithinMSXXg21分母根号内为两独立样本方差分析中的误差均方。见下例。9Cohen's262864558900412SSXXd22222121.....6565415890041MSXXwithin21....gHedges'六、相关样本t检验的效应量1.差。是成对数据差值的标准均数,是成对数据的差值的平DDSDSDES,对照相关样本之差的检验的统计量,就知道SD的含义。10nSDtD同样,在检验方向、样本容量、显著性水平固定的条件下,效应量与统计功效有对应关系。一般说,统计功效、效应量、样本容量、显著性水平四个因素总是紧密关联的。它们还与检验方向有关。下表表明,当显著性水平一定时,效应量、统计功效、样本容量的变化方向是相同的。【相关样本,与前述表1不同】表统计效力、效应大小、样本容量的关系(α=0.05)样本容量效应大小0.20.50.8单尾100.090.320.66200.140.590.93300.190.770.99400.240.881.00500.290.941.001000.551.001.00双尾100.150.460.78200.220.710.96300.290.861.00400.350.931.00500.400.971.001000.631.001.00表中数字为统计功效。本表与上表格式完全相同,本表是适于相关样本的,前表是适于独立样本的