1BIGSAMPLESANDSMALLEFFECTS:LET’SNOTTRADERELEVANCEANDRIGORFORPOWER大样本和微成效:勿为研究说服力牺牲相关性和严谨性2题目:BigSamplesandSmallEffects:Let’sNotTradeRelevanceandRigorforPower实际背景:作者在工作中发现两个值得关注的趋势:Scholars’everincreasingabilitytogatherlargersamplesAnincreaseinremarkablysmallreportedeffectsamonglarge-samplestudies写作目的ToexploretheveracityofobservationsTooffersomesuggestionsabouthowtogoaboutmaintainingmethodologicalrigorandmanagerialrelevanceevenasincreasingthesizesofsamples.3一、谈论事实:Increasingpower,decreasingeffects二、开始思考存在的问题:TheresearchimplicationsoflargesamplesImplicationsofLargeSamplesforConstructMeasurementImplicationsofSmallEffectsforTheoreticalandManagerialRelevance三、找出解决方法:Recognizingpowerandhighlightingrelevance如何重新认识说服力——reportstatisticalpower如何说明相关性——reportstandardizedregressioncoefficientswherepossibleusespaceinDiscussionsectiontodescribetheimpactoftheindependentvariablesonthedependentvariable四、得出结论:sampleandeffectsizemattersagreatdeal4效应量名称:effectsize◆英文缩写:ES◆同义翻译:效应大小效应量是指由于因素引起的差别,是衡量处理效应大小的指标。与显著性检验不同,这些指标不受样本容量影响。它表示不同处理下的总体均值之间差异的大小,可以在不同研究之间进行比较。一般用于针对某一研究领域内的元分析中,经常见于心理,教育,行为研究等。其主要统计思路是指主要变量引起的响应差别除以相应的标准误差,这一相对量对估算处理效应很重要。常见的几种ES:a)两个平均数间的标准差异;b)分组自变量与个体因变量分数间的相关--相关效应大小。c)方差分析中处理效应的效应大小文中的Reporteffects以及第一部分提到的Effcets=?外部效度(externalvalidity)?(实验得出的结果推广到不同时空范围和不同研究对象的可能性)5Increasingpower,decreasingeffects一、抽取案例,观察样本量大小和averageeffectsizes的关系收集了过去两年(2007年和2008年)和更早的二十年(1987年和1988年)发表在“管理学杂志”上所有相关的定量研究。结果是,随着时间的推移发表总量的增加,在最近研究中的106个独立案例,只有57个来自早先时候,为了取得平衡,我从1989年增加研究,那年总共有86个更早的学术研究。6Increasingpower,decreasingeffects更早的学术研究平均只有300个观察值,相反最新的学术研究有7578个。如果我们去除三个非常大有超过75000观察值(其中有两个超过150000),在新的研究中平均值降到了3423,但是剔除这些大样本后,在不同群体之间的统计上的差异会更大。与同一时间段相比,当去除大的能够描述同样构建关系的相关性高的样本时,衡量相关性的平均效应值从22%跌到17%(averageeffectsizesasmeasuredbycorrelations(r’s)fellfrom.22to.17)7二、分析影响效应大小的因素通过调查手段进行研究,能产生更大的效应。(surveysgeneratedlargereffects)企业层面的研究由于严重依赖于初级的数据而非初级的调查,报告效应甚微。(firm-levelstudiesreportedsmallereffectsappearedtobetheirheavyrelianceonsecondarydataratherthansurveys)大样本研究中在样本规模和效应量间的整体相关性为-0.26(P<0.001),表明它们呈相反方向变化。(Althoughlarge-samplestudiesappearedtohavealwaysreportedsmallereffects—theoverallcorrelationbetweensamplesizeandeffectsizewas.26(p.001)—thenegativeimpactofsamplesizewassignificantlylargeramongthenewstudies.Increasingpower,decreasingeffects8三、为什么(Why)——statisticalpower如果样本量太小,很难确定结果的真实性或是否是误差引起的,所以统计上要求搜集足够多的样本。随着样本量的增加,样本误差会不断减小,所以当得出的effects即使很小,也能肯定结论。解释为何reportedeffects在变小最主要的原因在于统计说服力允许我们对于越来越小的effects更为关注(themostobviousexplanationforwhyreportedeffectsareshrinkingisthatournewfoundstatisticalpowerisallowingustoclaimsignificanceforsmallerandsmallereffects.)Increasingpower,decreasingeffects9大样本对研究的影响第一,肯定大样本的价值——increaseinourabilitytoidentifysmall,butimportantandreal,relationshipsthatwecouldnototherwisedetect.第二,质疑:在大样本下,容易忽视两个问题——对于结构效度放松警惕,把形式上的统计力量作为精确量度的有效替代品。误认为统计重要性=理论重要性或者管理重要性什么是效度呢?外部效度——实验得出的结果推广到不同时空范围和不同研究对象的可能性。实验研究结果发现的变量之间的因果或者相关关系,只有具备概括性或可推广性才称得上有价值。内部效度——研究者所判定的两变量间关系的可信程度。两者的关系:内部效度是衡量精确性的指标,外部效度是衡量概括性的指标。但是实验结果的精确性和概括性之间互有矛盾。为了达到精确性应当要人为地严格控制情境和外部变量,或多或少违背和破坏了事件发展的“自然状态”,越是精确,违背和破坏越多。这种“非自然状态”限制了实验结果推向现实世界的可能性。精确性越高,概括性越差。10建构效度(Constructvalidity)——一个测验实际测到所要测量的理论结构和特质的程度,是指实验与理论之间的一致性,即实验是否真正测量到假设(构造)的理论。结构效度最大贡献是可以用来提出和验证假设,是发展心理学理论的重要研究工具。其明显的局限性特别是当测验结果不能验证原来的构想时,不能确定是构想有错误,还是测验本身缺乏内容效度,还是实验设计有问题。(由此表明,结构效度更接近于“内部效度”)1112大样本对于构造测量的影响第一,从一个著名理论引出“结构效度与效应量”的关系在结构效度和效应量之间有一个广为人知的系统正相关关系。如果两个measures有用完美的validity并且样本无误,那么它们样本的相关关系等同于总体的effects。当样本量很少时,研究者会更加去关注结构效度。若不去关注结构效度会削弱效应值,降低发现重要结论和研究成果发表的可能性。在大容量样本中,即使有很差的measuredconstructs,统计上的数据依然会很漂亮。13大样本对于构造测量的影响第二,列举例子说明结构效度差,即使样本容易取得且样本量大,也不能很好地支持相关理论。大多情况下,研究员会仗着样本的量多而放松对measurement的标准,这忽视了判断我们的理论是否得到切实支持。例如,研发强度已经被用来衡量资产专用性以检验交易成本理论,用在衡量科研能力上以检验资源基础理论。研发强度既不描述研发项目的专用性,也不能解释资源使用有多少的产出率。研发强度仅仅测量了投入研发的财政资源的相关量。使用“研究和开发”来测量,原因在于它是巨大统计数据库能够获得的,并能获得统计意义上的重要effect;然而,由于缺乏结构效度,我们无法确信,得出的effect可以用来支持相关理论。14大样本对于构造测量的影响第三,拙劣的结构效度的影响妨碍知识的进步——大多数集中原则用大样本量多寡来衡量学术研究,因为量多样本较之于量少样本更能影响效应值的判断。如果量多样本研究使用缺乏有效步骤因而得到甚微效果,那么未来评价重要理论关系支持程度的尝试将对效应值的判断有所低估。15微效应对于理论和管理相关性的影响Whethertheeffectsarelargeenoughtopursuefurthertheoreticaldevelopment.对于未来的研究者们来说,effects是否有足够巨大的影响以推动未来的理论发展才是重要的问题。它是否值得花费时间和精力来构建理论体系?有的理论或许可以获得支持,但是它的解释力,或者说它所能观测到的效果却十分微弱以致于无法保证未来的进一步发展。Smalleffectsalsoraisequestionsaboutmanagerialrelevance.当样本变大而effects变小时,管理相关风险将仍然难以把握。组织是复杂的,会遇到各种突发状况,管理者不可能按照统计上的分析来进行管理。16重新认识说服力,着重突出相关性第一,如何重新认识说服力——reportstatisticalpower当数据充满说服力,我们有必要格外关注结构效度和相关性,重新认识统计上的说服力。为了知道合适的样本容量,研究者在研究计划阶段就要分析数据的说服力,向读者说明合适的样本容量是多少以及如何确定。17第二,如何证明相关性方法一:报告标准回归系数在结果环节的处理效应量,以便管理人员、研究者等可以直接根据回归系数判断。AddressthesubjectofeffectsizeintheirResultssectionsbyreportingstandardizedregressioncoefficients(betas)wherepossible.方法二:直接描述自变量对因变量的影响,这样会比较形象。DescribetheimpactoftheindependentvariablesonthedependentvariableinplainEnglish.18结论样本大小和效应大小至关重要注意构建效度既要关注统计上的显著性,又要关注理论体系和管理上的相关性ThankYouTheEnd.19