假重复和野外生态学试验的设计摘要:假重复是指“进行推论统计以检验处理效果时,使用的数据来自于未设置重复的试验(尽管可能存在多个抽样)或者来自于虽然存在重复但统计上不独立的实验”。在方差分析中,它是指使用不适宜假说的误差项来检验处理效果。通过查看1960~1984年发表的176个试验研究,我们发现在全部试验中有27%,或者说在使用统计检验的文章之中有48%存在“假重复”。在研究海洋底栖生物和小型哺乳动物时,假重复的发生率特别高。本文总结了控制试验的关键特性。“偶然事件干扰”(Nondemonicintrusion)是指在一个试验进行中偶然事件的影响。作为对偶然事件干扰和渐变干扰的预防,处理的布局被认为是良好试验设计的必要特性。尤其是在小规模试验中,有时仅通过避免严格的随机化程序就能保证恰当的试验布局。区分预布局(或常规)和特定布局可以辅助理解试验布局和随机化之间的冲突(I类错误:即本来零假设是正确的,而根据样本得出的统计量的值落入了拒绝域,根据检验拒绝了正确的零假设)。本文章为统计人员和生态学学术期刊的编辑加深对试验设计的理解,同时也提出了改善这个问题的建议。没有人会想到通过比较2个试验组(一个处理,一个未处理)来检验对一个试验处理的响应。-R.A.Fisher&J.Wishart(1930)野外生态学试验(通常)要么没有重复,要么只有很少的重复,因此不能很好的解决问题……-L.L.Eberhardt(1978)我不知道为什么一些人提倡一个不受欢迎的原因,除非这个人是被刺激过的或没用的。-BertrandRussell(Clark1976:290)简介下面的论述是批判生态学家们如何设计和分析他们的野外试验的。也可以作为一个试验设计的勘探基础。我的方法是:(1)讨论一些常见的试验方法和统计误区,(2)引用大量的研究,对这些问题进行举例,(3)提出一些现在缺乏特定分类的新的术语和概念,(4)提倡将处理布局作为一个好的设计的必要特点,(5)给编辑一些可以很快的改善这个问题的方法。我认为大多数关于试验设计或统计方面的书籍,根本没有或者只有一些简单的基础,极少有关于设计错误的实验的例子以及关于种群、群落或生态系统水平的系统的实验方法的例子。以技术数学和机械方面为主题的书占据大部分,这是应当的,但它们也只是分散在那些只寻基本原则的书中。我在这里省略所有数学的讨论。引用特定研究对本文的有效性是至关重要的。避免提及具体的负面例子相当于放弃一个强大的教学法。过去的评论太过于礼貌甚至是歉意的,以下例子可以说明:野外试验中还有很多要改进的地方。关于正确的方法我将列出我的观点,而不是批评特定实例……(Connell,1974)在此综述中,作者通常避免批评实验设计、缺乏研究性的引用以及结论中作为结果的统计缺点,这足够说明大多数研究在这些方面是有缺陷的。(Hurlbert,1975)当我写我的评论时,我似乎只挑剔细节,这必然会有被大家责骂的总效应……我希望那些我作为例子引用的作品会原谅我。我真诚地欣赏这些论文的质量……(Hayne,1978)在查阅的151篇论文中,遇到了一些常见的问题……这些讨论对于个人的论文可能是不利的甚至是不友好的……(Underwood,1981)因为我在这里既不是匿名的批判也不是盲目的赞赏,我只是表明一个显而易见的事实——调查的质量不仅仅取决于良好的试验设计,所以良好的试验设计本身并不能保证研究的价值。本评论不评估任何作品的总体质量。他们中的大多数,尽管有设计或统计数据上的错误,然而都包含有用的信息。另一方面,当评论人员试图通过特定领域的研究而强调评论的积极性时,他们的选择有时似乎是不合适的。例如,Connell(1974)引用了Boaden(1962)的“控制野外试验的最好例子之一”;和Chew(1978)引用Spitz(1968)的“关于植物对小型哺乳动物捕食的反应的最好例子”。然而两篇被引用的文章的实验处理都没有设置重复,因此两个实验都不受随机因素的控制(Spitz,1968)。此外,误用统计、处理重复的样方就犹如它们代表了重复的试验单位。这里所提出的新术语都是精心挑选的。也许数学统计学家会认为他们是不雅的,但我觉得他们至少对生态学家以及其他与试验设计有关的人是有帮助的。统计和试验设计是一个词汇贫乏的科目。这篇文章的大部分是关于一个统计学家称之为“随机化”、“重复”、“独立”或“误差项”的问题,但这些概念可以应用在一个试验中的许多方面,他们以不同的方式运用到不同类型的试验中。例如,在设计试验中,重复可以在不同的层次(如楼群、试验单位、样本、亚样本等)上设置,在许多时候重复可能是多余的或可做可不做的,但通常有至少一个试验单位的重复是必须的,至少在假设显著性测定中会使用。同样的,术语“误差”是用于许多不同地方或概念的的简单方法,包括:I型和II型错误、随机和试验者引起的系统误差、组内的变异,样本中的变异,p和x的差异,等等。稍微扩大词汇量,尤其是为各种类型的错误提供术语,就可以为我们提供方便。我从初级水平开始讨论,假设读者已经有相当于一学期课程的统计基础,但没有试验设计的基础。事实上,用这种方法会使整个文章显得太初级而不像生态学家写的。但是我希望我的前提和论点是明确、清晰的,如果有错误也是易于被攻击的。并且,这是试验设计的基本原理,而不是先进或深奥的以及频繁和严重违反了生态学家的东西。试验方法一个试验有五个组成部分:假设、试验设计、试验执行,统计分析和解释。显然这个假设是最重要的,因为如果假设按照的一些“标准”不是‘好’的,甚至一个做的很好的试验都是没有什么价值的。试验设计也就是“试验的逻辑结构”(Fisher1971:2)。一个试验目标的完整描述应该指定试验单位的性质,数量和处理的类型(包括“控制”处理),测量的试验单位的属性或响应。一旦这些已经决定,一个试验设计就明确了哪个试验单位怎么处理,试验单位的重复数目。试验单位的物理布局。什么时间对不同的试验单位怎么处理。一个试验的执行是试验设计中所有步骤和操作的实施。成功的执行取决于试验者的艺术性、洞察力和良好的判断力,以及他的技术技能。当眼前的目标是简单的技术操作行为的试验时,想要成功的执行试验者就要避免引入系统误差(偏见),减少随机误差。比如说检验DDT的影响,那么DDT必须不能含有硫、磷。如果检验一个潮间带的捕食者的效果,通过使用排除笼子来检测,那么笼子必须在系统变量中除了捕食者外没有直接的影响。如果研究营养对池塘浮游生物的影响,必须用相关设备对其进行取样,此技术不依赖于浮游生物丰富度。如果在处理、取样或测量过程中出现试验误差,试验将是无效或不确定的。试验单元之间的异质性到什么程度是允许的或者可行的,或者在试验过程中环境因子的调节限度也存在主观判断的问题。这些决定会影响随机误差的大小和试验的灵敏度。他们也会影响到具体的结果解释,但他们无法通过自身影响试验的形式有效性。从前面所讲的来看,很明显,试验设计和试验执行对一个试验的有效性和灵敏度具有同等的责任。然而在实际意义上,相对于设计而言,执行是一个试验更关键的方面。在试验执行中的错误通常在试验中以更大数量的形式出现,这往往比设计错误更精细。因此,,对试验者和其报告的读者而言,执行错误一般比设计错误更难被发现。正是由于这些未被发现的或发现不了的潜在错误的影响,试验的执行才至关重要。尽管执行错误作为问题的来源有很重要的地位,但在这里不再对其做进一步考虑。在试验工作中,统计学的主要功能是使统计数据清晰、简洁及客观,给出结果并解释。统计分析和解释是试验最不重要的方面,如果只是纯粹的统计或解释所犯的错误,这些数据可以被再分析。另外,对设计或执行错误的唯一完整的补救是做重复试验。测定性试验试验可以分为测定性试验和控制性试验两种。测定性试验只涉及一个或多个点在空间或时间里的测量,空间和时间是唯一的“试验”变量或“处理”。测试的重要性可能不会被认可。测定性试验通常不涉及对试验室试验人员的一些外部因素的强加。如果他们确实涉及这样一种强加(比如,比较了高海拔的橡树与低海拔的橡树对试验中落叶的反应),所有试验单位将被视为一样的)。例1。为了确定在湖底1米深处槭树叶分解速度,我们做了八个尼龙网小袋,每个都用槭树叶填满,将它们以小组形式放置在水下l米等深线处。一个月后检查这些袋子,测定每个袋子中有机物质量损失了多少(“分解”),并计算平均分解率。就实验本身而言这个过程是令人满意的。然而,他没有注意到沿着l米等深线从一个点到另一点分解速度会有不同的信息;平均速度可以用八个叶袋计算。概括关于“在湖的l米等深线的分解率”这是很草率的。仅仅由于测量过程很复杂,这样一个过程通常就被称为试验,经常涉及系统的干预或“刺激”。如果我们在无脊椎动物试验中测量了八个温度或八个海泥样本,很少人会认为这些过程和他们的结果是“试验”。语义改革上的努力将是徒劳的。从历史的角度看,“试验”总是以“困难”、“复杂”和“干涉”作为其共同的含义,并不可避免地将会继续这样。这个测定性试验可以帮助我们记住其和控制试验的区别。区别主要是,在抽样和狭义的试验中,关于测定性试验的设计的建议在大部分的书籍中是可以找到的,如抽样技术(Cochran1963)或进行普查和调查的抽样方法(Yates1960),而不是在书中以单词“设计”为标题。可以比较的测定性试验例2。继续使用例1的例子,测试槭树叶的分解率在一米和十米的等深线下是否相同。我们在一米等深线设置八个叶包,在十米级等深线设置另外八个叶包,一个月后取回,并获取数据。然后我们用统计分析(如T检验或U检验)来看看这两个位置是否有显著差异。我们可以称之为一个比较测定性试验。虽然我们使用两个等深线(或“处理”)和显著性检验,我们仍没有进行真正的控制试验。我们仅仅是测量一个系统的两个点的特性并观察在它们之间是否有一个真正的差异(“处理效果”)。在示例1中为了实现我们的目的,也许这八个袋子在一米等深线下的任何类型的分布都是足够的。在示例2中,然而,我们已经表明我们的目标是两个等深线下槭树叶分解率的比较。因此我们不能把每个等深线的树叶包放在一个单一的地点。这将不会给我们任何关于沿着每个等深线分解率从一个点到另一个的变化的信息。我们需要在能妥当地运用推理统计学来测试前,知道我们的零假设(两个等深线的分解率相同)。所以在每个等深线必须安放合适的叶包。有许多方式可以做到这一点。每个等深线的位置最好是随机挑选的,但树叶包可以单独放置(八个地点),一组两个(四个位置),或一组四个(两个位置)。此外,我们可能会决定这仅仅足以处理沿着湖的一侧的等深线,等等。确保野外样品或测量是分散在空间(或时间)里的。用适合特定假设被测试的方法,是测定性试验设计中最关键的方面。在测定性试验里的假重复例3。由于懒惰,我们把所有八个包放在每个等深线的一个位置。它仍将是适用于结果数据的有意义的测试。然而,关键是在这个试验中,如果一个“碰巧”是在lm等深线处的一个点,第二个“碰巧”是在十米等深线的一个点,有显著差异,这两个位置(点)之间差异构成证据。这样一个显著的差异不能被合理地解释为是两个等深线间区别的证据,即,作为“处理效果的证据”。我们都知道,如果两套八个袋子被放置在同一个等深线的两个点,这种观察到的重要区别是不会大于我们的发现的。如果我们坚持将有明显区别的例子3作为“处理效应”或等深线间的真正区别来解释,然后我们说假重复术语。在方差术语分析中,假重复被认为是假设有误差项的处理效果的测试。在例3中,基于八袋在一个位置的误差项是不恰当的。一般在测定性试验中,假重复往往是由于实际的采样或测量的空间比隐含在被测试的假说中的推理空间小或者更受限制在控制试验中,假重复通常是因为使用推论统计来检测处理效果的试验数据有问题,这些数据要么处理并不重复(尽管样本可能)或重复在统计上不独立。假重复因此指的不是在试验设计(或抽样)中的一个问题,而是试验设计(或抽样)统计分析的一个特殊结合,该统计分析不适合测试假说的重要性。假重复现象是在测定性试验和控制试验两种文献中广泛存在的。它可以以许多形式出现