概化理论简介目录1引言2概化理论的产生背景及其发展3概化理论的基本概念3.1测量目标3.2全域分数的概念及其相关的假定3.3数学模型及相关的假定3.4概化理论的误差观点4概化理论的基本方法4.1概化理论研究问题的基本过程4.2概化研究(G研究)4.3决策研究(D研究)1引言在评价人的能力或某种素质时,必须使用科学的方法。对于测评工作,人们通常主要关注两个问题:其一,测验分数能不能有效地把应试者(被试)的真正水区分开来(体现在选拔性测评工作中),这种目的的测验称为常模参照测验(Norm-referencedTest)。其二,测评分数是不是应试者真正水平的一个恰当的体现(体现在达标性测评工作中),这种目的的测验称为标准参照测验(Criterion-referencedTest)。无论使用哪种方法,如何保证测评质量的问题是其首要问题。一般来说,保证测评质量的主要方法是控制测评误差。控制测评误差的方法主要有三种,即匹配或标准化技术、随机化技术以及统计调整的技术。标准化技术旨在从测量工作中各个环节上控制测量误差,使得“测量误差不会干扰被测目标群体内个体间先后顺序的排定工作。”随机化技术旨在控制测量的系统误差。统计调整技术则是把误差变量作为模型的参数来对待,从而清楚地了解误差变量对测量目标的影响程度,以便在一个可接受的误差范围内来解释测评结果。在各种控制测评误差的方法中,标准化技术用得最多。如在各种大规模的常模参照测验之中,以经典测验理论(ClassicalTestTheory,CTT)为指导,通过大量采用像托福考试一样的测验标准化技术,较好地控制了测评误差,达到了考试的目的。当然,这种方法付出了高昂的代价:费时、费力建题库的临时性的常模参照测验,以及所有的标准参照性测验来说,标准化方法很难实施。这就使得测量误差的控制工作变得十分困难,因此需要寻找新的方法。概化理论(GeneralizationTheory,GT或G理论)是一种能够同时达到区分考生与评估应考者真正实力之目的,并较好地控制测评误差的现代化测量理论。它控制测量误差的方法主要增加了统计调整技术。即,把干扰测验分数的无关变量或因素引入测量模型之中,然后用统计技术分别估计出这些因素或因素之间的交互作用对测验分数的影响程度。剔除这些影响后被试之间的真正差异便能得到非常清晰的显现,即达到了控制测评误差的目的。概化理论的基本原理是:首先运用实验设计的思想,分析影响测验分数变异的各种来源(如,被试水平的差异、题目的难度、评分者的评分标准等)。接着,运用方差分析的技术,分别估计各种变异来源对分数总变异所作的贡献(通常用方差分变量作为指标)。然后,根据不同的研究目的的需要,分别考察研究目标在测验总分变异中所占的比重。一般地,当侧量目标引起的变异所占的比重较大时,测量被看做是具有较高信度的。不过,测量信度的概念在概化理论中为概化系数(GeneralizabilityCoefficient)或可靠性指数(DependentIndex)所代替。概化理论一个突出特点是:对同一次测量,可以根据研究目的的不同提供多个测量信度。事实上,当测量目标发生变化(如,测量目标由被试水平改为评分者素质)时,或者当测量结果被推论的范围不同时,测量信度都会发生变化。其实,在各种各样的测评活动中,把测量结果概括到不同的程度,其测量精度是会大不相同的,二者之间存在着此消彼长的关系。即,测验分数推论的范围越大,其测量精度就会越小(测量误差增大,测量效度降低)。反之,测量精度就会提高,误差就会缩小。若要追求高标准的测量效度,测量误差就不能太大。而要减小测量误差,就必须缩小测验分数的推论范围。不过,若一味追求高效度,使得测验结果可解释或推论的范围过小,则又会影响整个测验的意义。在现实生活中,当这种误差落在我们可以接受的范围之内时,对测量结果的这种概括就有一定实用价值了。显然,我们应当寻找一个满意解,即,只要误差在能够容忍的范围之内,测验结果就应当概括到尽可能大的范围上去,进而满足测验目的的要求。在现实中,由于人们对这种有关测验结果的概括程度问题重视不够,所以给测量工作带来了许多问题。其中的一个常见问题是,仅仅根据有限样本上的资料作出无限范围的概括与推论,更没有指出作这种概括所犯的错误的概率。值得指出的是,概化理论是在继承CTT标准化技术和项目分析技术等方法的基础上,通过吸收实验设计的原理和方法,对真分数理论和参数估计方法等进行系统地改良而产生出来的,它是CTT的进一步发展,二者同属于随机抽样理论。事实上,在实验技术处理测量误差的三种方法中,CTT理论只用到了其中的标准化技术(含匹配技术)和随机化技术,而概化理论则在此基础上还应用了其中的第三种技术,即统计调整技术。另外,相对项目反应理论(ItemResponseTheory,IRT)而言,概化理论比较重视结论的宏观解释,而IRT更重视内部的实质关系,即,IRT更重视被试的潜在特质水平与试题的正确作答之间的实质性关系。简单地说,IRT在处理微观问题(即被试水平与答题目之间的实质性的关系)时优势比较明显。CTT在处理中观问题(如处理常见的标准化考试等)时显得方便易懂。GT则在处理宏观问题(如对结果作推论)时更显出色。三种现代化测量理论各有长短,也各有用武之地。概化理论的主要用途有:其一,根据不同的需要,对各种标准化测验提供多个更为恰当的测量信度估计,给测验一个正确和公正的评价;其二,对非标准化测验,准确地分析测量误差的来源并估计各种误差源对分数总变异的影响程度,为改进测验提供具体的有益信息;其三,同时估计出成套测验及其各分测验的测量信度,使得测验结果的解释更加准确和合理。2概化理论的产生背景及其发展当今测量学界最有影响的三大理论是经典测量理论(CTT),概化理论(GT)和项目反应理论(IRT)。前两者同属随机抽样理论,GT是对CTT的扩展和改进,而项目反应理论是从另外一个角度来分析每一个项目的项目特征曲线和项目信息函数。在GT理论产生之前,人们通常使用CTT对测量误差进行分析。CTT的理论体系由三部分构成,即关于真分数的假定,关于测量信度的理论和关于测量效度的理论。其方法体系包括题目分析技术和测验的标准化技术两大部分。其中测验的标准化技术主要包括题目编制的标准化、测验实施的标准化、阅卷评分的标准化以及分数的转换与解释的标准化共4个环节。CTT是标准化的理论支柱,在考试工作中发挥着重大的作用。其突出优点是:•理论和方法体系相对完整;•前提假设比较弱,很容易为实际考试工作所满足;•所涉及的数学模型以及参数的概念和估计方法容易被人们理解和掌握;•所倡导的标准化技术在控制测验误差等方面具有明显的效果,并已为许多人所认可。不过,CTT存在着许多先天不足,其主要缺点有:•第一,考生的能力参数严重地依赖于试题样本。•第二,对考生能力参数估计的精度指标不恰当。•第三,考试结果极易被人错误地推广到不恰当的范围上去。•第四,估计测量信度所依赖的经典平行测验假设在现实中无法满足。第五,题目参数严重依赖于考生样本。•第六,题目的难度参数和考生的能力参数定义在不同的量表上,不利于实现测验的预定目标。上述弱点限制了CTT的进一步应用。鉴于CTT理论存在的不足,测量的理论界和实践领域都呼唤一个全新的测量理论。正是在此背景下,GT理论应运而生。1963年,克龙巴赫等人(Cronbach,Ra-jaratnam,&Gleser,1963)在《英国统计心理学杂志》上发表了论文《概化理论:信度理论的丰富和发展》(TheoryofGeneralizability:Aliberazationofreliz-abilitytheory),这标志着GT理论的诞生,但正式提出这一理论的是Cronbach等人在1972年出版的《行为测量的可靠性》一书。到1983年,该理论开始走向成熟,各种术语等开始走向规范和统一,相关的计算机软件也开发成功。当年出版的布瑞南(Brennan,1983)的专著《概化理论纲要》以及相应的软件GE-NOVA,对GT理论的发展起了很大的推动作用。该书在1992年又被再版发行,同一时期,谢伟森和韦伯(Shavelson&Webb,1991)也出版了自己的专著:《概化理论入门》。2001年,布瑞南重新出版了《概化理论》专著,该书大量增加了不平衡设计和多元GT理论的内容,并同时推出了相应的软件包。随着研究水平的提高,GT理论的范围越来越大。目前,GT理论不仅被用于标准化的常模参照性测验,而且还被广泛用于标准性参照测验,非标准化测验,表现性评价等多方面,对教师的教学评价和人事测评中的面试均有直接的帮助。3概化理论的基本概念概化理论的基本概念主要有:①全域分数与测量目标②测量侧面与观测全域和概括全域或概化全域③相对误差与概化系数(G系数)④绝对误差与可靠性指数()⑤此外还有关于测量模式、设计结构、样本容量和随机平行测验假定,等等。3.1测量目标•在CCT中,测量目标(Objectofmeasurement)通常是指被试的某种潜在心理特质,但在GT中,测量目标不仅是被试的某种潜在特质,也可以是试题或评分者的某种特质。3.2全域分数的概念及其相关的假定•心理与教育测量的主要任务是用数值对测量对象(通常是被试)的某种潜在心理特质水平(测量目标)给予确定。CCT认为,被试的这种潜在心理特质水平用真分数(TrueScore)来刻画。而GT认为,测量对象的水平应该用全域分数(UniverseScore)来刻画。3.21全域分数GT认为,被试的潜在特质水平不能抽象地描述为真分数,而应根据决策的需要,把它置于指定的条件范围之中进行解释。事实上,每次测量工作所涉及的条件[或称影响测量结果的因素、侧面(facet)]是不尽相同的,研究者对测验结果的用途(即推论或概括的程度)也不尽相同。GT认为,测量工作的精确程度(科学性程度)取决于研究者获取行为样本数据时所涉及的条件个数、结构与性质等,也取决于结果的概括程度。GT不提真分数的概念,而提出全域分数的概念。即,在讨论被试的某种潜在特质水平时,必须同时指出这种水平是在何种测量条件下取得的,在根据行为样本的表现(得分)估计行为总体的水平时,必须同时指出测量条件样本是否也推论到了各自所对应的条件总体(全域)。这种把被试的某种潜在特质水平定义在具体的测量条件全域(范围)上的分数,就叫全域分数。3.22测量情景的描述既然在对行为样本推论行为总体时,要同时指出测量条件是否也从样本推论到了全域等情景因素之上,因此,GT对测量情景作了以下必要的说明。(1)测量侧面(facets)在说明测量情景时,最重要的是要明确有哪些因素(条件)会影响被试的得分。例如,在一次标准化的客观性测验中,因评分标准不会因人而异,所以评分者因素(条件)不会影响测验得分。但是,题目样本的代表性以及题目与被试间的交互作用等却会给测验分数带来重大影响。于是,试题这一影响因素(测量条件)就被定义为测量的侧面。因此,除了测量目标(如被试)以外,凡是会影响测验得分的条件因素都称之为测量侧面。这里测量侧面类似于数学中的维度,也相当于实验设计中的干扰因素。本例中只有一个面,即试题面。在实际工作中,测量侧面可能有若干个。例如,在面试工作中,通常就有两个面,即是试题面和平分这面。有时还能有更多的侧面。值得指出的是,测量目标并不应是被试,它也可以是试题或评估者,如,在考察普通话测试评分员水平时,可以录制10个有代表性考生的普通话测试录音资料,再让评分员一个一个来评分。这时,被试成了测量面,而评分者面转化为测量目标。即,GT可以根据研究的需要,自行确定测量目标。(2)观测全域与G研究和概括全域或概化全域与D研究在CTT中,当我们讨论被试水平时,通常是根据被试在某一特定条件下的作答表现(行为样本)来估计其真分数(行为总体)的。现在,GT进一步要求讨论测量面的条件样本与条件总体间的一致性程度。为了避免混乱,GT把测量面的条件样本所对应的条件总体改叫条件全域(Universal)。这里,测量面类似于数学中的维度,而全域