导言笔者连续撰写了三篇论文探讨测验等值和连接的概念、程序、应用以及存在的问题。第一篇文章(发表在《考试研究》2011年第1期)探讨了效度的核心问题,以及在命制试题和组卷过程中构建等值测试版本的重要意义。同时,介绍了等值和连接的主要概念和基本术语,概述了经典测量理论(CTT)和项目反应理论(IRT)。第二篇文章(发表在《考试研究》2011年第2期)重点介绍了连接和等值的取样及等值设计,并探讨了建立题库的步骤和基于CTT的等值方法。本文是这一系列的最后一篇文章,主要介绍基于IRT的等值方法,同时就当前教育测量中的多级IRT模型的使用、纵向量表化、计算机化测试以及等值误差四个重要问题进行简单讨论。本系列论文取材于《一名业界人士对等值和连接的介绍———经典测量理论和项目反应理论入门》(APractitioner'sIntroductiontoEquatingwithPrimersonClassicalTestTheoryandItemResponseTheory,Ryan&Brockmann,2009),是面向开发、维护和改进教育测量项目的教育工作者而作的,其目标读者群包括教育测量的用户、从业者以及负责教育测量项目的政策制定者。当然,对于其他想对连接与等值作一些基础的了解,从而更深入学习等值技术的人来说,这些论文也是非常实用的基础知识。笔者强烈建议读者参阅第一篇文章,其中阐述了这一系列文章的背景及思路。一、基于IRT的基本等值方法在应用IRT模型进行等值时,有一些基础概念非常重要,本文介绍IRT等值的目的就在揭示这些概念。IRT等值可以通过出现在两个或两个以上的测试中的一组题目(称为共同题),或者参加了这两个或两个以上测试的一组样本考生(称为共同组)来实现。在测量心理学上,我们可以认为随机等值组群就是同样的一群人去作不同种类的测试。本文主要介绍建立在共同题基础上的IRT等值方法,并简要说明这种基于共同题的等值的逻辑及基本做法是如何应用于共同组的等值。在共同题等值中常用的四种方法有:应用等值常数(applyinganequatingconstant)利用固定校正估计题目参数(estimatingitemparameterswithfixedcalibration)利用同时校准估计题目参数(estimatingitemparameterswithconcurrent/simultaneouscalibration)应用测试特征曲线法(theTestCharacteristicCurveprocedure,TCC)作为本文基础(也是在不同等值方法中使用的)的共同题(锚题),笔者认为有必要再进一步明确其主要特性,这在本系列论文的第二篇中已作过介绍了。这里就共同题的使用准则再作一个简要的回顾,即:……锚题组应该是能代表整份试卷的一个“微型版本”,锚题在试卷A和试卷B的位置(题号)应大致相同,试卷A和试卷B的锚题应该完全一样。不能修改文字、答案选项顺序、题目材料,也不能出现不同的提示语,或者做出其他任何可能影响考生在不同试卷中表现的修改。同时,如果条件允许的话,在使用选择题、简答题、延伸题等题型时,锚题组应该与整份试卷具有大致相同的比例。如果有读者想更加详细地了解基于IRT的等值,可以参考以下资料,如BestTestDesignTest(Wright&Stone,1979),Equating,Scaling,andLinking:2ndEdition(Kolen&Brennan,2004),EducationalMeasurement,4thEd.,(Brennan,2006),LinkingandAligningScoresandScales(Dorans,Pommerich,&Holland,2007),以及APractitioner’sIntroductiontoEquatingwithPrimersonClassicalTestTheoryandItemResponseTheory(Ryan&Brockmann,2009)等。1.应用等值常数进行等值在等值试卷和建立题库时,使用嵌入两份试卷中的共同题是一种十分高效且实用的方法。对于两份有待等值的试卷,此方法能够用来估计所需的“原点变化”(theshiftintheorigins)。笔者接下来会为读者说明应用等值常数进行等值时所要注意的基本原则和步骤,并以一个案例来示范如何使用单参数IRT模型(Rasch模型)通过等值常数进行等值。这一方法的逻辑与实际操作中的完全一致,而且通过一定的扩展与变化,这些原则就能够适用于大多数IRT等值的情况。当然,与该案例中使用的IRT模型不同,使用其他的IRT模型也可能得到精确度更高的等值结果。在具有共同题的两份试卷之间进行等值的第一步是对每份试卷的题目进行特征参数值估计,两份试卷的参数值估计要分别进行,并且所有题目的参数估计都是在不受约束的条件下进行。当然,这一步骤可以存在例外,例如,如果一份试卷已经与题库进行了等值,那就无需再对题库的题目参数值进行估计了。两份试卷所用的测试量表的原点是任意指定的,使用者可以将其定在任意一个方便的数值上。在对Rasch模型的大多数应用中,测试量表的原点通常都定为所有题目难度的平均值,通常是定在零点(0)上。这样一来,在我们所得到的测试量表上,所有比平均题目难度容易的题目就会呈现负题目难度,比平均题目难度难的题目则会显示为正题目难度。在开始介绍应用常数进行等值的案例之前,有必要强调的是,在大多数IRT的应用中,量表的原点都可以定在任何一个方便的位置上。有时,我们会使用某个年度测试中第一份试卷的参数值来规定原点。而在另外的情况下,我们可能把达到某一成绩水平(如“熟练”)所需要的学生能力作为量表的原点,当然也可能使用学生能力的平均值。使用不同的原点可以轻易地对量表进行改变,由此可以调整量表变量。图1所示的是一份虚拟的试卷X,共有20道题目。其中A、B、C3道题是锚题,也是另一份试卷Y中的共同题。另外17道题目在试卷X中有而在试卷Y中没有。图1中所示的3道共同题都位于原点(0)的左侧,也就是说这3道题的难度都低于试卷X的平均题目难度。图1试卷X中3道相对较易的共同题图示由于3道共同题在全部20道题目中属于相对容易的,因此试卷X中其余17道非共同题的平均难度肯定要高于A、B、C组成的共同题组。由图1可知,题目A、B和C的难度估计值分别为-1.5、-1.0和-0.5,3道题的平均难度要比试卷的平均题目难度低1.0。图2是另一份虚拟的试卷Y,题量为20题。在这个例子中,除了由题目A、B、C组成的共同题组外,另外17道题目都与试卷X中的题目不同。在图2中,3道共同题都位于原点(0)的右侧,也就是说它们的难度相对于整份试卷的平均题目难度要更高一些。图2试卷Y中3道相对难的共同题的图示在试卷Y中,3道共同题在全部20道题目中属于相对较难的,因此试卷Y中其余17道非共同题的平均难度肯定要低于A、B、C组成的共同题组。由图2可知,题目A、B和C的难度估值分别为+0.5,+1.0和+1.5。那么,这3道题的平均难度要比整份试卷的平均题目难度高出1.0。表1共同题难度分析与等值常数计算表1列出了试卷Y和试卷X中题目的难度,以及两份试卷中难度估计值上的平均差异。对试卷X和试卷Y中的题目进行等值的关键在于要理解:由于两份试卷中共同题的平均难度的计算与仅在该份试卷中出现的其他题目的难度是紧密相关的,所以两份试卷共同题的平均相对难度是不同的。在表1所示的例子中,我们把试卷Y当做原点,此时只要将试卷X的分数量表调整两个单位就可以等值到试卷Y的量表上去。当然,以Y作为原点是任意确定的,我们也可以把试卷X的量表作为原点。共同题的难度平均值由试卷Y中的+1.0变成了试卷X中的-1.0,这里有两个单位的差距。试卷X和试卷Y中其他题目在难度上的不同造成了共同题平均难度上的变化,这个变化值也就是把试卷X等值到试卷Y的量表上所需要作出的调整量,即等值常数。上述案例中的等值常数是+2.0。当我们把这2.0的等值常数加到试卷X的难度值上以后,就可以得到一个共同的量表,这个共同量表的原点是试卷Y,共有37道题目分布在这个量表上,其中包括3道共同题、试卷Y独有的17道题目以及试卷X独有的17道题目。等值的过程如图3所示,对试卷X作出+2.0的调整以后,3道共同题的难度就和试卷Y中的难度一致了。图3调整试卷X以使两份试卷的共同题对齐通过调整,试卷X中锚题的平均难度现在也是+1.0,也就是说与试卷Y中的共同题平均难度相等(即实现了等值)。更为重要的是,通过对共同题之间难度差距的调整,试卷X中所有的题目都等值到了试卷Y的量表上去。图4所示的即是这一过程的最终结果。图4两份试卷通过共同题等值到同一量表上在这个图中,试卷Y被确定为量表的原点,试卷X则进行了+2.0的调整,这样一来共同题的平均难度就相同了,试卷X和试卷Y得以等值,两份试卷中所有的题目都出现在同一量表上,其中包括试卷Y独有的17道题目、3道共同题和试卷X独有的17道题目。笔者用上述案例说明了应用等值常数对有共同题的两份试卷进行等值的基本过程,这是一个经过简化的案例,目的是为了使这些基本过程看起来更加清楚。然而,在实际应用中这一案例是不切实际的,要想把这个案例中的方法与实际情况相结合,需要明确以下几点:不同的试卷不能仅通过3道共同题就进行等值。我们很难具体地规定一个共同题的数量或者比例,但是在通常的实际操作中,一份题量约为40~60题的试卷,至少要有15~20道共同题用来等值。像案例中试卷X和试卷Y这样难度差别较大的试卷,只能在某些特定的情况下才能进行等值或连接,如跨年级(纵向)连接,或是对大范围的群体能力进行等值等。在命制试卷时,共同题一定要在更大范围内选择,覆盖整份试卷不同难度的题目,而不能像案例中那样。只要有可能,共同题组应当尽可能地涵盖易、中、难等各个难度层次的题目。此外,共同题组还应该能体现整份试卷的内容和题目形式。或许有一些题目单独放在试卷X或试卷Y里能发挥很好的作用,但并不意味着其可以作为对两者进行等值的共同题。在检验某些题目能否成为好的共同题时,有大量可用的相关程序。此外,当一道题目被用作连接题目时,一定要就其可靠性和稳定性进行测试。稍后笔者会详细阐述这个问题。在上文中笔者使用了一个虚拟的案例来说明等值常数的应用过程,在这个案例中两份试卷之间有一组共同的题目。当我们从题库中抽取出这组共同题,再将其应用到另一份试卷中去时,依然还可以直接使用上文的方法进行等值。如果我们能得到一组共同题的题库参数值,就可以将它们当作量表的原点,而把其他试卷中题目参数值不明的题目都等值到题库中去。表2显示的是在实际测试过程中应用等值常数方法的结果。在这个案例中,我们从题库中提取了一组数量为13道题目的共同题组。在2008年的测试中,这13道共同题和另外27道题目共同组成了一份40道题目的试卷。研究者的任务是应用Rasch模型,将27道新题目等值到题库的量表上去。步骤1:表中第一列说明的是试卷中共同题分布的位置,我们可以看出共同题广泛分散在整份试卷中。步骤2:如第二列所示,2008年的试卷经过校准,所有的题目难度值都进行了估计。试卷中共同题的难度平均值是-0.382,说明共同题组相对于试卷中其余27道题目来说偏容易。步骤3:第三列是13道共同题的题库难度值,此时其难度平均值为-0.254,这说明相对于题库中其他题目,这组共同题也更容易。步骤4:第四列是2008年试卷中共同题的平均难度与其题库平均难度的差值,这一差值的平均值为-0.128,即是我们要的等值常数。步骤5:将2008年试卷的题目难度值减去这个等值常数,就可以把2008年试卷的量表等值到题库量表上去。第五列中所示即是调整后相应题目的题库难度值。步骤6:将调整后的题库难度值(第五列)和其原始的题库难度值(第三列)对比,得到的差值即是第六列中数值。表2等值常数分析的结果当用调整等值常数的方法进行试卷间的等值,或者将一份试卷等值到题库中去时,我们可以通过评估