当前位置:首页 > 商业/管理/HR > 经营企划 > 认知诊断测验编制的原则
认知诊断测验编制的原则2011-01-03来源:摘要:Tatsuoka给出的实例表明,不同知识状态可能对应同一理想反应模式,即对知识状态产生误判。如果不是对测验进行事后分析,找出属性及层级,而是采用Leighton等人所倡导的方法,在认知诊断测验编制之前确定所测属性及其层次,导出可达阵,这时可以证明只要将可达阵作为认知诊断测验蓝图的一部分,则可避免这一问题。这一原则不仅对认知诊断测验蓝图的设计有指导作用,而且对制定有认知诊断功能的计算机化自适应测验的选题策略有着重要的参考作用。关键词:测验蓝图;认知诊断;可达矩阵;理想反应模式;计算机化自适应测验1.引言通常把对个体知识结构、加工技能或认知过程(均简称为属性,attribute)的诊断评估称为认知诊断评估或认知诊断(cognitivediagnosisassessment/cognitivediagnosis,CDA,LeightonandGierl,2007.)[1]。一般的教育考试,特别是大规模的考试,只提供考试分数或能力分数。然而由单一的分数,既不能得到被试具体掌握或未掌握什么知识的结论,也不能得到被试做错试题的原因,以进行补救;对于相同分数的个体,更无法得到他们之间可能存在的知识状态和认知结构的差异。传统的考试提供的信息已不太适合个体发展的需要,认知诊断评估的主要任务是挖掘更多的认知加工信息。Leighton和Gierl(2007)[1]认为认知诊断是用于测量/评价个体特定的知识结构(knowledgestructure)和加工技能(processingskills)。CDA通过测验获得被试在测验上(可观察)的反应而推知该被试不可观察的知识状态(knowledgestate)。Leighton和Gierl(2007)[1]在他们所编写的书第一篇文章(p.3)称CDA仍处于萌芽状态(CDAisstillinitsinfancy),表明对CDA的研究,包括认知诊断测验的构造都是新的课题。Gierl(2007)[1]在注释(p.337)中又指出,认知诊断测验设计是一个重要的研究领域,而已有的相关研究成果却很少,连Downing和Haladyma编辑的由Erlbaum在2006年出版的测验编制手册(Handbookoftestdevelopment)中也没有相应的章节涉及认知诊断测验编制,甚至找不到认知诊断评价的主题词条(subjectentry)。Gierl(2007)[2]还认为只有Gorin(2007)[1]描述了认知诊断测验编制的原理。认知诊断测验的编制是一件具有挑战性的任务,限于篇幅和本文主旨,这里不讨论如何与命题专家沟通,打磨出好的试题的问题,而集中讨论认知诊断测验蓝图的编制问题。在讨论认知诊断测验蓝图的编制问题之前,我们先看两个例子,一个是简化的用以解释原理性的例子;另一个是规则空间模型(rulespacemodel,RSM)的开创者Tatsuoka(1995)给出的例子[2][3][4][5],用以说明实际工作中考虑不周就很有可能编制出有问题的诊断测验。下文中理想反应是指既不猜测也不失误的作答反应,只有被试掌握了项目所测的所有属性,才能正确作答。属性层级方法(attributehierarchymethod,AHM)[6][7][8]中称理想反应为期望反应模式;确定性输入,噪声“与”门模型(deterministicinputs,noisy”and”gatemodel,DINA,如可参见Henson&Douglas,2005[9])中的理想反应模式具体计算公式见附录1(其实,差不多所有理想反应模式都可以这样计算,当然也可以用丁树良等[10]介绍的方法计算)。由附录1中具体计算公式可见理想反应模式十分重要,其实理想反应模式对诸如RSM,AHM等许多认知诊断模型都十分重要。对于诊断测验,在既不猜测也不失误的理想作答反应情况下,具有不同知识状态的被试对应不同的理想反应模式,则称为理想的认知诊断测验;否则称为理想反应误判的认知诊断测验。若具有不同知识状态被试对应相同的理想反应模式,则称这些不同知识状态为等价类。实际上,这个等价类是由测验蓝图(测验Q阵)决定的,称为知识状态中由测验Q阵决定的等价类。我们希望有测验Q阵,使得每个等价类中仅仅有一个知识状态。例1.三个属性A1,A2,A3,它们彼此之间不存在先决关系(prerequisiterelation)。于是属性之间的可达阵R为三阶单位阵I。今给出三个项目作为诊断测验。注意被试的知识状态共有8种,即α1=(000),α2=(001),α3=(010),α4=(011),α5=(100),α6=(101),α7=(110),α8=(111)。如果上述8种被试分别参加测验蓝图为Qi(i=1,2,3,4)的认知诊断测验,则对于Q1,α1,α2,α3,α5的理想反应模式均为(0,0,0),即理想反应模式为(0,0,0)的模式其潜在知识状态可能为α1,α2,α3,α5,此时如果根据其所有理想反应模式来判断其知识状态,误判率为3/8;上例中α1,α2,α3,α5是Q1决定的等价类;对于Q2,α1,α2,α3,α4为一个等价类,理想反应模式均为(0,0,0);而α5,α6为另一个等价类,理想反应模式均为(1,0,0),即误判率为4/8;对于Q3,α1,α2的理想反应模式均为(0,0,0),α3,α4理想反应模式均为(0,1,0),而α5,α6为第三个等价类,理想反应模式均为(1,0,0),即误判率为3/8;但对于Q4却不带来任何误判。例2.Tatsuoka(1995,P.337)[4]给出了小学分数加减的认知诊断测验,测验共含9个项目,依Tatsuoka的事后(posthoc)分析,即通过对测验后的得分矩阵进行分析,得出5个属性,属性完全相同的项目仅保留一个。如第五题:7121+和第六题:2131+都是检测通分(A3)和分数相加(A4),即T)(00110,只保留第五题;而第四题442221+与第八题423631+均检测了所有五个属性,也应归为一类,即T)(11111,只保留第四题(本文中xT表示向量x的转置),于是仅剩下7类项目,组成一个5×7的Q阵。这里的Q阵与Tatsuoka给出的有不同,因为她给出的Q阵有笔误,比如第七题只涉及分子相加(A4),即T)(00010,而不像Tatsuoka所标定的为“答案化简”,我们对这些笔误进行修正。最后修正的Q阵,它不含相同的列。然而这个Q阵可能导致对知识状态的误判,比如根据所测属性及其层次关系,有两个被试的知识状态分别为α1=(0,0,1,1,1),α2=(0,1,1,1,1),它们导出的理想反应模式却相同,都等于(0,1,1,0,1,1,0)[8]。这个例子说明一个很严重的问题:Tatsuoka(1995,p.328)[4]希望规则空间模型(Rulespacemodel,RSM)中的Q-矩阵理论,能够起到桥梁作用——将可观察的反应向量对应到不可观察的知识状态。现在至少有两个不同的知识状态(例如α1,α2),居然对应到同一个理想反应模式,即这个等价类中至少含有两个知识状态。此时如果我们观察到这个理想反应模式,以此来诊断其隐藏的知识状态,我们难以判断隐藏的知识状态到底是α1,还是α2。这时完全可能产生误判。我们称不同知识状态对应同一理想反应模式的现象为对知识状态的误判。Tatsuoka(1995,pp.341-342)[4]以实例说明属性掌握模式(即被试知识状态)和理想反应模式并不是一一对应的,而是多个属性掌握模式对应同一个理想项目反应模式(idealitem-responsepattern)。这种现象对于被试的归类是很不利的,同时也说明Tatsuoka提供的方法存在一定的问题。由于认知诊断测验蓝图直接影响CDA的分类效果,下描述了CDA最为核心的过程,其中,sQ是由可达阵R导出的Q阵,称为被试Q阵,这时sQ的每一列都代表了“一类”知识状态(knowledgestate),表示一个测验中项目与属性关联关系的的Q矩阵为测验Q矩阵,记为tQ,显然tQ只是sQ的某一部分,即tQ是sQ的子矩阵(sub-matrix)且不含相同的列[10];α是知识状态,η是理想(期望/潜在)反应模式,f--1是f的反函数,此时要求f本身是一一映射[9]。后半部分由试题性质、被试动机或一些随机因素等决定,因此要提高CDA分类的准确性,关键取决于前半部分。如果一映射(|)stfα∈QQ使得集合sQ中的不同列(称为sQ中的元素)在理想反应模式集合η中有相同的象,则分类较为模糊——只能分到相应的等价类中。如果能够编制一测验蓝图tQ使得对应关系(|)stfα∈QQ对于集合sQ中的任何一个元素,在集合η中都存在唯一的一个元素与之对应,则可以通过求对应关系的反函数,达到对反应模式的比较准确的分类。我们希望对任何一种属性层级,都能如例1一样,构造出相应的测验蓝图,使得属性掌握模式(知识状态)与理想反应模式一一对应。本文探讨将可达阵作为测验蓝图的一部分对提高认知诊断准确率的关系;要对认知诊断测验编制进行讨论。第2节讨论认知诊断的逻辑顺序以及测验蓝图的编制,第3节讨论上述结论中的应用,即对测验编制的指导作用和对有认知诊断功能的计算机化自适应测验选题策略的制订的指导作用;第4节进行MonteCarlo模拟研究,以讨论“将可达矩阵作为(或不作为)测验蓝图一部分”时的误判率大小;并验证第2节的结论。第5节是认知诊断测验编制的相关问题的进一步讨论。另外,我们给出一些附录,主要是想正文枝蔓不要太多而妨碍文章的主要结论,增加文章的可读性。2.认知诊断测验蓝图的编制Tatsuoka(1983,1991,1995)[2][3][4]的规则空间模型中关联矩阵Q是可以通过分析测试项目得到的。事实上,目前许多CDA是根据认知诊断模型(cognitivediagnosticmodel,CDM)对已有的测验进行分析,这些已有的测验并不是为认知诊断“量身定制”的。Leighton,Gierl,和Hunka(2000)[11]指出这样导出Q阵的方法逻辑性不强。Gierl等人(2000)[11]及Leighton等人(2004)[6]建议在测验之前就由专家给出欲测属性及这些属性间的层级关系(hierarchyrelation)。对于如何构造一个有利于诊断的项目,Gorin(2007)[1]给出了一些例子,并给出一些原则;Gorin(2007)[1]强调诊断测验的构造的重要性不亚于构造单个项目的重要性,文章甚至造出一个不利于认知诊断的测验蓝图(其中每个项目至少包含两个属性),并讨论了诊断测验编制的问题,认为诊断测验中应尽可能多地包括对应Qr中的列的项目。Henson和Douglas(2005)[9]对如何选取项目组成认知诊断测验作过较深入讨论,给出了计算指标,这个指标的计算是耗时的,并且该指标的应用有相当的限制,即需要认知诊断模型有具体的显式的(explicitexpression)认知诊断的项目反应模型,如DINA,Fusion模型等,对于没有显式表达的认知诊断项目反应模型,如RSM,AHM,这一指标还不能应用。由于本文主要讨论在给定可达阵R的基础上诊断测验蓝图的编制,而不要求认知诊断模型具有显式表达式,为了节省篇幅,故对Henson和Douglas(2005)[9]在认知诊断测验中选取项目的方法不作具体陈述。Gorin(2007)[1],Henson和Douglas(2005)[9]的文章中,都未意识到可达阵在认知诊断测验编制中的重要性。Tatsuoka(1995)[4]和Leighton等人(2004)[6]认为Qr阵是认知诊断测验的测验蓝图,Gierl等人(2007,p255)[1]也认为Qr阵在AHM(Leightonatel,2004)[6]中十分重要,是测验的一个认知蓝图(cognitiveblueprint)。我们认为,依照AHM的逻辑顺序,在测验之前便分析寻找认知诊断测验欲测之属性以及它们的
本文标题:认知诊断测验编制的原则
链接地址:https://www.777doc.com/doc-715618 .html