新一代测量理论——认知诊断报告人:毛萌萌南昌大学教育系认知诊断理论被视为新一代测验理论的核心,是认知心理学与现代测量学相结合的产物。对认知诊断的研究已成为当前国外心理学研究的一个重要热点,并引起国内学者的广泛关注。内容提要认知诊断概述传统测验及其理论的局限性对认知诊断的基本概念一种基于Q矩阵理论朴素的认知诊断方法测验蓝图的设计认知诊断开发步骤对认知诊断的理解认知诊断应用发展新趋势心理和教育测量学是一门从心理学和教育学角度对心理特质的实质和结构做出深入的分析与研究,同时运用数学、统计学等手段,对测量的有关问题,做出数量化分析的学科;作为独立学科分支的心理与教育测量学已经经历了一个多世纪的发展。MislevyR.J(1993)指出,到目前为止,整个统计测验理论的发展可以分为两大阶段:标准测验理论(Standardtesttheory)阶段和新一代测验理论(Testtheoryforanewgenerationoftests)阶段。传统测验及其理论的局限性标准测验理论将所测的心理特质视为一个心理学意义并不明晰的“统计结构”,目的在于从宏观的层次给个体一个整体的评估,在单维的、线性的连续的度量系统上指定一个表示位置的值。传统测验及其理论的局限性标准测验理论包括:经典测量理论(ClassicalTestTheory)概化理论(GeneralizabilityTheory)项目反应理论(ItemResponseTheory)传统测验及其理论的局限性与标准测验理论是相对应的是传统测验传统的考试实质上都是根据精心筛选的测验题目,将被试按顺序排列在某种潜在变量的连续体上。在经典测量理论中,这种潜在变量是真分数,而在项目反应理论中,潜在的变量是指单维的潜在特质。传统测验及其理论的局限性经典测量理论(又称真分数理论)基本假设:测验观察分数等于真分数与误差分数之和即X=T+R。在此基础上,经典测量理论提出了测验信度和效度、项目难度、区分度、猜测度等概念,并依此来指导测验的编制。经典测量理论在测验发展中有特殊的地位,它是历史上第一个测验理论,也是测验的最一般、最基本的理论,应用极为广泛。传统测验及其理论的局限性但是,经典测量理论有着理论框架的先天缺陷性,比如测验参数的估计依赖于样本;测验信度估计不精确等。概化理论和项目反应理论则从不同角度克服了经典测量理论的局限性,逐渐在心理与教育测量领域中与经典测量理论形成了三足鼎立的局势。传统测验及其理论的局限性概化理论:其主要是针对经典测量理论信度估计不精确的问题而发展的。它不再象经典测量理论那样将测量误差单纯看成混沌一团的东西,而是利用方差分析方法具体分析实际的测验情景关系,根据不同情景关系确定测量目标与侧面,针对性地考察多种信度与效度。传统测验及其理论的局限性项目反应理论:是在克服经典测量理论项目参数依赖于样本等局限性基础上发展的。它认为被试在项目上的反应决定于被试的潜在能力与项目难度间的距离,从而很好地将能力参数和难度参数统一到了一个量尺上来。项目反应理论的另一大优点是参数的不变性,从而推动了该理论的应用范围,为实现计算机化自适应考试(CAT)提供了可能。此外,项目反应理论还提出了测验信息函数的概念,利用测验信息函数来估算测验对不同能力水平被试所产生的误差。传统测验及其理论的局限性基于CTT的测验采用总分指标评价能力,总分只能用来对个体在总体中的相对位置进行排序,不能指出被试具体掌握了哪些内容,更无法诊断其题目作答错误的原因。基于IRT的教育测验采用能力指标评价被试,虽考虑了被试在测验项目上的作答反应与属性间的关系,但能力指标只是属性的一个统计含义上的概念,并没有真正揭示其内部心理含义传统测验及其理论的局限性总的来说,无论是经典测量理论还是项目反应理论及概化理论,存在的共同缺陷是,把所测心理特质当作一种纯统计结构,忽视对考生作答过程的考察,计量时只注重作答结果,忽视心理特质的实质内容,对于“测什么”和“为什么”的问题却不能够很好地解决,也就无法了解个体解答测验的心理加工成分、策略、所需知识结构等内部心理机制,不能确定个体的强点和弱点。认知诊断的基本概念因此,传统的测量理论显然不能满足测验发展的需要,急需一个能够解决“测什么”和“为什么”的理论。与此同时,实质心理学特别是认知心理学的兴起,给人们提供了理解“统计结构”这一“黑箱”的思路及相关的丰富理论成果,这使得测量学专家看到了揭开“统计结构”内在心理学意义的希望。因此,以认知诊断为核心内容的新一代测量理论也就应运而生了,它是测验发展的需要和认知心理学理论成果融入到测量学的结果。认知诊断的基本概念认知诊断;属性(补偿,非补偿);层级关系;认知模型;认知诊断模型(分类方法)一系列Q矩阵,计算和含义;Q矩阵理论;期望反应,期望反应模式(理想反应,理想反应模式/潜在反应,潜在反应模式);知识状态;18认知诊断的基本概念认知诊断(评估):认知诊断评估(CDA)通过测验获得被试在测验上观察反应而推知该被试不可观察的知识状态(knowledgestate)。Leighton和Gierl(2007)认为(教育)认知诊断的作用是测量/评估个体特定的知识结构(knowledgestructure)和加工技能(processingskills)。认知诊断的基本概念Tatsuoka(2009,p.6)对属性和知识状态的定义:Knowledgeandcognitiveprocessingskillswillbecalledattributes,binaryattributepatternsthatexpressmasteryornonmasteryofattributeswillbereferredtoasknowledgestatesorlatentknowledgestates.(Tatsuoka,2009,p.7)属性的例子(天津考试院,2009,小学真分数加减运算,一个实际开发的认知诊断测验)分数的运算,认知属性,A1:基础知识(分数单位、分数性质、加减混合运算顺序);A2:同分母分数加减;A3:寻找最小公倍数;A4:寻找最大公因子;A5:异分母分数加减;A6:化成最简分数;A7:分数加减混合运算。图1小学数学五年级分数简单加减法认知属性及层级关系21基本概念(认知诊断和模式判别)Tatsuoka(2009)认为她的认知诊断方法---规则空间模型(RSM)和统计模式识别、分类方法(statisticalpatternrecognitionandclassificationmethodology)相似,包含特征提取和统计模式分类两步;特征提取对应Q矩阵理论,它是确定性的(deterministic).22基本概念(属性层级)五种基本属性层级结构(线型、收敛、发散、无结构、独立),其他层级结构可以由它们组合出来特别注意收敛型23属性及其层级的确定(1)属性和属性层级比较难以准确界定属性的确定的标准方法文献调查专家讨论被试的出声思维24属性及其层级的确定(2)层级关系的确定:不是操作步骤的顺序,也不是解题的过程的描述,而是如Leightonetal.(2000)所说的层级(hierarchy)指的是问题解决中所需要的属性之间的逻辑的或者心理的顺序(logicaland/orpsychologicalordering)25Q矩阵的计算计算和含义;属性及其层级-邻接矩阵A-可达矩阵R-潜在Q矩阵Qp-学生Q矩阵Qs计算(1)由A+I计算R的两种方法(2)由R计算Qp的三种方法缩减方法;扩张算法;渐进式扩张算法(3)由Qp到Qs26基本概念(一系列Q矩阵)认知模型(可以用图形表达,还可以用某些Q矩阵表达)一系列Q矩阵,Q矩阵是属性和项目/被试的关联矩阵(incidencematrix),原始意义上是0-1矩阵(布尔矩阵),后面有人扩展为非负整数矩阵。27基本概念(一系列Q矩阵)计算R的方法Tatsuoka介绍的方法:B=A+I计算R的方法如果B的n次幂(逻辑乘法)等于B的n+1次幂,则B的n次幂就是R。数学原理是R是自反的传递闭包的关系矩阵,满足R*R=RWarshall计算传递闭包的方法(省略)29基本概念(一系列Q矩阵)基本概念(一系列Q矩阵)由R计算Qp的三种方法缩减方法;扩张算法;渐进式扩张算法这些新算法揭示了认知诊断测验项目之间的关系(有一个代表性很强的项目类)。这些算法的共同特点是,基于可达矩阵。这也表示可达矩阵的特殊地位。32扩张算法331234j=1不产生新列j=2j=3j=4不产生新列基本概念(一系列Q矩阵)步骤4:通过Qr矩阵可得到被试期望反应模式一种基于Q矩阵理论朴素的认知诊断方法——海明距离判别法罗照盛李喻骏等(2015)心理学报为什么研究Qs,QpQs的列在“交”、“并”运算下封闭;任何两列均有上、下确界,形成一个代数系统--格(lattice)。这对于指导计算机化自适应诊断测验的“在线属性辅助标定”有作用;Qs的列表示“人的”知识状态;Qp的列表示“题的”属性向量,而前者可以由后者导出,可见两者的列可以相互比较37为什么重视ERP某些认知诊断模型的分类原理,ERP是判别分类的类中心(RSM,AHM,DINA,GDD,GDD-P)ORP-KS(通过认知诊断模型)KS-ERP(通过Qs,Qt,特别是Qt)如果可以设计Qt,使得KS-ERP,那么ORP-ERP-KS重视ERP,Tatsuoka给出Q矩阵理论39Q矩阵理论Tatsuoka的Q矩阵理论Taksuoka(1991,1995,2009)建立Q矩阵理论,试图用Q矩阵描述项目与属性的关联,并构建知识状态(KS)与理想反应模式(IRP)的(等价)对应,而通过分类方法使得ORP与IRP对应,最终获得可观察的ORP的解释,即获得隐藏在ORP内的KS。如上所述,我们认为不同的Q矩阵应该给予不同的记号以示区分,如R,Qp,Qs,QtQ矩阵理论的主要内容应该是研究如何设计好的测验蓝图(Qt)。40测验蓝图的设计为什么要设计测验蓝图?目的:使知识状态(KS)和期望反应模式(ERP)一一对应:表面上认知诊断模型f:ORP-KS,实际上是f:ORPERP,KSERP(通过Qt:测验蓝图),如果还能够建立ERPKS,则完成了ORP到KS的映射41Q矩阵理论(续)只有对被试知识状态进行准确分类,才能针对性地进行补救。这样就产生了一个问题,如何编制好的认知诊断测验,它能区分开所有知识状态,减少知识状态误判。也就是要寻找一个“好的”测验规范,即测验蓝图(testspecification/testblueprint)0-1评分非补偿条件下,知识状态和期望反应模式一一对应的充分必要条件定理假设所讨论的认知属性对认知任务所起的作用是非补偿、连接的,并且采用0-1评分方式,则Qt中包含可达阵R是使知识状态与期望反应模式建立起一一对应关系的必要充分条件。42为什么研究测验蓝图的设计Leightoneral.(2004,2007)主张用Qp作为测验蓝图,至少会遇到如下困难:当属性数目K比较大时,对于独立型、无结构型层级结构,Qp的列数目太大,以至于无法安排测验如果测验蓝图设计欠妥,认知诊断判准率不可能高43实例:带分数减法认知诊断测验(设计蓝图不能代表理论认知模型)据Sinharay和Almond(2007)(p.242)的叙述,知该测验共测5种技能(skills),且技能3是技能4的先决属性,而技能1、2、3、5是独立的属性,属性层级关系如图1所示。从而被试的所有可能的知识状态为24类。但是该文中表1给出的Qt为5×15的矩阵。将相同的列看成同一类项目,则Qt如右所示。44T11000、、几种常见的认知诊断模型提出者(第一作者)模型名称特征Fischer(1973)线性逻辑斯蒂克特质模型(LLTM)将难度从认知属性上分解,首次试图使用IRT模型用于认知属