《教育信息处理》课程教学笔记授课教师:贾正林授课班级:04级教育技术学专业授课地点:12教4061第五讲项目反应理论与自适应测验(4学时)一、教学目标1、能阐述经典测验理论的不足,以及项目反应理论发展和应用的背景。2、掌握项目反应理论的基本原理。①能解释逻辑斯蒂模型中被试能力参数与项目参数的物理意义以及两者间的关系。②能阐述项目信息函数的定义及计算方法,会解释项目信息函数的物理意义。③能运用一定的统计方法对被试能力参数和项目参数做出适当估计。④能定性地表述项目反应理论的基本原理。3、掌握基于项目反应理论的计算机自适应测验的实现方法。①能说出一个典型的计算机自适应测验系统的基本构成及功能。②能说明设计一个典型的计算机自适应测验系统需要解决的基本问题。③学会运用自适应测验的基本流程和算法。④能定性阐述自适应测验的优点。4、了解项目反应理论和自适应测验的实际应用的情况。二、教学方法与教学媒体1、教学方法:以讲授法为主,着重介绍项目反应理论的基本原理及其在自适应测验中应用的基本思路和方法。本次课结束后,让学生在课后进行自适应测验系统设计实践,并写出设计报告,然后用1-2学时组织学生就项目反应理论实际应用中的相关问题进行讨论,以培养学生的实践能力。2、教学媒体:用黑板与讲授同步地展示讲授的内容要点,用MicrosoftExcel作为工具讨论项目反应模型及其相关参数的物理意义,用PowerPoint展示结束总结的内容要点和实践任务要求。三、教学重点、难点重点:项目反应模型及参数估算方法;自适应测验的施测程序及算法。难点:被试能力参数和项目参数的估算方法;项目信息函数的定义及意义。四、教学内容与过程整个教学过程分为引入、展开、结束三个阶段进行。(一)引入阶段:首先分析经典测验的局限性,由此引出如何提高测验的精度和效率的问题,在此基础上提出自适应测验的基本思路及其理论基础,从而引出本节课的学习内容。然后以框图形式向学生预告本节课学习内容的基本结构和要求。1、经典测验的局限性及自适应测验的提出经典测验的特点是:所有被试不论能力水平高低都使用相同的测试项目进行测试。通常有两种基本类型:所有试题(项目)难度相同,即所谓“尖峰”型测验。这种情况下,当被试水平与题目难度接近时,具有较高的测验精度,两者偏离越大,测验精度越低;第二种类型为所谓“平矩”型测验,试题中有较难、难度中等、较易等不同难度的题目,因此在多数水平上能提供相对均等的测验精度,但整体精度却相对较低。从上述分析不难看出,经典测验难以很好兼顾到测验的精度和精度的跨度问题。于是人们自然想到,能否做到“因人施测”---不同能力水平的被试都能接受一组难度跟自己水平相适应的试题?《教育信息处理》课程教学笔记授课教师:贾正林授课班级:04级教育技术学专业授课地点:12教40622、本节课的内容结构(二)展开阶段:首先介绍项目反应理论的基本原理,然后讨论一个计算机自适应测验系统的实现原理和算法。1、项目反应模型测验的实质过程:向被试呈现测试项目(试题)-----被试对测试项目做出反应(应答)-----根据被试反应结果判断被试能力水平。显然,被试对某个项目的反应情况不仅与被试的能力水平有关,而且还与测试项目的特性有关。那么,被试的应答、被试的能力水平、测试项目特性之间有什么样的关系呢?要回答这个问题,我们可以建立相应的数学模型来描述三者间的关系,即所谓的项目反应模型。引入相应的物理量:被试能力水平:由于参试人数一般较多,可认为被试的能力水平是连续变化的,用表示,值越大,表示被试能力水平越高。被试的应答情况:从经验可知,一个被试能否正确回答某个问题,常常带有一定的偶然性(随机性),因此引入)(P来表示各种不同能力水平的被试对某一测验项目做出正确回答的概率。)(P越大,回答正确的可能性越高。项目特性:常用来描述项目特性的参数主要是难度参数a和区分度参数b。伯恩鲍姆于1957年提出了被广泛使用的逻辑斯蒂模型。下面我们就向大家介绍这一模型。(1)二参数逻辑斯蒂模型及其参数的意义具有难度参数和区分度参数的逻辑斯蒂模型为:)](7.1exp[11)(baP这一模型有何意义?其中的各个参数的意义是什么?下面我们用数值方法对这一模型进行一些讨论。我们选2.1,8.1ba,用Excel作出值在-3—3间的)(P曲线,如图1所示。从图1可以看出:该项目反应曲线反映正答概率随被试能力水平的变化规律---随着被试能力水平的增加,正答概率也增加,最终趋于1,呈现指数规律变化.难度参数的意义图2给出了,8.1a2.1b和2.1b时的两条项目反应曲线。被试能力参数与项目参数的关系----项目反应模型测试项目对被试能力的分辨能力----项目信息函数某次测试的整体测量精度----测试信息函数被试能力参数与项目参数的估算方法如何做到测试项目对被试能力的自适应?如何开始?如何选择下一个项目?如何结束?对不同的被试能力水平实现有效测试《教育信息处理》课程教学笔记授课教师:贾正林授课班级:04级教育技术学专业授课地点:12教4063图1二参数逻辑斯蒂模型实例00.20.40.60.811.2-4-3-2-101234能力水平正答概率图2不同难度参数的项目反应曲线00.20.40.60.811.2-4-3-2-101234能力水平正答概率由图2可知:难度参数高的项目需要能力水平高的被试才能做出正确应答。b值越大,表示项目难度越高。当b时,5.0)(P,表明在二参数逻辑斯蒂模型中,项目难度参数在数值上等于该项目正答概率为0.5的被试能力参数值,难度参数表示了项目的困难程度。区分度参数的意义项目区分度参数表示了在一定难度参数的情况下,由于被试能力不同,其正答概率有多大程序的不同。显然,这种不同的程度越高,项目对于不同能力参数被试的区分能力越强。图3给出了两条难度相同区分度不同的项目反应曲线。从图3可知,a越大,项目反应曲线越陡。让我们来比较一下1和1的两个被试在项目1和项目2中的正答率之差,前者为0.24,后者为0.91。显然区分度大的项目,正答率之差也大。这表明:区分度反映了测试项目对被试应答能力的区分程度。(2)三参数逻辑斯蒂模型在测验实践发现,被试对某项目的正确回答不一定只与其能力参数的大小有关,还可能存在由于某种推论、猜测等偶然因素而对某个项目做出正确回答,比如在多重选择题中。因此,我们再二参数模型的基础上再引入一个猜测参数c,其值的大小反映了由《教育信息处理》课程教学笔记授课教师:贾正林授课班级:04级教育技术学专业授课地点:12教4064猜测等因素而使用被作出正答的可能性。于是得到了三参数的逻辑斯蒂模型:图3区分度不同的项目反应曲线00.20.40.60.811.2-4-3-2-101234能力水平正答概率)](7.1exp[11)(baccP若二参数模型以2P表示,三参数模型以3P表示,由有:223)1(PPcP上式表示被正确应答概率由两部分构成:一是基于对项目的正确理解而正答的概率2P;二是被试对项目不理解但由于猜测、推断而正答的概率)1(2Pc。图4给出了二参数和三参数模型的两条项目反应曲线。图4二参数和三参数模型的比较00.20.40.60.811.2-5-4-3-2-1012345能力水平正答概率从图4可以看出:当测试项目可以通过猜测等因素而作出正答的可能时,选用三参数模型比二参数模型更适宜。最后需要指出的是,以上只介绍了使用广泛的两个项目反应模型,实际上,项目反应模型有许多不同的数学模型,如考虑部分正答的项目反应模型、考虑项目难度和被试《教育信息处理》课程教学笔记授课教师:贾正林授课班级:04级教育技术学专业授课地点:12教4065能力变化的项目模型等。实际应用中,我们需要根据模型—数据拟合良度检验来选择合适的模型。2、项目信息函数和测试信息函数的定义及意义对于一个给定的项目(项目参数一定),它对不同被试的能力水平的分辨能力如何呢?或者说,被试对一个项目作答后能带给我们关于被试能力水平的信息有多少呢?被试作答一个项目的得分反映其能力水平的精度有多高呢?为了回这一问题,项目反应理论引入了一个项目信息函数。项目信息函数的定义:)](1)[()]([)(2jjjjPPPI根据上述定义,我们可以计算出:二参数项目反应模型的项目信息函数为:)](1)[(7.1)(22jjjjPPaI.三参数模型的项目信息函数为:222))](7.1exp(1))][(7.1exp([)1(7.1)(jjjjjjjjbabaccaI。为了帮助学生理解项目信息函数的意义,我们仍采用数值方法来讨论项目信息函数。(1)就某一个测试项目而言,当项目参数一定时,)(I只是的函数,因此它可用来描述测试项目对不同能力水平的被试进行测试有有效性。经典测验中将测验的效度用于所有被试,而无论其能力水平如何。(2)当一定时,某一测试项目所能提供的信息量只取决于项目参数。图5区分度对信息函数的影响00.511.522.533.500.511.522.53区分度参数项目信息函数图5(1,b=0.921,c=0.2)表明:项目区分度参数越大,项目信息函数值也越大。图6(1,b=0.921,a=2.0)表明:猜测参数越大,项目信息函数越小。《教育信息处理》课程教学笔记授课教师:贾正林授课班级:04级教育技术学专业授课地点:12教4066图6项目猜测参数对信息函数的影响00.511.522.5300.20.40.60.811.2猜测参数项目信息函数图7(a=2.0,b=0.921,c=0.2)表明:同一个项目在测验高、中低水平的被试时,它所提供的信息量是不一样的。当被试能力参数接近项目难度参数时,信息函数取得极大值。事实上,只有当被试能力水平略大于项目难度时,提供的信息量最大,且测验结果的效度和信度以及被试接受测验的积极性均可大提高。这就为我们在自适应测试中选择试题提供了理论依据。图7同一项目中信息函数与被试能力水平的关系00.511.522.500.511.522.5被试能力水平项目信息函数由上述分析,不难计算出信息函数为最大时的能力参数为:]815.05.0ln[7.11maxjjjcab综上分析,我们可以看出,项目信息函数是反映试题优劣的一个综合指标。若我们假设被试参加各个项目的测试是相互独立的(不同测试项目之间没有相互影响),则当测试中包含n个项目,且每个项目j的项目信息函数为)(jI,各测试项目总的信息函数为测试信息函数:njjII1)()(《教育信息处理》课程教学笔记授课教师:贾正林授课班级:04级教育技术学专业授课地点:12教4067测试信息函数表示了对于各种上天堂同被试,测试整体的测量精度。信息函数的可加性表明:组成测验的各个项目的质量越高(项目信息函数越大),它所提供的信息量也越大,从而根据整个测验所获得的数据资料而估算出来的被水平也越精确、越可靠。可见,测验信息函数是反映测验有效性的一个客观而精确的指标。3、参数估计方法测验的作用就是通过测验分数对被试的相应能力或特质水平做出有效的估计,而高质量的测验项目是做出精确估计的重要前提。因此,项目反应理论的实际应用中,我们需要根据实际的测验数据资料客观而准确地估算出项目参数和被试能力参数,为题为建设、测验编制、教学决策提供有效的数据依据。下面介绍参数估算的基本方法。参数估算的基本思路为:实测数据(被试的得分矩阵)-选择合适的项目反应模型(因子分析确定参数个数---模型—资料拟合选择最优模型)-运用统计方法估算项目参数和被试参数(已知项目参数估算被试能力参数、项目参数和能力参数的联合参数估计)。下面以三参数逻辑斯蒂模型为例介绍两种情形下参数的估计方法----极大似然估计法。(1)被试能力参数的估计项目参数nicbaiii,..,2,1,,,已知,由测试数据估算被试能力参数的算法:设项目反应变量iU=0表示答错,iU=1表示答对,答对概