教育测量与评价的质量特性教育测量的质量特性衡量教育测量的质量,可采用四个指标:信度主要对整个测验而言。效度难度主要对测验项目而言。区分度第一节教育测量与评价的信度一、信度的意义•信度(reliabity)–测量结果的可信程度和稳定性程度–记为rxx二、信度的统计定义X=T+E观察分数真分数测量误差第一,信度是观察分数与真分数相差的程度;E=X-T例:试比较以下两次测量结果(只进行一次)的信度。用尺子量100cm高的一个儿童,得到1cm的绝对误差;量185cm高的一位运动员,也得得到1cm的绝对误差。要比较两种测量结果的信度,一定要看测量误差(E)对于真分数(T)所占的百分数是多少。这个百分数表示该观察分数(X)的相对误差。相对误差=E/T×100%把上述两次测量(设为甲和乙)和绝对误差分数和真分数代入上式,得:相对误差(甲)=1/100×100%=1%相对误差(乙)=1/185×100%=0.54%据此,度量乙的信度要比度量甲的信度高。最大绝对误差=E/X×100%怎样估计对一组人或一个人测量多次的实测值与真值(真分数)的差异程度呢?•判别两组数据谁好谁差,关键是确定这两组数据偏离各自的平均数的大小。为了消除数据容量的影响,可借鉴研究加权平均数的方法,选用各个偏差的平方的平均数,来描述一组数据偏离其平均数的大小,这就是方差。•根据假设,观察分数的方差应等于真分数的方差加上测量误差的方差。即:2E2T2xσσσ•第二,信度是一个被测团体的真分数方差与观察分数方差之比:即22xTxxr测验的信度一般在0和1之间取值,rxx越接近1,考试的信度越高。2x2E2x2E2xxxσσ1σσσr•第三,信度是一个被试团体的真分数与观察分数的相关系数的平方,即:•第四,信度是一个被试团体在测验X(A卷)上的观察分数与在测验X的任意一个“平行测验”(B卷)上的观察分数的相关系数。即:三、信度的估计方法•重测信度(test-retestreliability)–又称稳定性系数,指用同一个量表(测验或评价表)对同一组被试施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的相关系数;–相关系数可以用不同方法计算,这取决于数据的性质。最为普遍的是皮尔逊积差相关系数:•例1:在政治科目考试后一周,随机抽取10名学生进行重测,其先后两次考试成绩如表3-1中的Xi栏和Yi栏中的数据所示,试求该政治科目考试的一个重测信度。•通过计算可知:把上述数据代入下列公式,可得•采用重测法计算稳定系数,需注意:–两次测验之间的时间间隔要适宜,尽可能在较短的时距内进行;–两次测验试卷要等值,即在内容范围、题型、题数、难度、区分度等方面要基本相同;–确定两测验是否等值,还要考察两次测绘结果的平均数与标准差;–重测法适用于速度测验(运动技能)而不适用于难度测验;–测试应注意提高被试者的积极性。•复本信度(alternate-formsreliability)–又称为平行测验(equivalentformstest,parallelformstest)。指在试题格式、难度、指导语说明、施测要求等方面都相当,并且都用来测量相同潜在特质或属性,但试题又是不相同的测验。•等值性系数(coefficientofequivalence):在同一时间连续施测,反映测验内容造成的误差是多少;•等值稳定性系数(coefficientofstabilityandequivalence):不仅反映出测验内容的抽样误差,而且也反映了被试本身状况的改变。例:以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成的误差,其中5个学生先做A型测验,休息15分钟后,再做B型测验;而另5个学生先做B型测验,休息15分钟后,再做A型测验。10个学生A型测验结果记为X,B型测验结果记为Y,其测验的复本信度如何?学生序号12345678910X19191817161515141312Y20171818171513151212•复本信度的优点:–测验的两个复本,如果在不同的时间使用,其信度既可以反映在不同时间的稳定性,又可以反映对于不同测题的一致性;–两个复本在同时使用时,可以避免再测信息的一些缺点,如首测时再测在记忆、练习、效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。•复本信度的缺点:–编制两个完全相等的测验是很困难的,如果两个复本过分相似,则变成再测形式,而过分不相似,又使等值的条件不存在;–两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度;–被试同时接受性质相似的两个测验,可能减少完成测验的积极性;–虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。•同质性信度(homogeneityreliability)–又称为内部一致性信度(internalconsistencyreliability),指测验内部所有题目间的一致性程度。•所有题目测的是同一种心理特质;•所有题目得分之间具有较高的正相关•1.分半信度(split-halfreliability)–将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。–通常是以题目的奇数为一组,偶数为一组,计算两级的相关系数,最后用斯皮尔曼-布朗公式校正,求得整个测验的信度系数。例:一个测验向15名被试施测,被试在奇偶分半测验上的得分如下表,计算该测验的分半信度系数。思考:为什么不直接用奇数题总分与偶数题的部分计算出的相关系数作为整个测验的信度系数而要加以校正?测验的长度(指量表中所包含的题目数)对信度的大小有一定的影响,测验越长,信度越高。用分半法,实际上等于把整个测验长度减小了一半,所以按分成两半的资料求出的信度必然低于整个测验的信度。•斯皮尔曼-布朗公式的基本假设:两个半测验的变异数必须相等(方差齐性)若不能满足上述假设,选择下述两个等价的公式之一:(1)佛朗那根(Flanagan)公式(2)卢仑(Rulon)公式•2.库德—理查逊信度(Kuder&Richardsonreliability)–适合于测验题目全部为二分记分题(dichotomouslyscoring)的测验和内部一致性信度分析–常用的有KR20和KR21(1)KR20的用法–这个公式以每题能正确回答的人数占总人数的百分数为基础计算(每题只有通过或未通过两种分数)测验信度题目数测验总分的方差答对人数答错人数例:10名被试在一个测验上的得分情况如表3-3所示(答对1分,答错0分),试估计被试反应的一致性程度。解:1)列出得分矩阵,计算有关统计量:40.039.001.235.11166121201.2103.353.323.31S3.31063221X35.16K21KR2222)=(=)计算信度系统式()把有关统计量代入公=)+(+)+()(==+++++= = =pq这个测验的信度系数较低,说明内容一致性差,量表中的题目并非都可以测量相同的特性,即题目的同质性差或难度悬殊较大。(2)KR21的用法–以各应试者总分的平均数和方差为基础,无需各题的难度信息。采用表3-3的数据资料被试测验总分平均数(3)克龙巴赫α系数–当测验题型较多,并非都是二分记分题时,可用α系数例:用一个包含6个论文式试题的测验,对5个被试施测,其结果如表3-4所示,求该测验的信度。四、标准参照测验的信度分析•百分比一致性指标(percentageagreement,简称PA)同一测验或平行测验先后两次施测,其对被试的分类结果一致的比例。计算方法如表3-5•k一致性系数(kappacoefficientofagreement)–实际被评定为一致的百分比与在理论上被评定为一致的最大可能次数百分比的比率。PA为百分比一致性指标;Pc为理论上可能被评定为一致的百分比期望值由3-5的数据可求得:五、测量标准误与测验信度的关系•测量标准误是指测验中所得测值偏离真分数的程度,记为SE。–测量标准误是反映测量结果精确性和可靠性的又一指标–可合理地解释被试所得分数的误差范围六、评分者信度•评分者信度(scorerreliability)指多个评分者给同一批人的答卷进行评分的一致性程度。–当评分者人数为两人时,可用斯皮尔曼等级相关的公式计算;–当评分者人数多于两人时,可用肯德尔和谐系数(Kendallcoefficientofconcordance)肯德尔和谐系数(W)S为每一个评价对象的K个等级之和的离均差平方和例:10个评委对7名参赛选手所评等级如表3-6所示,请问这10位评委的评分是否具有一致性。分析:从W=0.827来看,10人的评价较为一致。严格地讲,W值是否达到显著性水平,需要做统计假设检验。当K等于3∽20,N等于3∽7时,可根据K和N查“W显著性检验时S的临界值表”进行检验。(见书附表1) 827.0)77(101212316231672802-13516)(RS3222iwNRi解七、提高测验信度的方法•适当增加测验题目的数量–需注意:1.新增加测验题与原有的测验题应有相同的统计性质,即应有相同的平均难度和相同的组间相关。2.加大测验长度应当不影响被试者回答问题的方法。•测验的难度要适中•测量的内容尽量同质•测验的时间要充分•测验的程序应统一•评分要客观化,减少评分误差—完—