第二章教育测量的质量指标第一节信度第二节效度第三节难度第四节区分度一、信度的概念信度指的是测量结果的稳定性或可靠的程度。也就是测量结果是否真实、客观地反映了考生的实际水平。具体而言,可以从以下三方面来理解测量的信度。(一)信度指实测值与真值相差的程度测量的目的之一,就是希望通过测量得到的实测值能够接近事物的真实值。由于各种原因,实测值一般不会完全等于真实值,两者之差称为测量误差。测量误差越小,测量的信度就越高。用一个等式表示如下:x=T+E式中,x表示实测值,T表示真值,E表示误差。但测量的真实值是未知的,因此,误差也就无法求出来。当然,可以把很多次测量的实测值的平均值作为真实值的近似值,但这在实践上不具有可操作性。所以,根据这种理解,无法求出信度的大小。(二)信度指统计量与参数之间的接近程度统计量和参数是统计学中的两个基本概念。统计量是指样本上的各种数字特征(如样本的平均数、标准差等),参数是总体上的各种数字特征(如总体的平均数、标准差等)。统计量越接近参数,这个统计量的可靠性就越高,因此,信度就越高。要知道统计量对参数的接近程度,可以对参数进行区间估计。这种方法对估计真分数也很有用的。但这种理解也无法计算出信度。(三)信度指两次重复测量或等值测量之间的关联程度如果对同一对象进行两次重复测量或者等值测量以后,计算两次测量的相关系数,相关系数越高,说明测量的信度就越高;反之,就越低。对于信度的这种理解,有利于信度的计算。但重复测量会受到被测对象的经验、知识增长等因素的影响,等值测量又较难编制,因此,采用这种方法计算信度时,也是有误差的。信度是任何一个测量的必要条件,对于教育测量来说,它具有更为重要的意义。因为教育测量的对象主要是精神现象,所测量的特性不易把握,为了能真实地反映测量对象的某种特点,需要更加注意测量的信度,从而正确地判断测量结果的价值。只有信度高的测量才能成为教育工作者有用的工具,否则,测量的结果是无意义的、无效的。二、信度的理论公式根据上述对实数的分解,可将实得分数的方差分解为:2x=2T+2E,其中,2T表示真分数的方差,2E表示随机误差方差。信度的计算公式为:rxx=22xT=1-22xE从以上公式可以看出,随机误差的方差越小,测量的信度就越高。信度的取值范围为[0,1],如果测量误差的方差为0,那么,测量的信度等于1,如果测量误差的方差等于观察分数的方差,则测量的信度为0。三、信度的类型采用上述的理论公式是计算不了信度的,因为真分数根本不知道,这样也就计算不出误差分数。因此,上述理论公式只能帮助我们更进一步地理解信度的含义。那么,在实际测量中,如何计算或估计信度的大小呢?下面介绍几种常用方法。(一)稳定性系数(1)稳定性系数又称重测信度。它是指用同一测验试卷,在先后两个不同时间内对同一组被测试卷,两次测验实得分数的相关系数。稳定性系数是估量信度最简单的方法,只需用同一份试卷对同一被测试卷测验两次即可。(2)估计稳定系数的基本程序是:适当时距测验A1(A)测验A2(A)A表示两次测验试卷相同,A1和A2表示同一测验经过适当时间间隔施行两次。时距可以是几天或者几个月。(3)使用重测法要注意几点:〔1〕重测法只适用于速度测验而不适用于难度测验;〔2〕所测的信度大小,常常受两次测验时间间隔长短影响;〔3〕第二次测验没有吸引力,不易引起学生的兴趣;〔4〕要实施两次测验,耗费人力、物力和时间较多。(二)等值性系数(1)当同一测验的一种型式不能或不适合实施两次时,就需要采用该测验的另一平行型测验或者复份。复份在测验的内容、题数、格式、难度、平均分、标准差等方面应与原测验一样,否则,估计的等值系数就会出现较大误差。(2)决定等值系数的方法是。先实施第一次测验,然后在最短的时间内实施第二份等值的测验,再求它们得分的相关系数。这个相关系数即为信度的等值性系数。(3)其基本程序为:最短时距测验A1测验B1A1表示用试卷A进行的第一次测验,B1表示用试卷B进行的第一次测验,试卷A和B等值。这种确定信度系数的方法称为复份法。(4)采用复份法估计信度系数要注意:〔1〕两次测验试卷要等值,即在内容、题型、题数、难度、区分度等方面要基本相同;〔2〕两次测验要尽可能在较短的时矩内进行;〔3〕确定两次测验是否等值,还要考察两次测验结果的平均数与标准差。〔4〕在实际操作中,要编制两份等值的测验非常困难。(三)内部一致性系数前两种估计信度系数的方法都要测验两次。该种估计信度系数的方法只需测验一次。方法是把一次测验人为地分成两个部分,比较两个部分的一致性程度,从而估计信度系数。根据分成两部分的不同,内部一致性系数的估计方法有两种:(1)分半信度这种方法是将一次测验分成两个假定相等而独立的两部分来记分,通常是以题目的奇数为一组,偶数为一组,计算两组的相关系数,最后用斯皮尔曼—布朗公式校正,求得整个测验的信度系数。斯皮尔曼—布朗公式为:xyxyttr1r2r式中,rxy为两组测验分数的相关系数,rtt表示整个测验的信度系数。(2)库德尔—理查德森公式法用这种方法只需测验一次,然后以各个问题的正确反应数为基础,或根据各人总分的平均数和标准差,计算信度系数,常用的库德尔—理查德森公式有r20KR和r21KR。〔1〕r20KR的用法:这个公式以每题能正确回答的人数占总人数的百分数为基础(每题只有通过或未通过两种分数)。r20KR=)1(12spqKK式中,r20KR为整个测验结果的信度系数。K为测验题目数,p为各题正确反应人数占总人数的百分数,q为各题错误反应人数占总人数的百分数,s2为各应试者各题得分之和的方差。〔2〕r21KR的用法:这个公式以各反应者总分的平均数和方差为基础计算,无需各题难度的信息。公式如下:r21KR=1-2)(8.0KsxKx式中,x是各人总分的平均分,2s是各人总分的方差,K是题目数。〔3〕计算内部一致性系数,需要注意下列问题:〈1〉若用分半法时,以按奇数题和偶数题分为两半为宜。若把整个测验分为前后两半,一方面前半部试题和后半部试题未必等值,另一方面被试者在完成后半部试题时可能因疲劳、厌倦等原因而影响回答质量,以致前后反应不一致,影响信度。〈2〉若速率是测验的重要因素,则不宜用分半法。因为速度测验中试题的难度低,被试者得分的多少,在很大程度上是因为答题的多少,分半法易使得分相同,从而会夸大分半法的信度估计。〈3〉如果答案多种多样,得分也多种多样时,则不能用上列公式计算一致性系数。(四)论文式测验的信度系数论文式测验的评分,没有严格的评分标准,以致同样的一个题目,不同的应试者的回答和得分都不一样,所以无法用前面的公式,而要用克龙巴赫所创的系数公式:=)1(122TissKK式中,为信度系数,K为题目数,2is为每题各应试者得分的方差,2is为每题各应试得分的方差之和;s2T为所有被应试者所得总分的方差。(五)评分者信度一般论文式考试,只能提供列出答案要点的参考答案而无固定的标准答案,因而不同的评分者对同一份试卷给分不同,甚至有很大的悬殊。在作文测验、投射测验、品德测验、创造力测验等的评分中,都存在这个问题。评分者所评的分数越一致,评分的信度越高。要计算评分者评分的一致性系数,需区分评分者的人次数。若为2人评N份试卷,可用斯皮尔曼等级相关的公式计算;若三人以上的评分者评N份试卷时,则需计算肯德尔和谐系数。四、提高信度的方法(一)信度系数以多大为宜信度系数究竟以多大为好,没有明确的标准。要看测验的目的和类型。对于学科测验,信度系数要求达到0.9以上,智力测验要求达到0.8以上,品德测验能达到0.6以上就算不错了。(二)测量误差的来源(1)测验本身所引起的误差〔1〕测验本身的有些因素会直接产生误差。例如,有些测验题目的格式,如判断题,猜测的可能性很大,这就引起测验的不稳定性。〔2〕如果测题的难度过大,以致每个被试者大量猜测,则所有被试者的总分接近于随机分布,所以测题越难,其信度越低。另一方面,测题越易,分数离差越小,而信度也就越低。〔3〕规定时限可以鼓励人们加速作出反应,但常常会引起不稳定的测验分数。〔4〕测题的用词模棱两可也会引起不稳定的分数。〔5〕测验本身长度也会影响信度,一般说来,测题越多,测验越可靠。〔6〕测验所包含的测题样本也会引起测量误差。测题取样所引起的误差在测验的单一形式中也可能出现。如果测验是要测量单一特性,那么,这个测验上的每一个测题都应该测量它,而不该测量其他的东西。但是实际上,有些测题能测量多种心理特性,因此,在一个测验中所包含的特定测题的抽选就变成了一个误差的可能来源。(2)测验的实施所引起的误差〔1〕由于测验的经验日益丰富,测验的实施更加标准化,实施条件的变化所引起的误差可能性就大为减少。然而,由于对实施指导语的错误理解,对答案纸的错划,时间记录的错误以及一些不能预见的干扰等,都会产生误差。〔2〕对一组被试实施测验不是同一个主试,而是由多个主试实施,以及主试本身在安排测验上有较多的余地,这些也会引起误差。〔3〕记分也会产生误差,如论文式的测验和其他自由反应的测题各格式,记分就很难做到完全客观,从而产生误差。(3)被试所引起的误差这是最难控制的误差。甚至当我们具有测验的等同形式,在标准化的实施和记分程序下,测验的情境以最理想的方式加以安排,由于被试本身的不一致性也会使测验的分数不一致。具体表现为:动机的作用;学习、发展和教育的影响;对于测验的经验;测验的焦虑;生理因素等。(三)提高测验信度的方法(1)适当增加测验题目的数量测验题目的数量越多,题目的代表性就越大。这种方法既可提高信度,也可提高效度。因此,一次测验的题目不能太少。但题目太多也无法操作。所以,只能适当增加测验题目的数量。(2)测验的难度要适中因为测验的难度中,能使测验难度达到最大,也能使测验的区分度达到最大,所以,必须使测验的难度适中。(3)测验的内容应尽量同质如果测验的内容过于庞杂,必然要求考生具有不同的能力、知识或技能,致使测验的信度降低。例如,外语、数学测验的信度常高于语文、历史测验的信度。因此,为了提高测验的信度,测验内容应尽量同质。(4)测验的程序应统一测验的过程直接关系到信度的高低,可以说,信度主要是在测验的实施过程中要重点保证的。测验的程序统一包括试卷统一、测验开始时的指导语、回答问题的方式、分发及回收试卷的办法、测验时间的掌握等,这是关系到测验信度的重要因素。要严防舞弊现象的出现,特别是集体舞弊现象,更不能泄露考题等恶劣行径。(5)测验的时间要充分测验的时间限制也会影响信度的高低,如果安排的时间不购,考生不能从容回答所有问题,也就不能真实地反映应试者的实际水平。因此,测验的时间要充分。当然,这里不是说,要保证所有考生都能做完试题,要以大多数考生为标准制定考试的时间。(6)评分要尽量做到客观化、减少评分误差对于主观性测验,很难制定明确的评分标准,由于各评分者的标准不统一,很多主观因素也能对评分产生消极影响。所以,首先要有明确的评分标准;其次,最好多个专家同时评一份试卷,或者是单个评分者反复多次评一批试卷,对于几次结果误差较大的,要复评。(7)应试者参加测验的动机水平、积极性、疲劳程度也会影响测验分数,从而影响测验信度。第二节效度一、效度的概念效度是指测量结果的准确性和有效性的程度,亦即测量是否达到了预期的目的。我们可以从以下几个方面来理解效度:(一)测量的效度始终是对一定的测量目的而言的。一般而言,任何测量都有某种特定的目的和功能,判断效度的高低,就是判断测验达到目的的程度。如果能正确真实地测量出所想测量的东西,那么,对这一目的的效度是高的;反之,则是低的。例如,一个智力测验,结果实际测量的不是智力的高低而是知识的多寡。那么,此测验的效度就低了。即使某种公认效度较高的测量,也不能要求它在不同目的的测验中保持相同的效度。(二)测量的效度也是对测量的结果而言。一种测量工具只有经过实际测量,才能根据出来的结果判断它的效度。所以,也可以把效度理解为测量的结果正确反映所欲测量的特性或功