测量质量分析难度与区分度信度与效度为了使测验得到的分数准确可靠,我们要求使用的测验是高质量的,因此必须对分析测验的质量,而测验又是由一个个题目或者说测试项目所组成,整个测验质量要高,必然要求各个题目的质量要高。因此分析一个测验的质量,一般就要从两个方面来进行:一是考察整个测验的质量指标,即考察测验效度与信度;二是考察所含项目的质量指标,即考察测验项目的难度和区分度。测验项目的难度测验项目的难度,就是被试完成项目作答任务时所遇到的困难程度。有的项目很容易,几乎所有初试都能正确完成作答任务;有的项目却很难,只有少数高水平被试能正确完成任务。困难的项目,被试在其上得分的可能性就小,失分的可能性就大;容易的项目,被试在其上得分的可能性就大,失分的可能性就小。总之,每一个测验项目都有自己的难度;不同项目间其难度常常是不同的。定量刻画一个测验项目的被试作答困难程度的量数就叫项目的难度指数或难度系数。难度系数的求法最通用的项目难度系数的求法就是计算被试在项目上的得分率或者说通过率。1.像选择题这种测验项目,评分采取“全或无”的方式,答对给满分,答错给零分,难度指数就可以求通过人数比例或称通过率。2.对于不采用“全或无”的方式给分的测验项目,难度系数的求取方法是先求所有被试在该项目上的平均得分值,可记为;再用它去对测验项目总分(满分),可记为K,求比值,这个比值就是全体被试在该测验项目上的得分率即难度指数p了。nrpKXpXR通过人数n接受测试的总人数P难度指数例如,有一满分值K=5的试题,测试10名被试,实得成绩为5,3,4.5,2,5,0,3.5,1,3,4要求其难度指数p。先求平均得分然后用平均得分值对满分值求比1.31031X62.051.3KXp整体试卷的难度,就是全体被试测验的总分平均值与全卷满分的比值。有人觉得用得分率p来表示难度别扭,主张用失分率q来作为难度指数。得分率p是可以与失分率q相互转换的,q=1-p。我们一般用得分率p来表示难度,但也有人用失分率q来表示难度,所以当我们听取人家报告难度系数时,一定要弄清是指p还是q值不同目的的测试,测验难度系数要求也不相同。一般的标准化测试,目的是要尽可以把握住被试的个别差异,因此希望测验后所有被试的分数“尽可能拉开距离”。这样,测验项目的恰当难度,就应该是p值尽量接近0.5.如果一个测验对某一被试团体来说,难度相对显得大,那么,被试团体中大多数人就会得低分,被试总分分布就会形成正偏态分布;如果相反,难度相对显得小,被试团体中就会有很多人得高分,总分分布就会形成负偏态。区分度项目区分度就是项目区别被试水平高低的能力的量度。项目是用来测试被试水平高低的;在所测特质上,被试水平也不会人人相等,总是会有高低水平差异的。倘若,高水平被试,在测验项目上能利市中分,而低水平被试则只能得低分,测验项目区分被试高低的能力就强;如果高水平被试和低水平被试在测验项目上所得分数并无差别,项目提供不出被试水平差异的信息,它的区分能力就弱,更糟糕的是,高水平被试在测验项目上反而得低分,低水平被试在测验项目上所得分数却不低,这种项目的性能就跟测验目的相违背,只会起破坏作用。所以,项目区分度是测验性能的一个重要指标,说明的正是项目对测验目的来说的有效性程度区分度指数的求法计算被试在该项目上的得分与其测验总分的相关系数。如相关一致性高就认定该项目区分力强;如果相关低,甚至负相关,就认定为区分力弱整形无效的项目。这里,确定项目区分度的标准就是测验总分,要考察总分高的被试在该项目上是否也得高分,总分低的被试在该项目上是否也得低分。显然,这种标准就是测验内部而非测验外部标准。假定有30名被试在两个项目上的题分以及全卷总分情况如下表,请计算项目①与项目②的区分度项目①计算项目①的区分度指数,也就是计算被试在该项目上的得分与总分的相关系数。项目①为二分称名变量,总分为连续变量,该用哪种相关法?pqSXXrxqppb需要用点双列相关,点双列相关公式为:答对被试的比率为:p=18/30=0.6答错被试的比率为:q=0.4答对被试的总分平均成绩:(100+100+98+…+)÷18=69.94答错被试的总分平均成绩:(90+79+89+…+0)÷12=59.42所有被试总分标准差:29.2318.04.06.023.2942.5994.69pbrD项目②项目2与总分都为连续变量,应该采用哪种相关方法呢?积差相关的公式为:22YYXXYYXXriiiixy采用软件分析,得到结果为79.0xyrD高低分组法求取项目区分度指数的主要办法,是求题分与总分的相关系数。但是,还有一种“高低分组求得分率差”的办法。方法:将全体被试按总分寡加以排队,然后取得分最多的27%的被试作为“高分组”,得分最少的27%的被试作为“低分组”,最后求这两个组上项目得分率(通过率)的差来作为区分度指数的取值。D=PH–PL以上面的30名被试为例先将30名被试的总分从高至低排序30人的27%:30*27%=8.1=8(人)计算高分组8人的得分率PH:PH1=0.63;PH2=4.44/5=0.89计算低分组8人的得分率PL:PL1=0.50;Pl2=2.06/5=0.41D1=PH1–PL1=0.13;D2=PH2–PL2=0.48用高低分组法丢弃了中部的数据,因此只能是较为粗糙的估计值,当被试总人数够多,高分组与低分组容量都相当大时,这种估计值还是可以满足实用要求的。所以高、低分组法,是一种常用的项目区分度指数求取方法。项目区分度指数的取值范围,跟一般的相关系数的取值范围一样,在-1.00至+1.00之间。如果项目区分度指数D≤0.20,项目应该被淘汰如果0.2<D<0.3,需要修改如果0.3≤D<0.4,合格如果0.4≤D,性能优良测验信度测验信度,就是测验在测量它所测特质时得到的分数的一致性(稳定性)。它是反映测验性能的一个重要的质量指标。各种类型的测量,无论是物理测量还是教育与心理测量,先后对同一对象施测,所得测量值都很难做到绝对一致。同一教育与心理测验先后向同一被试对象施测,所得测值会系统地起伏变化,原因是多方面的。这可以是由于测验项目抽样不妥,或语言表达引起误解,也可以是施测环境影响,施测时指导语、完成时限、主被试关系的影响或者是评分过程的偏向与误差,还可以是被试的动机和情绪等因素所造成的。测验信度,就是指对这种无系统的随机误差的控制。测验本身抗干扰能力强,测验实施过程各方面误差因素都控制得好,多次施测时所得分数的一致性程度就会好,这就叫测验信度高,人们在使用所得测值时就会感觉可靠。改进测验信度,就是要努力从各个方面控制测量误差,使所得分数(测值)尽量接近被试在所测特质上的真值。如果从测验实施过程中实际得到的被试分数,叫做观察分数,这可记为X;被试在所测特质上客观具有的水平值,叫真分数,这可记为T,那么,观察分数与真分数的差就是测量误差,它可记为E。X=T+E信度的测量方法与种类重测相关法(重测信度)平行相关法(复本信度)内部一致性系数法(折半系数,a-系数)重测信度同一测验向同一批被试重测两次,将得到的两批独立测值进行相关分析,求出相关系数,就可为测验信度的估计值。这样的相关系数,就叫信度系数,一般记为rxx。例如,编制了一个词汇理解测验,测试一批被试共15人,头一次测验与第二次测验分开独立进行,间隔时间两周。所获资料如下表:计算两次测验的相关系数——积差相关Rxx=0.94由于重测法十分强调特质的稳定性,所以,用这种方法求取的信度系数就叫做稳定性系数大家讨论一下重测信度的局限性复本信度复本信度是指通过使用两个平行形式的测验来测查同一批被试,这样也可获得同一批被试的两批独立值,从而通过求相关系数,估出测验的信度。这要求两个测验所测的东西实质完全相同,只是使用的具体测验项目不同。这种用平行形式相关求得的信度系数,因为特别强调两测验形式的等值关系,所以又叫等值性系数。内部一致性系数利用单一测验内的项目之间的一致性关系来估出测验信度。常用的有折半相关系数,a系数折半相关系数“折半”是指将一个测验拆成两个半测验,再计算两个半测验的相关系数,通过此相关系数来估计整个测验的信度。拆分测验,可以采用项目序号拆分,奇数项目构成半个测验,偶数项目构成另外半个测验,例如:rxx=0.86由“半测验”得来的相关系数,还需要进行校正,才能得到估计“全测验”的信度系数,校正公式是:xxxxurrr12ru是经校正后的“全测验”信度系数值rxx是“半测验”上的信度系数值92.086.0186.02ura一致性系数用折半法求测验信度系数,可以利用单一测验形式作施测所得数据来进行,显得简单有效。但问题是要把一个现成的测验分拆成真正平行等值的两半,却并不容易。那能否不作分拆而直接利用单一形式作一次施测所获资料来估计测验信度呢?于是就有人研究提出了求a-系数的办法,公式是:20211SSnnarixxa就是测验信度系数n是测验所含项目个数是被试在第i个项目上得分的方差是被试总分的方差2iS20S92.004.3156.256.236.104.31144arxx折半法(经校正)求信度系数,可以看成在测验内部求项目间的相关;研究说明,求a-系数,也可看成在测验内部求项目间的相关。因此,折半相关系数和a-系数都被叫做测验的内部一致性系数。测验的内部一致性系数取值高,说明测验项目同质性好,都在有效测查同一特质。信度系数的应用信度系数取值大,所得测值偏离真分数值的幅度就小,误差就得到了较好控制。而实际测验中所得测值偏离真分数的程度,被叫做测量标准误差。可记为SEM,它跟信度系数之间显然存在着必然的联系。这种关系可定量地表示为:xxXrSSEM1rxx是测验的信度系数;SX是被试在该测验上所得观察分数的标准差。假设52名被试在拼写测验中,所得分数的标准差SX=9.48,已知拼写测验的信度系数rxx=0.92,按照上述公式,该测验的测量标准误为:68.292.0148.9SEM也就是说,该拼写测验所测52名被试的真分数,并不恰好就是所测到的观察值。观察分数与真分数有一定程度的偏离,大约偏离2.68分。就最高分59分的被试来说,其真分数值应为59+2.68=61.68(分),或59-2.68=56.32(分),或其间的任何一个值。从以上公式可以看出,测量标准误的大小,取决于测验值信度系数rxx取值的高低。rxx值越高,则观察分数偏离真分数越小。假设上述例子中测验的信度为0.82,则其SEM=4.02;如果信度为0.98,则其SEM=1.34.一个测验其信度系数rxx的取值处在0.00和1.00之间;当然值越高越好。一般来说,公开大规模使用的标准化测验,其信度系数的取值不应小于0.90;主要用来起预测作用的标准化测验,希望能更大一点,最好能接近或大于0.95;当然,教师自编的课堂测验,对其信度系数值的要求就不能过高测验效度测验效度,就是测验实际上测到它打算要测的东西的程度。真正测到了要测的东西,就是有效、效度高;否则,就是无效或不十分有效,就是效度低。显然,测验只有真正测到了要测的特性、特质、结构,测验结果即测验分数的应用与解释,才能起到它应起的作用,才能发挥出有效性。因此,测验效度就是测验工具的正确性问题,是测验分数的真实有效性问题,是测验质量高低的根本表现所在,是测验性能的最重要的指标。心理与教育测量具有间接性特点,所测对象是被试的内部心理特性、特质或结构,测量工具是否真正测到了它,绝非一目了然,而且,这种特性、特质、结构本身到底什么样,许多都没有公认的定义,甚至还存在严重的分歧。如语言能力和水平,就是一个不很清楚概念,它的内涵与外延是什么,存在着分歧,那测量语言能力就存在着很大的