细说试题的难度、区分度、信度和效度以及对高考复习的启示

zz8tt
2 ℃
2020-04-17

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

Page1of7细说试题的难度、区分度、信度和效度以及对高考复习的启示一.试题的难度（一）什么是难度难度是指试题的难易程度，是评价考试的一个非常重要的一个指标。一个题目，如果大部分考生都能答对，那么这个题目的难度就小；如果大部分考生都不能答对，那么这个题目的难度就大。客观题难度计算公式：P（难度指数）＝试题答对人数/考生人数；主观题难度计算公式：P＝试题平均得分/试题满分。试卷难度计算公式：P＝为平均分，K为试卷满分值。易、中、难的标准为：易：P≥0.7，中：0.4≤P≤0.69，难：P≤0.39；P值越大，难度越低，P值越小，难度越高。一般来说，难度值平均在0.5最佳，难度值过高或过低，都会降低测验的信度。当然，在实际的评价过程中，测验的难度水平多高才合适，也还要取决于测验的目的。如果教师要对学生的知识准备状况进行一次诊断性测验，为了真实、准确地了解学生的知识掌握情况，测验难度大一点也是正常的。（二）难度的计算（1）客观性试题难度P（这时也称通过率）计算公式：P=k/N（k为答对该题的人数，N为参加测验的总人数）（2）主观性试题难度P计算公式：P=X/M（X为试题平均得分；M为试题满分）（3）适用于主、客观试题的计算公式：P=（PH+PL）/2（PH、PL分别为试题针对高分组和低分组考生的难度值）在大群体标准化中，此法较为方便。具体步骤为:①将考生的总分由高至低排列；②从最高分开始向下取全部试卷的27%作为高分组；③从最低分开始向上取全部试卷的27%作为低分组；④按上面的公式计算。例1：一次生物测试中，在100名学生中，高低分组各有27人，其中高分组答对第一题有20人，低分组答对第一题的有5分，这道题的难度为：PH=20/27=0.74PL=5/27=0.19P=(0.74+0.19)/2=0.47整个试卷的难度等于所有试题难度之平均值（包括主、客观试题）。（三）试题难度的一般要求就高考来说，难度以适中为宜，单个试题的难度以0.3--0.7之间为好，整卷以0.5--0.6之间为最佳。一般将难度值大于和等于0.7的试题定为容易题；大于0.4和小于0.7的定为中档题；小于和等于0.4的试题定为难题。命题时难度一般要按一定比例分配，如3：6：1或3：5：2，一般说来，容易题、难度系数为0.95-0.75，中档题为0.74-0.6，难题为0.59-0.20。二.试题的区分度（一）什么是区分度区分度是指考试题目对考生心理特征的区分能力。区分度高的试题能将不同水平的考生区分开来，水平高的考生得高分，水平低的考生得低分。区分度高的考试，优秀、一般、差三个层次的学生都有一定比例，如果某一分数区间学生相对集中，高分太多或不及格太多的考试，区分度则低。Page2of7（二）区分度的计算1.单个选择题目区分度的计算将全体考生总分从高到低排列，将总分最高的27%考生定为高分组，总分最低的27%考生定为低分组，分别计算两组考生在某道题目上的通过率，两个通过率之差就是这道题的区分度（又叫鉴别指数）。计算公式为：D=PH-PL.PH和PL分别为高分组和低分组的通过率。2整个试题的区分度计算（常用）计算公式为：D=2（XH—XL）/W其中D为试卷区分度，XH为27%高分组平均分，XL为27%低分组平均分，W为试卷总分。一般也将全体考生总分从高到低排列，将总分最高的27%的考生定为高分组，总分最低的27%考生定为低分组，再分别计算各组的平均分。如：一份满分100分的试卷，高分组平均得分90分，低分组平均得分60分，则区分度为2（90-60）/100=0.6一道题值2分的试题，高分组平均得分1.5分，低分组平均得分0.5分，则区分度为2（1.5-0.5）/2=1（三）试题区分度的一般要求区分度（D）的取值范围介于-1.00至+1.00之间。通常D为正值，称为积极区分；D为负值称为消极区分；D值为0称为无区分作用。具有积极区分作用的试题，其D值越大，区分的效果越好。试题的区分度在0.4以上表明此题的区分度很好，0.3～0.39表明此题的区分度较好，0.2～0.29表明此题的区分度不太好需要修改，0.19以下表明此题的区分度不好应淘汰。高考的区分度一般要求在0.3以上，表示高分组的学生比低分组的学生能多得30%的分数。一般认为，区分度的数值达到了0.3，便可以接受；低于0.3的题目，区分能力就差了。三.试题的信度信度是指使用同一试卷对考生重复测验时，或两个平行试卷对考生测验时，所得测验分数的一致性和稳定性程度。信度除了要说明成绩的真实性之外，还要说明题目涉及的内容与教学的相关程度。信度系数愈高即表示该测验的结果愈一致、稳定与可靠。系统误差对信度没什么影响，因为系统误差总是以相同的方式影响测量值的，因此不会造成不一致性。反之，随机误差可能导致不致性，从而降低信度。信度可以定义为随机误差R影响测量值的程度。如果R=0，就认为测量是完全可信的，信度最高。信度的定义信度主要是指测量结果的可靠性、一致性和稳定性，即测验结果是否反映了被测者的稳定的、一贯性的真实特征。和信度相关的一个概念是效度，信度是效度的前提条件。信度只受随机误差的影响，随机误差越大，信度越低。因此，信度可以视为测试结果受随机误差影响的程度。系统误差产生恒定效应，不影响信度。测试信度(testreliability)也叫测试的可靠性，指的是测试结果是否稳定可靠。也就是说，测试的成绩是不是反映了受试者的实际语言水平。例如，如果同一套测试在对同一测试对象（即受试者本身没有变化）进行的数次测试中，受试者的分数忽高忽低的话，则说明该测试缺乏信度。测试的信度与测试的效度有着密切的关系。一般说来，只有信度较高的测试才能有较高的效度，但效度较高不能保证信度也一定较高。测试的信度主要涉及到试题本身的可靠性和评分的可靠性这两个方面。试题本身是否可靠主要取决于试题的范围、数量、试题的区分度等因素；评分是否可靠则要看评分标准是否客观和准确。测试的信度通常用一种相关系数（即两个数之间的比例关系）来表示，相关系数越大，信度则越高。当系数为1.00时，说明测试的可靠性达到最高程度；而系数是0.00时，则测试Page3of7的可靠性降到最低程度。在一般情况下，系数不会高到1.00，也不会降到0.00，而是在两者之间。对信度指数的要求因测试类别的不同而不同，人们通常对标准化测试的信度系数要求在0.90以上，例如“托福”的信度大致为0.95，而课堂测试的信度系数则以0.70-0.80之间为可接受性系数。测试信度的计算方法有很多种，以下仅介绍三种易于操作的方法：1）重测法（theretestingmethod）。用同一套试卷在两个不同时间内来测试同一批受试者，这样便获得两组分数，然后计算出两组分数的相关系数。当然，在两次测试中，学生第二次的测试成绩理应比第一次的要高，因为在第二次测试时学生已经有了进步而且临场经验也更丰富了。但是若该试题是比较可靠的，每个学生在两次测试中的排名次序应该是基本不变的。2）交替形式法（thealternativemethod）。对同一批受试者使用试题类型完全相同，难易程度相当，但具体题目不同的两套对等试卷先后进行两次测试，然后计算出两次得分的相关系数。3）对半法（thesplit－halfmethod）。测试只进行一次，但将整份试卷的题目按单、双数分成两组来分别计分，算出两组分数的相关系数，然后再用Spearman－Brown的公式计算整份试卷的信度系数。具体计算步骤是：将两组分数的相关系数乘以2，再除以1加两组分数的相关系数。每一个测试的实得分数（X）总是由真实分数(T)和误差(E)两部分构成的，用公式表示如下：X=T+E如果我们讨论一组测验分数的特性时，可用方差代表具体分数，得到公式：S^2（x）=S^2(t)+S^2(e)公式中，S^2（x）是实得分数的方差，S^2(t)是真分数的方差，S^2(e)是误差的方差在测量理论中，信度被定义为：一组测量分数的真分数方差与中方差（实得方差）的比率。即：r(xx)=S^2(t)/S^2（x）由于真实分数的方差是无法统计的，因此转化为：r(xx)=S^2(x)-S^2(e)/S^2(x)=1-S^2(e)/S^2(x)因此，信度也可以看做是总方差中非测量误差的方差所占的比例信度的指标一、信度系数与信度指数大部分情况下，信度是以信度系数为指标，它是一种相关系数。常常是同一被试样本所得到的两组资料的相关，理论上说就是真分数方差与实得分数方差的比值，公式为：r(xx)=r^2(xt)=S^2(t)/S^2（x）公式中r^2(xt)是真分数标准差与实得分数标准差的比值，称作信度系数，公式为：r(xt)=S(t)/S(x)可见信度指数的平方就是信度系数。二、测量标准误信度系数仅表示一组测量的实得分数与真分数的符合程度，但并没有直接指出个人测验分数的变异量。我们可以用一组被试两次测量结果来代替对同一个人的反复施测，于是有了信度的另一个指标，公式为：SE=S(x)√1-r(xx)公式中SE为测量的标准误，S(x)是所得分数的标准差，r(xx)为测验的信度系数，从公式我们可以看出测量的标准误与信度之间有互为消长的关系：信度越高，标准误越小，信度越低，标准误越大。Page4of7影响信度的因素一、样本特征1、样本团体异质性的影响2、样本团体的平均能力水平的影响二、测量长度一般来说，在一个测试中增加同质的题目，可以使信度提高。需注意的是，增加测验长度的效果应当遵循报酬递减原则。通过斯皮尔曼-布朗公式的导出公式可以计算出最少应增加的题目：K=r(kk)*(1-r(xx))/r(xx)*(r(kk)-1)K为改变后的长度与原长度之比，r(xx)为原测试的信度，r(kk)为测验长度是原来的K倍时的信度估计。三、测验难度理论上说，只有测验难度为50%时，才能使测验分数分布范围最大，求得的信度也最高。事实上，难度为0.50只适合于简答型题目，对于选择题目由于猜测因素，难度值应当提高，洛德提出在学习成绩中，为了保证其可靠性，各类选择题的理想平均难度为：五择一测，0.70；四择一测，0.74；三择一测，0.77；是非题。0.85在实际情况下，如果某个测验适用范围广，其难度水平通常适用于中等能力水平的被试，而对较高水平的被试和较低水平的被试可能较易或较难，使得分数分布范围缩小，信度水平降低，因此一个标准化的测验，应根据不同能力水平的报告测验的难度，以作为选择测验的参考四、时间间隔时间间隔只对重测信度和不同时测量时的复本信度有影响，对其余的信度来说，不存在时间间隔问题。注：我们对一套问卷的信度检验值（一般是指克隆巴赫阿尔法信度系数）有时会出现过低的情况，可能的原因有：1、试卷本身设计不合理，不是围绕一个主题或是有矛盾的题目。如果试卷中有题目让完全相同的人选择不同的答案，试卷的信度会降低。2、题目区分度过低，特别指有对错之分的题目。如果一道题正确率或错误率达到90%，可以从新审视题目设计是否合理。区分度过低的题目中真实偏差的成分较少，随机偏差的成分相对较多，试卷的信度会降低。3、无关变量进入信度检验。除了重测信度，其他信度检验方法都只考虑有序变量，无序变量，如出身城市，喜好颜色等，如果我们没有对城市或颜色排序的话，带入信度检验意义难明，可能会导致试卷的信度降低。4、题目选项反序。对有序变量，如果变量值之间序的意义相反，会降低甚至得出负的信度。比如检验老师对学生评分的信度，如果一个老师的评分以10分为最高分，1分最低，另一个以1分最高，10分最低。如果不经处理带入信度计算，信度会降低。信度评估的方法一、重测信度，又称为稳定性系数，它的计量方法是采用重测法：用同一测验，在不同时间对同一群体施测两次，这两次测量分数的相关系数即为重测系数。重测信度所考察的误差来源是时间的变化所带来的随机影响。在评估重测信度时，必须注意重测间隔的时间。对于人格测验，重测间隔在两周到6个月之间比较合适。在进行重测信度的评估时，还应注意以下两个重要问题：⑴重测信度一般只反映由随机因素导致的变化，而不反映被试行为的长久变化。