试题质量分析试题质量分析是对测试结果做出正确评价的前提。只有试题质量符合要求的测试结果,才能作为评价的依据。通过试题质量分析,能为进一步修改试题提供依据,有助于提高命题的技能、技巧。内容提要教育测量的质量指标2试题质量的初步评价1第一节试题质量的初步评价一、测验分数的分布状态1、分数分布表对于一组大小不同的分数,先划分出区间,即等距离的组距,然后将数据填入相当的组内,所获得的表。127名学生,成绩在40~100分之间。全距R=Xmax-Xmin=100-40=60组数K=1.87(N-1)2/5=12.94-13组距=R/K=4.6-5学生成绩分布表分数区间中值Xc人数f占总人数的百分比40~444221.6%45~494743.1%50~545264.7%55~5957107.9%60~64621310.2%65~69671915.0%70~74722116.5%75~79771713.4%80~84821411.0%85~8987129.5%90~949275.5%95~10097.521.6%[40,45)[45,50)[95,100]精确组限表述组限不重不漏一、测验分数的分布状态2、分数分布直方图将分数的不同等级的频数用矩形块标绘的图表(每一矩形的面积对应于频数)。学生成绩次数分布直方图组距123456789101112一、测验分数的分布状态3、分数分布多边图找出直方图中每组的中值和该组次数对应点,并将相邻各依次连接,即可得出次数分布多边图。学生成绩次数分布多边图常见的考试分数的次数分布曲线正态分布正偏态分布负偏态分布双峰型分布平坡型分布陡峭型分布一、测验分数的分布状态4、根据分数分布状态进行粗略评价(1)正态分布说明测试结果与学生的实际情况一致,各种难度的项目比例合理。平均分(2)正偏态分布说明试题难度偏高,难度较大的项目比例偏大。(3)负偏态分布说明试题难度偏低,难度较低的项目比例偏大。(4)双峰型分布说明试题存在两极分化现象,即难度偏高的和难度偏低的项目较多,而中等难度的项目偏少,项目难度的分布不够合理。(5)平坡型分布说明试题中各种难度的项目比例接近。呈这种分布的试题区分度较高,但分数之间的差异偏大。(6)陡峭型分布说明试题中中等难度的项目较多。呈这种分布的试题几乎无法区分不同程度的学生,分数分布过于集中。二、平均分1NiiXXN设被测人数为N,每人的成绩分别为X1,X2,X3,…,XN,则平均分数为:平均数是表示一组数据集中趋势的量数。集中趋势(centraltendency)在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。二、平均分平均分过高或过低,说明试题过易或过难,不适应被测学生的实际水平。平均分的作用:可以作为一组分数的典型代表。根据平均分的值,可以判断试题的平均难度。平均分可用于试题质量的初步评价。三、标准差标准差:描述一组数据离散情况的最常用、最可靠的统计量数。S,σ21()NiiXXN一组测验分数,只有平均分是不足以表明其分布状况的。三、标准差标准差反映组内各值间的分散程度。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。三、标准差例如,两组数的集合{0,6,10,16}和{6,7,9,10}。其平均值为:标准差分别为:8,8342.5,正态分布四、相关1、相关:两列变量间的相互关系叫做相关。正相关:如果一列变量变动时,另一列变量也发生变动,而且变动的方向相同,则这两列变量是正相关。化学成绩数学成绩两次测验负相关则说明测验结果的稳定性极差,不能反映学生的真实水平,因而测验不可信,即信度低。负相关:如果一列变量变动时,另一列变量也发生变动,而且变动的方向相反,则这两列变量是负相关。二2、相关系数r的计算皮尔逊积差相关公式:Xi,Yi分别为连续变量X,Y中的成对数据;σX,σY分别为X,Y的标准差,N为被统计的成对变量的数目。计算相关系数时,N的数值一般应在30以上才有意义。r介于±1之间。1NiiiXYXXYYrN例:请计算数学成绩和化学成绩的相关系数。科目学生数学成绩(X)化学成绩(Y)19080260403503041008557050科目学生数学成绩(X)化学成绩(Y)190802604035030410085570501NiiiXYXXYYrNXY5370/574285/557=344=18.5476=21.8NXY,90748057+60744057+50743057+100748557+70745057518.521.8554==0.2752016.5r21()NiiXXN二二二第二节教育测量的质量指标科学地评价试题质量,主要反映在四项指标:效度、信度、难度、区分度。一、效度(Validity)测验的有效性指标。它说明一个测验究竟在多大程度上达到了测验的目的,也反映测量不受系统误差干扰的程度。1974年美国心理学会发行的《教育和心理测验的标准》一书将效度分为三大类:内容效度、效标关联效度、结构效度。内容效度:测量内容的代表性程度。以成绩测验来说,固然要求测验题目能代表所学习的全部内容,但如果测验题目大多是只需牢记教材就可以回答的问题,内容效度仍然不够高。1、估计内容效度的方法用测验题目与教材内容比较的方法需要制两个表:第一个是测验的双向细目表,分别列出所要测验的各单元教材内容在考题中应占的百分比和所要求的各种行为反应在全部反应中的百分比。知道理解运用通过双向细目表反映:(1)试卷内容的覆盖面如何?(2)各级行为目标所占的分数比例是否恰当?(3)各个题目的内容是否合理?是否符合要求?用测验题目与教材内容比较的方法第二个是测验试题分类表,根据各单元教材内容列出试题,并注明该题所要求的行为反应及其应占的比例。然后,对照这两个表,根据各个部分相符合的程度,判断内容效度的高低。2、提高效度的方法②精心编制量表。测验内容要确实能反映测验的目的;题目表述必须清楚、简明,所用字、词、句能被学生理解,排列由易到难,但前面的题目不应暗示后面的答案;题目难度合适,有足够的区分度;试卷印刷清楚,无错误和遗漏,力求精美。①控制系统误差。如指导语有暗示性、答案明显有组型等。④适当增加测验的长度。增加测验的长度可以提高信度,也可以提高效度。③妥善组织测验。掌握好测验的时间;评分要客观、准确;测验时间间隔的合理安排等。二、信度(reliability)测验的可靠性指标。它反映测验的稳定程度,具体说是在测量对象不变的情况下,两次测验的关联程度。1、计算方法再测信度、复本信度、分半信度等。分半信度:将一次测验的试题等值分成两半,相当于两次测验的两份试卷。前一半以X表示,后一半以变量Y表示。①计算相关系数r;21xxrrr②斯皮尔曼—布朗(Spearman-Brown)于1901年发现的经验公式计算信度。例:计算分半信度题目被试123456总分A1111004B1111116C1110003D1100103E1000001测验的题目分数及总分测验的1、2、3题为前一半,4、5、6题为后一半,进行分半信度计算。题目被试前三项X(1+2+3)后三项Y(4+5+6)总分A314B336C303D213E101半分信度计算步骤1NiiiXYXXYYrNXY512/52.45/51.0=0.81.2=1.1NXY,32.411+32.431+32.401+22.411+12.40150.81.12==0.4554.4r220.455==0.625110.455xxrrr21()NiiXXN信度系数多大为宜?信度在0.8以上基本合格,一般要求0.9以上。对于学科测验,信度系数要求达到0.9以上,智力测验要求达到0.8以上,品德测验能达到0.6以上即可。2、提高信度的方法(1)(1)kkxxxxkkrrKrr②适当增加测验题目的数量。测验题目的数量越多,题目的代表性就越大。设增加后的总题量与原题量的比值为K,则有;①测验的难度要适中。能使信度、区分度达到最大题数信度系数102030601201404800.3000.4620.5620.7200.8370.9110.954表.测验长度与信度和效度的关系王汉澜,《教育测量学》,河南大学出版社,1987,P93例题:某次测验的信度rxx=0.64,为了提高信度,使其达到rkk=0.80,则根据上式计算,得知0.8010.64=2.2512270.6410.80K,2、提高信度的方法④评分要尽量做到客观化、减少评分误差。③测验的内容应尽量同质。测验内容过于庞杂,必然要求学生具有不同的能力、知识或技能,致使测验的信度降低。三、难度(difficulty):每个试题的难易程度。1、客观题:某题答对人数的比例,设N为被测的总人数,R为答对的人数,则难度H=1-PRPN2、主观题:某题平均得分与满分的比值难度H=1-PXPX满3、难度(H值)H≤0.3较易;0.3H0.7适中;H≥0.7较难适宜难度一般要求大多数题目的难度在0.3~0.7之间,少数题目可在这一范围之两边且题目数(或题分)大体相当,使整个试卷的平均难度为0.5左右(0.45~0.55之间)。目的不同对难度的要求也不同。比如,选拔参加竞赛的学生,难度值就得偏大;选择补习功课的学生,难度值就得偏小。4、控制难度的基本方法一般来说影响题目难度的主要因素有:①考查知识点的多少;②考查能力的复杂程度或层次的高低;③考生对题目的熟悉程度;④命题的技巧性。四、区分度(discrimination)每个试题将考生水平(能力)区分开来的程度。一般常用两个极端组通过率的差异作为区分度的指标。首先,将被测者的试卷按总成绩的高低依次排列。取出27%高分数的试卷,作为高分组(H);在取出27%低分数的试卷,作为低分组(L)。然后,分析每个试题的区分度(区分度的数值用符号D表示)。1、客观题的区分度式中RH和RL分别为高分组和低分组中答对某个题目的人数,n为高分组或低分组的人数。(n=N×27%)HLRRDn2、主观题的区分度式中XH和XL分别为高分组和低分组某个题目的平均分,H和L分别是该项目的最高得分和最低得分。-HLXXDHL例:20名学生的简答题(10分)的得分情况如下:排序得分1323344555……..……..1681791891992010-945===0.7141037HLXXDHL2、区分度等级区分度D试题评价0.40以上优秀0.30~0.39良好,如能改进更好0.20~0.29差,需要修改0.19以下劣,必须淘汰或改进以提高区分度后方可使用美国人伊贝尔提出的评价试题区分度的指标4、提高区分度的方法①使题目的难度适中,使整个考试难度适中;②着重考察复杂的学习结果。这使高能学生能得高分或最高分,低能学生得低分甚至最低分,可以提高区分度。5、难度与区分度的关系一般难度适中的题目,区分度较高。难度太低的题目,所有受试者几乎都能正确回答;难度太高的题目,所有受试者几乎都不能回答,区分度必然很低。难度(P)1.000.900.700.500.300.100.00区分度的最大值0.000.200.601.000.600.200.00区分度的最大值与难度的关系只有适中的题目难度,才能使试题产生区分不同程度学生的最大效果,也才能使学生的成绩呈正态分布。小结试题质量的初步评价分数分布表1、测验分数的分布状态分数分布直方图分数分布多边图2、平均分3、标准差4、相关——正相关、负相关小结教育测量的质量指标1、效度2、信度3、难度4、区分度