第七章项目分析导学项目分析是在组成测验之前,通过预测被试对组成测验的各个题目(项目)的反应进行的分析。它是编制和修订测验的重要环节。通过本章的学习可解决三个问题:一、掌握什么是测验的难度,如何计算测验的难度;(重点)二、掌握什么是测验的区分度,如何计算测验的区分度,难度和区分度的关系怎样;(重点)三、掌握项目分析的其他特殊形式。项目分析概述项目分析就是对组成测验的每个测题进行分析。质的分析量的分析应用:测题选择和编制(经典测量理论);测验等值、试题库、计算机自适应考试(现代测量理论)。第一节项目难度一、项目的难度1、定义难度,是指项目的难易程度。在能力测验中通常需要一个反映难度水平的指标,在非能力测验中,类似的指标是“通俗性”或者称为“流行性”,即取自相同总体的样本中,能在答案上回答该题的人数。2、估计项目难度的方法(1)以答对的百分比(或比率)来估计难度①二值记分(即只有答对和答错两种情况,记为1或0)的测题。P:试题的难度;R:答对题的人数;N:总人数。P值越大,则难度越小。RPN估计难度的方法②当测题不是二值记分时,计算难度的公式:全体考生在该题上的平均分;:该题的满分。③分组法重要前提:将被试按总分高低排列。一般标准为27%。计算公式:maxXPXXmaxX2HLPPP当被试人数较多时,则可根据测验总成绩将被试分成三组:分数最高的27%被试者为高分组(NH),分数最低的27%被试者为低分组(NL),中间46%的被试者为中间组。分别计算高分组和低分组的通过率,以两组通过率的平均值作为每一题的难度。其公式为:式中P代表难度,PH和PL分别代表高分组和低分组通过率。2HLPPP估计难度的方法(2)项目难度受机遇影响的矫正由于选择题允许猜测,所以通过率可能因机遇作用而变大。备选答案的数目越少,机遇的作用越大,越不能反映测验的难度。为了平衡机遇对难度的影响,吉尔福特提出了一个难度的校正公式:CP:矫正后的难度;P:未矫的难度;K:选项的数目11KPCPK(3)项目难度的等距量表以通过率作为难度指标,实际上是以顺序量表来表示难度,它仅仅能指出题目难度的顺序或相对难度高低。因此美国教育测验服务社建议用转换过的分数来表示试题难度值。其转换公式为Δ=13+4Z,(Δ为难度指标,Z为标准分数,13为转换公式的平均值,4为转换公式的标准差)由于Z分数通常只取±3之间的数值,因此可知:P=0.9987时,Z=-3,故Δ=13+4(-3)=1P=0.9772时,Z=-2,故Δ=13+4(-2)=5P=0.8413时,Z=-1,故Δ=13+4(-1)=9P=0.5000时,Z=0,故Δ=13+4(0)=13P=0.1587时,Z=+1,故Δ=13+4(+1)=17P=0.0228时,Z=+2,故Δ=13+4(+2)=21P=0.0013时,Z=+3,故Δ=13+4(+3)=25由此可见,常用的Δ值域介于1~25之间,Δ值越大,试题越难;Δ值越小,试题越容易。二.项目的平均数与方差(变差)项目的平均数项目的方差和标准差二值计分的非二值分级分的总分方差项目的方差与难度的关系P=0.5时,S2有极大值。22tiiijiijjSpqrpqpqRPNNNXXS222pqS2三.难度与测验分数的分布测验的难度直接依赖于组成测验的项目的难度。通过考察测验分数的分布,可以对测验的难度做出直观检验。由于人的心理基本上是呈常态分布的,而我们目前所采用的统计方法大都以正态分布为前提,因此大多数测验在设计时希望分数呈现常态分布的模型。如果被试样本具有代表性,对于中等难度的测验,其测验总分应接近常态分配。如果所获得的分数不是常态的,而是如图所示的a或b的情形,得分偏高或偏低,则为偏态分布。a为正偏态分布,即大多数得分集中在低端,说明编制的测验对于所要研究的样本团体来说偏难,因此必须增加足够数量的较容易的项目。b为负偏态分布,即大多数得分集中在高分端,说明测验过易,必须增加足够数量的有较高难度的项目。四、项目难度范围对信度系数的影响221etttSrS22×1ttttSpqnrnS项目的组间相关大,则测验的信度高。而项目组间相关高,那么它们的难度也越接近。第二节项目的鉴别力一、定义项目的鉴别力又称区分度,是指测验项目对所测量的心理特性的区分程度或鉴别能力。若区分度高,则水平高者得分高,水平低者得分低。若区分度低,则无鉴别力。二、估计方法1.项目鉴别指数区分度分析的一种简便方法是比较测验总分高和总分低的两组被试在项目通过率上的差别:D=PH-PL式中PH为高分组在某项目上的通过率,PL为低分组在某项目上的通过率。二者通过率之差为鉴别指数D。D值越大,项目的区分度越高,即项目越有效。1965年,美国测验专家伊贝尔根据长期的经验提出用鉴别指数评价项目性能的标准,如下表所示:鉴别指数(D)项目评价0.40以上0.30-0.390.20-0.290.19及以下很好良好,修改后会更佳尚可,但需修改差,必须淘汰估计方法2.方差法(测题的方差)方差越大,试题的鉴别力越大3.项目与总分相关说明项目与总分有一致性点二列相关;二列相关;皮尔逊积差相关。4.项目的组间相关四项(格)相关;Φ相关;皮尔逊积差相关。5.项目与外部准则的相关:项目效度分析6.区分度的相对性区分度的值亦具有相对性,这表现在以下四个方面:(1)采用不同的计算方法区分度的值不同(2)用相关法计算的区分度值受样本大小影响(3)用两个极端组通过率的差异作为区分度的指标,其值受分组标准的影响。(4)区分度的大小与样本的同质性有关。三、区分度与难度的关系区分度与难度有密切关系。例如,某项目的通过率为1.00或0,则说明高分组与低分组在通过率上不存在差异,因此鉴别指数D为0。假如,项目的通过率为0.50,则可能是高分组的所有人都通过了,而低分组却无人通过,这样D的最大值为1.00。从上面的分析中可以看出,难度越接近0.50,项目的潜在区分度越大,难度越接近1.00或0时,项目的潜在区分度越小。如下图与下表:00.20.40.60.81.0P1.00.60.40.20.8D项目通过率D的最大值1.000.900.800.700.600.500.400.300.200.10000.200.400.600.801.000.800.600.400.200D的最大值与项目难度的关系但是在实际编制测验中,不能要求所有项目的难度均为0.50。事实上,如果测验的所有项目都是中等难度,只有项目的内在相关为零时,整个测验才能产生正态分布。考虑到一般测验项目之间都有某种相关,难度的分布广一些,梯度多一些,是合乎需要的。难度与区分度都是相对的,是针对一定团体而言的。一般来说,较难的项目对高水平被试区分度高,较易的项目对低水平被试区分度高,中等难度的项目对中等水平的被试区分度高。由于人的多数心理特征呈正态分布,所以当需要人作最大程度的区分时,项目难度的分布也以正态为好,即特别难与特别容易的项目较少,越接近中等难度的项目越多,而所有项目的平均难度为0.50。项目难度、鉴别力、组间相关与测验信度、预测效度的关系组间相关、信度和效度的矛盾项目难度、组间相关对测验总分分布的影响结论:这几者之间的关系十分复杂,甚至相互矛盾妥协的方法:组间相关在0.10~0.60之间;项目与测验总分相关为0.3~0.8。第三节项目反应的实例操作步骤分析步骤选择样本组进行测量按测验总分排序,取高分组和低分组计算高分组和低分组的通过比率分别求出难度和鉴别力指数比较高分组和低分组在测题不同答案上的反应根据测题统计分析的结果,修改或选择合适的测题实例鉴别力:0.30以上的项目是比较好的。难度:一般在0.35--0.65之间,对整个测验来说,0.50的难度题应该居多。选项:选项分析的异常情况。正确答案无人选择或少于其它选项的选择;错误选项上低分组的人数少于高分组;选项无人选择;未答人数较多。找出原因,对各题进行修改。题号满分ABCDEFGHIJK1333033030033255055005550031088591037101057412101278559876752015101217151015171815106504530204235253838444023合计1008663498468437778846950第四节项目反应理论理论及应用经典测量理论的局限性抽样变动大能力难比较复本难实施缺乏预测力等测量标准误差IRT的特点基本思想:潜在特质基本思路确定被试的心理特质值和他们对于项目的反应之间的关系,这种关系的数学形式就是“项目反应模型”。IRT的核心就是数学模型的建立以及对模型中各个参数的估计。IRT的基本假设潜在特质空间的单维性假设大多数项目反应模型都假设完全潜在空间是单维的。局部独立性假设被试对一个测验项目的反应不受他们对其他测验项目反应情况的影响。项目特征曲线假设(ICC)反映了被试对某一测验项目的正确反应概率与该项目所对应的能力或特质水平之间的函数关系。项目反应模型二级评分IRT模型例:逻辑斯蒂模型单参数模型(拉希模型);双参数模型和三参数模型。多级评分IRT模型连续型IRT模型优点及运用能力参数估计的不变性。即个体独立于测验项目参数估计的不变性。即测验独立于个体提供被试能力估计值的精确度指标被试能力和项目难度在同一量表上,为测验编制、测题分数的报告和解释提供了便利。