第十章素质测评的质量管理•一、信度分析•二、效度分析•三、项目分析•第一节信度分析•一、信度的概念信度就是指测评结果反映所测素质的一致性,也就是说测评结果的稳定性、可靠性程度,即在相似情境下,用同一测评工具对相同个体重复施测,所得结果的一致性程度。1、信度测量的理论定义•(1)传统的信度理论认为:一个人的测验分数X是由真实分数(T)和误差(E)两部分构成的,公式是X=T+E。•(2)因此信度就被定义为:一组测量分数的真实方差与实得方差的比,或者是指真实方差占总方差的百分比。公式为:rxx=22TSXS(3)根据统计学理论,真实方差与实得方差的比是一个相关系数的平方,所以我们把这种相关系数的平方叫做信度系数。(4)计算公式为:rxx=22TSXS•该定义有两点要注意:(1)信度指的是一组测验分数或一列测量的特性,而不是个人分数的特性。(2)真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,只能根据一组实得分数作出估计。•信度设计所解决的主要问题是对测验分数的意义的概化能力,即从一次测量来推论总体(真实分数)能达到何种正确程度。xx•2、信度系数r•大部分的信度指标都是用相关系数来表示,即用同一被试样本所得的两组资料的相关作为测量一致性的指标,称做信度系数。•确定测验好坏的一个指标。一般的原则是:当rxx0.70时,测验不能用于对个人作出评价或预测,而且不能做团体间比较。当0.70≤rxx0.85时,可用于团体比较。当rxx≥0.85时,才可以用来鉴别或预测个人成绩或作用。•信度的范围:0.00——1.00•几种心理测验的信度系数•信度•测验类型低中高•成套成就测验0.660.920.98•学术能力测验0.560.900.97•成套倾向性测验0.260.880.96•客观人格测验0.460.850.97•兴趣问卷0.420.840.93•态度量表0.470.790.98•信度系数需要注意:•(1)在不同情况下,对不同样本,采用不同方法会得到不同的信度系数,因此一个测验可能会不止有一个信度系数•(2)信度系数只是对测量分数不一致性程度的估计,并没有指出不一致的原因•(3)获得较高的信度系数并不是测量追求的最终目的,它只是迈向目标的一个步骤,是使测验有效的一个必要条件•二、信度的类型和估计方法•(一)重测信度•重测信度又称为稳定性系数,它的计量方法是采用重测法:用同一测验,在不同时间对同一群体施测两次,这两次测验分数的相关系数即为重测系数。重测信度的计算方法是积差相关法,因而rxx就是皮尔逊的积差相关系数。r=N∑xy-∑x∑y/重测信度的优点是:首测和再测中使用同一套测评试题,较之编制两套等值测评题目要省时、省力;同一套试题无论施测多少次,所测评的属性是完全相同的;可作为预测被试者将来行为表现的依据,因为该方法提供了有关测评结果是否随着时间而发生变化的资料。])y∑(-y∑][Nx)∑(-x∑N[2222•重测信度的缺点是:如果前后两次施测间隔的时间选择不当,则测评易受练习和记忆的影响;同一组被试者对同一测试先后两次作答相互之间是不独立的;两次施测的环境不同不会产生测评误差。•重测信度的假设:•1、所测量的特性必须是稳定的•2、遗忘与练习的效果相同•3、在两次施测期间被试者的学习效果没有差别•由于以上几条假设难以做到,所以有些测验是不宜用重测法估计信度的。•一般在没有复本可用,而现实条件又允许重复施测的情况下才采用此方法•(二)复本信度•复本信度又称为等值系数,是指在测评性质、内容、题型、题量、难度等方面均一致的两个测量。其方法是,先精心编制两个互相平行的测验复本,然后用它们测量同一群体,则被试者在这两个测验上的分数的相关系数即为等值性系数。•同重测信度相比,复本信度控制了两次施测间的相互影响,因而既适用于难度测试,也适用于速度测试。但完全等值的复本只在理论上存在,实际应用中抽样误差在所难免,而且编制复本也需要很大精力。•(三)内部一致性信度•内部一致性信度主要反映的是测验内部题目之间的关系,考察测验的各个题目是否测量了相同的内容或特质。内部一致性又分为分半信度和同质性信度。•1、分半信度•分半信度系数是通过将测验分成两半,计算这两半测验之间的相关性而获得的信度系数。•2、同质性信度(homogeneityreliability)就是指测验内部的各题目在多大程度上考察了同一内容。•同质性是指测验的所有题目间性质的一致性,即测的是同一种心理特质或行为。•同质性是测量单一特质的必要条件。这里讲的同质性是指测验题目得分反映的心理特质一致•同质性的判别标准是:题目间呈高正相关,如果相关很低或是呈负相关,则题目为异质。•3、克隆巴赫系数法•(四)评分者信度•评分者信度(ratersreliability)是指不同评分者对同样对象进行评定时的一致性。•最简单的估计方法就是随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法,也可以采用斯皮尔曼等级相关方法。•如果评分者再三人以上,而且又采用等级计分时,就需要用肯德尔和谐系数来求评分者信度。•三、影响信度的因素•1、样本团体的性质•(1)任何相关系数都要受到团体中分数分布的影响,当分布范围增大时,其信度估计就较高;当差异减小时,相关系数随之下降,信度值则下降。•(2)信度系数也受到样本团体异质性的影响•(3)测验的信度不仅受取样团体中个别差异范围的影响,也会由于不同团体间平均能力水平的不同而有所不同•2、测验的长度•一般而言,测验越长,信度值越高。•(1)测验越长,则试题取样或内容取样越恰当•(2)较长的测验也不易受到猜测的影响•3、测验的难度•测验难度与信度没有简单的对应关系。但是,当测验分数分布范围缩小时,测验的信度降低。因此,如果一个测验对某团体而言太容易,会使所得分数都集中在高分端,当题目太困难时,得分会集中在低分端。这两种情况会使测验分数分布范围缩小而使结果变得不够可靠•第二节效度分析•一、效度的概念•所谓效度,是指测评结果对所测素质反映的真实程度。•效度考虑的问题主要有两个:一是测评测量什么;二是测量对测评目标的测量精确性和真实性有多大•对效度测评的理解:•1、效度是针对测评结果的•2、效度是针对某种特定的测评目的的•3、效度只有程度上的差异•二、效度的种类和估计方法•(一)内容效度•内容效度(contentvalidity)是检查测验内容是否是所欲测量的行为领域的代表性取样的指标。•内容效度注意的问题:1、针对性;2、全面性;3、代表性•好的内容效度须满足的条件:•1、要确定好的内容范围,并使测验的全部项目均在此范围内。•2、测验项目应是已界定的内容范围的代表性样本。•确定内容效度的方法1、专家判断2、复本法3、经验法•(二)结构效度•1、概念•结构效度指的是测验能够测量到理论上的结构或特质的程度,或者说用某种心理结构或特质来说明测验分数的恰当程度。•2、结构效度的确定方法•一、建立理论框架,以解释被试者在测评上的表现•二、依据理论框架,推演出各种有关测评成绩的假设•三、以逻辑和实证的方法来检验假设,如果不能作出恰当的解释,则应该修正上述理论假设,直到能作出恰当的解释为止•(三)效标关联效度•也称效标效度(criterionvalidity),它反映的是测验分数与外在标准的相关程度,即测验分数对个体的效标行为表现进行预测的有效性程度。•效标测量的注意事项:•1、效标要在理论上体现测验有效性的主要方面,即跟所研究的问题有实质性的相关•2、效标测量必须是客观的,要避免偏见的影响•3、在收集效标资料时,必须注意防止所抽取的代表性样本中个体的流失•4、效标测量必须稳定可靠,即有高的信度•效标污染(criterioncontamination),即由于评定者知道测验分数而影响个人的效标成绩的情形。•(四)表面效度•表面效度是指受测者、测验结果的使用者及一般大众对于某测验的试题和形式等所作的主观判断,判断该测验能否达到其所宣称的目的。•表面效度的改进方法:•1、依据特定的测验目的,修改测验名称、重新安排试题的用词用字,使它显得更切题、更合理•2、改进版面设计、印刷、装订、纸质,使得整个测验看上去是经过精心设计的,进而赢得使用者的重视•三、影响测验效度的因素(一)就内容效度而言:1、缺乏学科专家或资深教师参与拟题•2、双向细目表设计不良•3、预试的题数不多且品质不良,经试题分析淘汰部分试题后难以达到双向细目表上的要求•(二)就建构效度来说:•1、该测验的心理学理论建构尚不完备,有待加强或修改•2、题目设计不良,与原理论脱节•3、所提出待考验的假设不当•(三)表面效度方面•1、版面设计与印刷的品质不良•2、遣词用字不能配合受测者的程度与背景•3、指导手册或技术手册内容不够完备,未能作充分的沟通•(四)效标关联效度•1、样本的性质•2、事先筛选与样本同质性•第三节项目分析•项目分析是指根据被试者的反应堆组成测评的各个题目进行分析,从而评价其适用的程序和方法。•项目分析既能帮助测评使用者评价现有的各种测评,还非常适合特殊的和非正式的测评的编制•项目分析包括定性分析和定量分析。•定性分析包括考虑内容效度、题目编写的恰当性和有效性等•定量分析主要是指题目难度和区分度的测量•一、项目难度•难度是指题目的难易程度•在能力测验中通常需要一个反映难度水平的指标,在非能力测评中,类似的指标是“通俗性”,即取自相同总体的样本中,能在答案范围内回答该题的人数。•(一)难度的估计方法•1、二值计分题目的难度•(1)通过率法•如果忽略应试者作答时的猜测成分,二值计分的测验题目难度一般用通过率表示,即答对或通过该题目的人数占总人数的比•(2)高低分组法•当应试者人数较多时,计算难度的一个简便方法是,先将应试者依照测验总分的高低次序排列,然后分出人数相等的高分组和低分组,再分别求出此两组在每一题目上的通过率,以两组通过率的平均值作为每一题目的难度。•2、非二值计分的题目难度计算•很多测验题目是按多级方式计分的,如论述题,有从零分到满分之间的多种可能结果。对于这类非二值计分的题目,通常用平均得分率表示难度•(二)难度的确定•1、试题难度的确定•要看测评的目的是什么,测评的性质以及题目形式有什么特点•当p等于0.5时区别力最高,为了使测评具有尽可能大的区别力,应该选择难度在0.5左右的试题。•如果我们编制的一个测评是为了选拔或进行诊断,应该比较多地选择难度值接近录取率的题目。•编制的测评是要诊断或筛选出少量交叉的被试者,如果公司中的末位被淘汰,那么题目p值应该高,使得大部分的人都能够顺利通过,而只有那些差的被试者不能通过•2、测评难度的确定•人的心理特征基本上是呈正态分布的,因此大多数测评结果应该符合正态分布的模型。如果我们选择的被试者具有代表性,则测评总分应该接近正态分布•在某个测评分数出现了正偏态或负偏态时,并非都是需要修改的,因为有些效标参照的测评,出现偏态分布是允许的。•二、项目区分度•项目区分度,也叫项目鉴别度,是指测评的题目对于所研究的人的特性的区分程度或鉴别能力。•每个题目都可以看做一个独立的测评•三、项目反应理论•(一)项目反应理论的概念•项目反应理论又叫潜特质理论,它不是直接对被试者题目的反应进行统计分析的,而是找到被试者能力与题目反应概论之间的函数关系,通过这个函数来估计出被试者的能力•(二)项目反应理论的假设•1、潜在特质空间的单维性假设,在项目反应理论中,假定测评中的所有测题都是测量同一种能力(潜在特质)或者同一种能力的不同方面•2、题目间的空间独立性假设•3、项目特征曲线假设•4、非速度实验假设•(三)项目反应理论的优势•1、经典测评理论依据其项目分析法所得到的项目统计量受样本的抽样变动大•2、经典测评理论中,被试者的测评分数依赖于项目难度的高低,参加不同测验的被试者无法直接比较•3、经典测评理论中所用的平行测验或者说复本测验假设,在实际操作中是不可能实现的•4、经典测评理论无法预测被试者在一个新的测评项目