第五章人才测评的信度和效度本章要点:1.信度和效度的含义及其作用2.信度、效度评定的方法3.影响信度、效度的因素本章要求:1.充分认识信度、效度在人事测量中的重要性2.了解和掌握人事测量量表信度、效度的评价方法第二节人事测量的信度一、信度的定义1.信度指测量结果的可靠性或一致性。测验量表或问卷必须具有较高的信度。例如:能力与学习成绩测验:0.90以上。性格、兴趣、价值观测验:0.80以上。2.误差(1)抽样误差:由抽样变动而造成的误差。信度估计时抽样误差可以忽略不计。(2)系统误差:与测验目的无关的因子所引起的恒定的、系统的、有规律变化,存在于每次测验中的误差。系统误差与效度有关,与信度无关。(3)随机误差:使用测量工具进行心理测量时所造成的误差,无规律性。测量误差与信度、效度都有关,信度则完全受测量误差的影响。3.信度考虑的问题(1)稳定性问题①测验分数一致性的程度。②一个人的获得分数与“真实分数”之间的接近程度。③测验的测量一致性是否可以达到实际应用的程度。(2)影响稳定性的原因①什么因素造成了这种误差?②这些效应的相对作用如何?二、信度的作用1.信度的表示——信度系数信度系数一般指同一样本所得的两组资料的相关。信度系数的理论公式:rxx=rxr2=ST2/SX2其中,ST是真实分数标准差,SX是实得分数标准差。rxr=ST/SX也称为信度指数。(2)说明可以接受的信度水准一般的能力测验与成就测验,信度系数应该在0.90以上;人格、兴趣等测验的信度系数通常应该在0.80~0.85之间。当rxx0.70时,不能用测验对个人做评价,也不能在团体间做比较;当rxx0.7时,可用于团体间的比较;当rxx0.85时,可用于鉴别个人。(1)解释真实分数与实得分数的相关①信度可以解释总方差中有多少比例是由真实分数的方差决定的。②信度系数告诉我们测量的误差比例是多少。2.信度的作用三、信度的评定方法1.重测信度(1)定义:重测信度又称为稳定性系数,用同一测验,在不同时间对同一群体施测两次,这两次测量分数的相关系数(采用积差相关系数)即为重测系数。(2)重测信度所考察的误差来源:时间的变化所带来的随机影响。例如由气候、偶然的噪音或其他干扰,以及引起被试本身身心状态变化的因素,如疾病、疲劳、情绪波动、焦虑等原因造成的对测量结果的影响。(3)注意问题①重测间隔的时间。②重测信度一般只反映由随机因素导致的变化,而不反映被试行为的长久变化。③不同的行为受随机误差影响不同。(4)适用范围①解决问题型测验不适宜使用。②不大容易受重复影响的测验,如感觉一运动测验或人格测验,比较适合用重测法计算信度系数。2.复本信度(1)定义:复本信度又称等值性系数,它是以两个测验复本(功能等值但题目内容不同)来测量同一群体,然后求得应试者在这两个测验上得分的相关系数(积差相关)。(2)测验目的:考察两个测验复本的题目取样或内容取样是否等值。(3)测验方式①同时施测:实践中,一半被试先做其中的一个复本,另一半被试先做另一个复本。②不同时施测:所测得的是重测复本信度,更为严格。(4)优缺点①优点:能够避免重测信度的一些问题,如记忆效果、练习效应等;适用于进行长期追踪研究或调查某些干涉变量对测验成绩影响;减少了辅导或作弊的可能性。②局限性:只能减少而不能消除练习的影响;有些测验的性质会由于重复而发生改变。有些测验很难找到合适的复本。3.内部一致性信度(1)定义:主要反映测验内部题目之间的关系,考察测验的各个题目是否测量了相同的内容或特质。内部一致性信度分为分半信度和同质性信度。(2)同质性信度①定义:所有测验题目测量的只是单一特质或内容,表现为所有测验题目得分的一致性。(3)分半信度①定义:通过将测验分成两半,计算这两半测验之间的相关性而获得的信度系数。②方法:在测验实施后将测验分为等值的两半,并分别计算每位被试在两半测验上的得分,再求出这两个分数的相关系数。一般采用奇偶分半的方法,即将测验按奇数题和偶数题分成两半。4.评分者信度(1)定义:不同评分者对同样对象进行评定时的一致性。(2)方法:最简单的估计方法就是随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相关系数。(3)计算方法:①积差相关法②斯皮尔曼等级相关法③肯德尔和谐系数(评分者在三人以上,而且又采用等级记分)四、影响信度的因素1.样本团体的性质样本团体的性质对信度的影响主要有以下三个方面:(1)样本团体的分数分布任何以相关系数表示的信度系数都会受样本团体分数分布的影响。分数分布越广,信度系数就相对越高,分数分布越窄,信度系数就会越低。(2)样本团体的异质性一般来说,取样团体的异质性越大,信度系数就相对越高。(3)不同团体间能力水平的差异2.测验的长度(题目的多少)一般来说,测验越长,信度值越高。一方面,测验越长,题目取样或内容取样就越充分,结果就越可靠。另一方面,较长的测验也不容易受到猜测的影响。3.测验的难度天花板效应——一个测验的难度太低,测验分数会非常集中并聚在高分端。地板效应——测验难度太大,所有分数都集中在低分端。它们都会使测量到的分数分布太窄,导致信度降低。只有当测验的难度水平能够使测验分数分布范围最大时,测验的信度才会比较理想。一般来说,当所有被试的平均分为测验总分的一半,并且分数从零分到满分分布时,测量的信度最高。第三节人事测量的效度一、效度的定义1.理论定义:效度指与测量目标有关的真实分数方差(即由测量目标变量所产生的方差)与总分方差的比率。rXY=Sv2/SX2,Sv其中是有效方差,SX是总方差。而SX2=ST2+SE2=SV2+SI2+SE2可见,造成测验分数变化的原因出自三大来源:测量对象本身的变化,量具的精度造成的系统误差,量具使用中造成的随机误差。2.信度和效度的关系(1)信度考虑的是随机误差的影响,而效度的误差还包括系统误差。例:游标卡尺,钢琴(2)信度是效度的必要条件。效度高必然信度高,但信度高并不保证效度必然会高。效度的最大值是信度系数的平方根。例:磅秤测量身高;南辕北辙3.效度的性质(1)“测验的效度”指的是“测量结果的效度”,即测量结果的准确性程度。(2)效度是连续的,只有高低差别,而非“全有”或“全无”变量。(3)效度的高低是针对测量目标而言的。(4)效度并非直接测量得到的,而是从已有的证据推理而得的。二、效度评定的方法(一)内容效度1.定义:检查测验内容是否是所要测量的行为领域的代表性取样的指标。内容效度分析时要注意两方面的问题:1)应避免将测验取样的行为领域过于泛化。2)要注意测验分数中无关因素的影响。2.内容效度的评估方法(1)没有可用的数量化指标,只能靠推理和判断评估。(2)依赖条件:●测验内容范围明确;●测验内容的取样有代表性。(3)确定方法:通常是由专家根据测验题目和假设的内容范围作系统的比较判断。也可间接借用其他统计指标说明,如评分者信度,复本信度等。确定内容效度的步骤1)确定总体范围,即描述有关的知识与技能及所用材料的来源;2)编制双向细目表,确定内容和技能各自所占的比例,并由测验编制者确定各题所测的是何种内容与技能;3)制定评定量表来测量测验的整个效度及其他特点。3.内容效度的应用(1)最适合于评估教育和职业成就测验。内容效度的评价可以回答以下两个问题:①样本的代表性;②无关因素的影响程度。(2)评价某些用于选拔和分类的人事测验。(3)不适用于能力倾向测验和人格测验。(二)效标关联效度(效标效度)1.定义:反映测验分数与外在标准(效标)的相关程度,即测验分数对个体的效标行为表现进行预测的有效性程度。效标关联效度往往用于预测性测验。这种测验中,根据测验分数作出的预测一般用于甄选决策。2.效标关联效度的类型(1)预测效度①定义:反映由测验分数对任一段时间间隔后被试行为表现的预测程度。②适用范围:对人员进行选拔、分类和安置的人事测验。(2)同时效度①含义:效标材料和测验分数同时搜集。②应用范围:因为同时效度的评估不需要长期追踪,所以应用比较普遍。(3)同时效度和预测效度的差异——测验目的不同。前者多用于诊断现在的状态,后者多预测未来的结果。3.效标和效标测量(1)效标:衡量测验有效性的参照标准。(2)效标测量:可操作的测量指标。(3)效标分类:观念效标:效标的实质概念内容。效标测量:即效标的具体度量方法。(4)保证效标测量客观性的要点:①避免偏见的影响(特别是等级评定)。②防止效标污染。效标污染——由于评定者知道测验分数而影响个人的效标成绩的情形。4.常用的效标(1)学术成就。这种指标常作为智力测验的效标,其逻辑假定是:智力高(以高IQ分数为标志)的人,其学术成就也应当越大。相应的常见的效标测量有:在校成绩、学历、标准成就测验分数、教师对学生智力的评定、工作中的研究成果、有关的奖励和荣誉等。也可以作为某些多重能力倾向测验和人格测验的效标。(2)特殊训练成绩。能力倾向测验:被试在将来某种特殊训练中所取得的成绩。多重能力倾向测验:学校中类似课程的成绩。(3)实际工作表现。这种效标可用于起选拔作用的一般智力测验、人格测验及能力倾向测验等。(4)团体对照。①方法:用两个在效标表现上有差别的团体,比较他们在预测源分数上的差别。②应用范围:学业成绩或工作业绩。人格测验(团体对比法)。(5)等级评定。这种评定往往由应试者的老师、同学、上级、同事等观察者作出。这种评定不局限于对应试者某种成就(如工作绩效)的评定,也可以包括观察者根据测验所欲测量的心理特质在被评定者身上的表现而作出的一种个人判断。评定可以作为任何测验的效标,尤其适合人格测验,因为人格测验的客观效标很难找到。(6)先前有效的测验。一个新测验和先前有效测验的相关也经常作为效度的证据。当新测验只是现有有效测验的简式时,后者的成绩完全可以作为一种效标测量。纸笔测验可以用效度已知的操作测验成绩作效标测量;团体测验可用个体测验作为效标。只有当新测验比先前公认的有效测验更简单、更省时、更经济时,才能用后者作为效标。(三)构想效度1.定义:测验的构想效度是指测验能够测量到理论上的构想或特质的程度。所谓构想通常指一些抽象的、假设性的概念或特质,如智力、创造力、言语流畅性、焦虑等。这些构想往往无法直接观察,但是每个构想都有其心理上的理论基础和客观现实性,都可以通过各种可观察的材料加以确定。构想效度关注的问题是:测验是否能正确反映理论构想的特性。2.确定构想效度的步骤(1)建立理论框架,以解释被试在测验上的表现;(2)依据理论框架,推演出各种有关测验成绩的假设;(3)以逻辑和实证的方法来验证假设,根据这些累积材料决定这种理论是否能恰当地解释现有材料,如果不能作出恰当解释,则应该修正上述假设,直到能作出恰当的解释为止。3.确定构想效度的一般方法(1)测验内部的方法:如测验内容效度、内部一致性等指标;(2)测验间的方法:如相容效度、因素分析、会聚效度和区分效度等指标;(3)效标效度的研究:如发展变化等指标;(4)实验和观察方法:检验是否有构想效度。4.确定构想效度的指标1)发展变化。智力测验中最常用的标准是年龄差异。通常是考察实际年龄来观察测验分数是否逐年增加。2)与其他测验的相关。3)因素分析。因素分析是分析行为资料内部关系、结构特性的一种统计技术,比较适合于对构想效度的研究。通过因素分析可以找出测验中所包含的特质。4)内部一致性用来考验内部一致性的方法主要有三种:(i)考察总分数较高和较低两类人在各题目上通过率的大小,比较每个题目上总分最高的27%的被试与总分最低的27%的被试,如果前者在该题上的通过率显著大于后者(一般要求在30