第四章人员测评系统的构建与效度信度检验本章内容人员测评系统的构建与效度信度检验1、测评系统的构成2、测评的效度3、测评的信度4、信度与效度的关系及提升策略一、测评系统的构成人员测评过程:测评考官根据岗位需要,运用测评工具对被测人员施以刺激,被测人员对此刺激做出反应,测评考官对被测人员的反应情况进行度量与评价。•测评考官•测评工具•被测人员测评考官测评体系的主体,是决定人员测评能否成功的关键要素。在我国,测评考官分三类:•具有人员测评专门知识的专门人士(咨询师、高校教师、研究人员)•从事人力资源管理实务的专业人士(HR)•人员使用部门的资深人士(主管或骨干)测评考官应具备的基本素质:•良好的个人品格和道德修养•测评组织方面的知识(程序公平)和与测评内容相关的知识(评分公平)•测评技巧(无领导小组讨论中的座位摆放,面试中随机场景的设置等)•工作经验和社会经验(经验直觉判断)测评工具与方法•能力测验(一般能力、特殊能力)•成就测验(知识测验、工作样本测试)•人格量表(自陈式量表)•面试(结构化、非结构化)•评价中心(针对管理者)•书面信息分析(申请表、履历表、人事档案、推荐信)测评客体——被测人员•测评焦虑•测评前训练:针对测评的项目做大量的强化练习适应性训练认识技能训练•要实现人-职匹配,就要对其全过程进行监控,监控的依据和标准主要是测评的效度和信度二、测量的信度•一、信度(reliability)(一)信度的概念:是测量结果的一致性(consistency)或者稳定性(stability)程度,也就是研究者对相同或者相似的测量对象进行不同形式或不同时间的测量所得结果的一致性程度。•在测量理论中,信度是指一组测验分数的真变异数与总变异数的比率。在实际应用中,它通常以同一样本所得的两组资料的相关作为测量一致性的指标。•信度能够回答测量工具是否稳定;测量结果是否可以推论,也就是概化能力,即从一次测量来推论总体的正确程度。我们可以举例说明信度的问题:如果想知道某人的体重,我们可以叫两个人来估计,一个人的估计为150镑,另一个人的估计为300镑,那么我们就可以认为,叫别人来估计体重是非常不可信的方法。如果用磅秤,连续测量两次的结果都是相同的,因而我们可以说,在测量体重方面,用磅秤的方法要比叫人来估计更可信。•例:如果想知道一个人的智商,首先我们请对这个人熟悉的两个老师来估计,一个人的估计为110,另一个人的估计为150,显然,这种巨大的差距说明叫人来估计智商是非常不可信的方法。•但是,用智力测量量表,连续测量两次的结果差别却很小。•因而我们可以说,在测量智商方面,用智力测量量表的方法要比叫人来估计具有更高的信度。在人员测评的过程中,应该选择具有较高信度的测量工具,这样才能保证测量结果的可靠性。•信度---就是对随机误差的一种测量,随机误差决定了信度的高低。(二)信度的种类•由于误差来源的不同,对信度的测量也有不同的方法。具体有以下三种不同的信度类型和相应的评估方法。1.再测信度(test-retestreliability)(与时间有关)又称为稳定性系数,它是指对同样的一个测验在不同的时间对相同的群体测量两次,这两次测量的分数的相关系数就是再测信度。我们通过再测信度的相关系数可以了解测量结果在经过一段时间后的稳定程度。再测信度的两次测评使用的是同一个测评工具,同一种测评方式,但较难把握的是两次测评间隔的时间长短。–时间间隔过长,被测者特征将随时间的增加而发展变化,由此计算的稳定系数将失去意义;–若时间间隔过短,又可能产生记忆与练习效应,这也将影响稳定系数。2.与测评内容有关的信度单个项目的信度组成信度内部一致性信度(主要关注的是测验内部题目之间的关系。它所考虑的问题是一个测量工具所有的维度测量的均一性)折半信度(将一份测验按照一定的方法分成尽可能平行的两个半份测验(例如按照奇偶分半),然后计算两半之间的相关,得到的相关系数即为折半信度系数)复本信度3.与评分者有关的评分者信度相关系数法(随机抽取若干份答卷,有两个以上独立的评分者打分,再求每份答卷两个评判分数的相关系数)概化系数和可靠性系数(相对误差-概化系数-常模参照测评,绝对误差-可靠性系数-标准参照测评)(三)影响信度的因素1.被试者的特征被试者的特征对信度的影响主要表现在被试者在测量属性方面的个体差异上。如果一种测量工具对某种属性的测量得分的差别幅度越大,那么该测量工具能区别开被测量的个体,因而我们说该测量工具有较好的信度;个体之间被测量的特征或者属性差别差异很小,那么很难进行可靠的测量,测验信度可能会很低。2.测验的长度和难度•一般来说,测量分数分布越广,信度系数就相对越高。这就好比让你来速记一组数字,随着让你观察这组数字的时间的延长,你会发现你能够描述的数字的准确性和详细程度也在不断提高。•一个给定的测验,当增加测验的长度并且相应地延长测验的时间的时候,也会发生上述类似的效果。3.不同信度测验方法的选择•前面我们可以看到,不同的信度测量方法处理测量误差的方式都不同,这样在我们估计信度的过程中对不同方法的选择就会产生不同的估计值。有些方法倾向于对信度范围做上限估计,有些倾向于做下限估计,这样针对不同特点的测验我们要学会选择估计方法。4.测验过程中的误差–测试现场因为照明、背景音乐、温度、噪声、通风、桌椅和空间不符合人体工程学等原因导致被试精神和身体状况的不适,–或者被试由于不熟悉答题的样式,答题经验的不足或者–生病等突发状况的发生,都会导致测量的误差。三、测量的效度(一)效度的含义和特性–效度(Validity)即有效性,它是指测量工具或手段能够准确测出所需测量的某素质特征的程度。–效度是指所测量到的结果反映所想要考察内容的程度,测量结果与要考察的内容越吻合,则效度越高;反之,则效度越低。–或者简单地说是指一个测验的准确性、有用性。如果我们用体重秤来测身高,显然这种测量工具的选择是不正确的,所以说这个测量工具没有效度。测评过程:测评工具的研制、计分和指导语的标准化、被试作答反应、主试或评分者、测验的实施、数据整理、统计分析、结果的解释。每一步都要保证其科学性和准确性,这样才能保证测量的结果和结论是有效而正确的。效度的性质1.效度具有相对性任何测验的效度是对一定的目标来说的,或者说测验只有用于与测验目标一致的目的和场合才会有效。所以,在评价测验的效度时,必须考虑效度测验的目的与功能。2.效度具有连续性测验效度通常用相关系数表示,它只有程度上的不同,而没有“全有”或“全无”的区别。效度是针对测验结果的。效标和效标测量效标,即衡量测验有效性的参照标准,指的是可以直接而且独立测量的我们感兴趣的行为。–我们感兴趣的行为,就是要预测的行为,这是一个总的观念,故必须以可操作的测量来确定才有实际意义。–因此有必要把效标细分为两个层次,其一是理论水平的“观念效标”,其二是操作定义水平的“效标测量”。常用的效标有:1、学业成就:如在校成绩、学历、有关的奖励和荣誉、教师对学生智力的评定等,常作为智力测验的效标,也可作为某些多重能力倾向测验和人格测验的效标。2、实际工作表现:是最满意的效标测量,为一般智力测验、人格测验和一些能力倾向测验的效标;3、特殊训练成绩;4、精神病诊断;5、等级评定:是观察者根据测验欲测量的心理特质在被试身上的表现而作出的一种个人判断;6、效标团体的比较:即找出两个在效标表现上有差别的团体,比较他们在测验分数上的差别;7、先前有效的测验:一个新测验与先前有效的测验的相关也经常作为效度检验的证据。(二)效度的类型•根据效度评估方法不同,效度可以从六个角度来划分:内容、反应过程、内部结构、与其他变量的关系、测验结果。1.内容效度(contentvalidity)内容效度就是检验测验的内容对所要考核范围的代表性程度。例如面试的时候对一个技术人员所掌握的技术水平的测验可以通过选取不同水平的具有代表性的技术问题来测量,这样就能大致推断技术人员的技术水平。内容效度指的是测验题目对有关内容或行为取样的适用性,从而确定测验是否是所欲测量的行为领域的代表性取样。目的→“构念”→“构念”具体化→确定测评内容–不同于其他几种效度,内容效度首先重点是强调新测量工具的建构而不是己有测量工具的效度。设计并采用这种方法的目的是帮助确保测量工具的建构是针对所要测量的内容。–这种方法主要是依靠专家根据经验来判断一个测量工具的效度,而不是依靠相关系数。因此,内容效度被称作一种描述性效度。为了确保内容效度的客观,可以通过以下的流程来保证:1.对所测量的内容进行全面的分析,尽可能地搜索到最齐全的资料。2.挑选参与内容效度研究的专家,这些专家应该能够承担相关测量范围的职责并且具有这些职责所具备的知识、技术和能力。3.瓢选测量内容。4.评估颤选测量工具与被测量内容的相关性。2.基于反应过程的效度3.基于内部结构的效度——建构效度建构效度:指测验能够测量到理论上的构想或特质的程度,即测验的结果是否能证实或解释某一理论的假设、术语或构想,解释的程度如何。例如我扪根据理论的假设结构来编制一份心理测量量表或者测验,如果实际测量结果所测得的实际分数经过统计检验能够有效地解释受试者的心理特质,那么我们说这个量表或者测验具有良好的建构效度。3.基于与其他变量的关系的效度—效标关联效度(criterion-relatedvalidity)(1)效标与效标测量效标是衡量一个测验有效性的参照标准。效标测量就是将效标转化为某种可以操作的测量指标。效标具有四个特性:多样性、复杂性、特殊性、时间性。(2)效标关联效度效标关联效度是指测验与外在效标间关联的程度。即一个测验对处于特定情境中的个体行为进行预测时的有效性(准确性)。效标效度主要考虑的是测验分数与效标之间的关系。•预测效度(predictivevalidity)是指收集效标材料在实际测量结束后隔一段时间再获得,多用于人员选拔和配置等工作。•区分同时效度与预测效度的标准不是时间,而是测验的目的。前者主要用于测量现在的状态,后者主要用于预测未来的情况。例如,入学考试成绩若能够很好地预测入学后的学习成绩的话,这个入学考试的预测效度就高。5.基于测评结果的效度•统计结论效度(衡量对测评数据进行分析时所用程序与方法的有效性的指标)重点是测评本身的质量和统计方法的恰当性•内部效度(目的:找出导致绩效的原因)•外部效度(测评结果能一般化和普遍适用于样本所在的总体以及其他同类总体)•内部效度是外部效度的必要条件,但不是充分条件(三)影晌效度的因素效度的大小主要受以下几方面因素影响:1.测量工具本身因素如果一个测量工具本身存在误差,那么就是不可靠的。这些误差越多,不可靠性就越大,效度也随之降低。具体表现在测量内容的难度不适当、区分度不高、试题题目描述内容或选项设置存在迷惑性问题、题目太多、测量内容的范围太广等。这些测量工具本身的因素对效度的影响是很大的,如果不注意控制,那么就无法保证测量的较高效度。2.样本的因素–人是复杂的,参加测试的人会受到各方面因素的影响,有可能一顿油腻的早饭就能让一个参加测试的人临场发挥表现不佳。•被试者的情绪、动机、兴趣、身体健康、态度等方面的因素都会影响测试的效度。•在其他条件相同的情况下,被测者异质性越高,效度越高,因为效度受到被试团体分数分布的影响3.效标污染效标污染(contenoncontamination)是指效标受到预测变量以外的变量的影响,偏见结果导致效度下降。–例如当我们想考核一个员工的工作绩效的时候,如果评价者带有个人的种族、性别偏见或者个人恩怨来考核下属的时候,那么效标就被污染了。显然,这样的考核结果肯定与实际情况相差甚远,效度也随之下降。而且上述行为对效度的影响程度也是无法预知的。•研究者可以通过以下的方法来控制效标污染:一是改变效度研究本身的设计;二是采用部分相关的统计方法。•只有尽可能地控制效标污染,才能更准确地了解测量工具和效标间的真实关系。四、信度和效度之间的关系•根据前面所论述的信度和效度的定义和作用可以看出,信度