第三章人员素质测评的解释人们对人才测评的信任感是建立在一定的可靠性和有效性基础之上的,作为评价体系的组成部分,对人才测评的信度和效度进行鉴定是正确解释和应用测评结果的保证,它是对测评本身的测评,是对人才评价工作的评价。在实际的测验编制过程中,为了改善和提高测验的信度和效度,应对每个测题进行分析,这就是项目分析,主要包括难度分析和区分度分析。人才测评数据分析水平现状建立完善的人才测评理论体系是当今人才测评事业发展的一个趋势,近年来测评理论建设的突出特点是更加重视定量过程、非控制过程和客观解释过程。我们只有瞄准世界人才测评技术前沿,集中力量加强理论研究,才能使我国的人才测评事业在科学理论指导下不断向成熟发展,才能满足我国飞速发展的公务员录用考试、人才选拔对新技术的需要。人才测评数据主要是指通过调查、测验等方法获得的结果,分数则是这些结果的数量化的主要表现。随着社会的进步,对人才测评的科学性、公正性提出的要求越来越高,从而对数据的研究也越来越深入。如何科学地分析、准确地处理人才测评数据,是当前国内外人才测评领域的重要课题之一。1)项目反应理论的崛起提供了数据分析的新工具70-80年代,在测量理论中,最显著的进步是项目反应理论的应用,它是继经典测量理论之后的一个重要的测量里程碑。项目反应理论之所以优于经典测量理论,在于它克服了后者分析数据对“考分=能力”的局限,而将能力看作是一个潜在的变量,又将项目的难度、区分度等重要参数看作是项目本身的固有特性,独立于被试团体。目前该理论主要应用于客观性考试、试题库的建立、不同团体被试在不同测验中能力反应的等值化、跨文化比较等多种测量领域。在发达国家的人才测评数据分析中,项目反应理论已经成为一种常规的分析工具。2)多元分析的广泛应用在人才测评的数据分析中,多元分析一直扮演着重要的角色。第一代多元分析方法有:标准相关分析、冗长性分析。另外还有路径分析、协方差构造分析、多维标度法、离散数据的数量化理论等等。60年代以来,多元分析广泛被用于政治、社会、教育以及心理学等诸多领域和学科。要提高我国人才测评数据分析的整体水平,当前亟待解决的课题是我国的人才测评专业人员不仅要具备丰富的人事测量知识,而且还应懂得如何应用计算机和统计学的方法分析数据和解释数据。如果因为我们知识的贫乏而得出错误的结果,或作出错误的解释,或设计出缺乏科学性的工具。其后果必然影响人才测评的社会声誉,影响人才测评事业的持续发展。第一节信度分析一、信度的基本概念信度(Reliability)又叫可靠性程度,用于分析一种测评方法所得结果的前后一致性水平,并以这种一致性程度为指标来判断测评的可靠性。测验结果的可靠性与测验结果受误差影响的程度密切相关。在人才测评中误差是不可避免的,我们只能尽可能追求高的精度,把误差控制在一个有规律的范围以内,这样测量得到的结果才比较稳定可靠。信度实际上就是随机误差的一种度量。二、信度系数及估计方法一般条件下,信度指标都用信度系数的形式呈现。信度系数是同一样本在两种不同时间、不同情境条件或两组不同评价材料评定结果之间的相关系数。针对不同的误差来源,信度可以有不同的确定方法。一般有以下几种类型:重测信度、复本信度、内部一致性信度、评分者信度。(一)重测信度(Test-retestReliability)重测信度又称为稳定性系数,它是估计测评跨时间的一致性程度,即用同一测验,在两个不同时间里对同一群体施测两次,这两次测验分数的相关系数就是重测系数。一个测验的重测系数越高,说明测评的稳定性越好,测评受随机因素的影响越小。重测信度所考察的误差来源是时间的变化所带来的随机影响。在获得重测系数时,最需要注意的是我们必须根据测验的性质和目的来控制合理的时间间隔,这样才有可能获得较好的稳定系数。时间间隔长了,被试的心理特征就会因为学习、经历、教育培训等因素而发展变化,使相关系数降低;时间间隔短了,又会使首次测评时的练习效果和记忆效果的影响增大,从而造成了假性的高相关。(二)复本信度(Equivalent-formsReliability)复本信度又称为等值性系数,它是代表测评跨形式的一致性,即在对被试进行测评以后间隔一定的时间,运用复本再测评一次所获得的复本相关系数。复本是指在内容、数量、格式、难度、平均数、标准差等各方面与原测评一样的测评,即功能等值但题目内容不同。两个等值的测验互为复本。复本信度的高低反映了两个测验复本在内容上的等值性程度。复本信度的优点在于适用于在长期追踪研究或调查某些干涉变量对测验成绩影响,同时减少了辅导或作弊的可能性。当然,复本相关系数也有局限性。一方面,在现实中,编制理想的复本常常很难,有许多测评都没有复本。另一方面,复本测评也会受练习的影响。(三)内部一致性信度用重测相关系数和复本相关系数,都需测评两次,不但要花较多的精力,而且受测者会受练习的影响使第二次测评失真。内部一致性系数则不同,它只需要测评一次,它通过分析同一测评内部各测评项目之间的相关系数的方法来估计信度系数。内部一致性系数反映的是跨测题的一致性,即测评内部各部分之间是否具有同质性。内部一致性信度又分为分半信度、同质性信度和α系数。(1)分半信度(Split-halfReliability)获得分半系数的方法是把一个测评分成两个最为等值的两半,并分别计算每位被试在两半测验上的得分,再求出这两个分数的相关系数,从而来估计整个测评的信度。因为分半系数只是根据原测题的一半题目而来,而信度的大小又与测验的长度有关,所以分半系数常常要比原测验的信度低。为了校正这个差异,常运用斯皮尔曼-布朗公式(Spearman-BrownFormula)。该公式可以估计增长或缩短一个测验对其信度系数的影响,用此公式的前提条件是:两半测验的方差相等。斯皮尔曼-布朗修正公式为:rxx=2rhh/(1+rhh)其中,rhh:两半测验的相关系数;rxx:估计或修正后的信度。当两半测验的方差不同时,应采用卢伦公式(RulonFormula)或弗拉纳根公式(FlanaganFormula)进行修正。(2)同质性信度同质性信度不需要把测评分为两半,它是指测验内部的各题目在多大程度上考察了同一内容。所谓的同质性是指所有的测验题目测量的只是单一的特质或内容,表现为所有测验题目得分的一致性。常用的计算方法是库德-理查逊(Kuder-Richardson)估计方法。计算公式有库德-理查逊20号公式(简称KR20)和21号公式(KR21)。下面是KR20公式:212011XniiiKRSqpnnrn为测验题目数,pi为通过i题的人数比例;qi为未通过该题的人数比例;pi+qi=1;∑piqi为所有题目答对与答错人数百分比乘积的总和。库德-理查逊信度系数的运用需要满足几个条件:所有测题都采用二分法记分,即都采用0,1记分,答对记1分,答错记0分;测验的项目难度比较接近;项目间的组间相关相等。(3)α系数当测验项目采用多重记分(如人格测验、态度量表),库德-理查逊信度就无法运用。克伦巴赫(Cronbach.L)提出了适用于各种记分情况的α系数来估计信度。具体公式如下:21211XniiSSnn其中,2iS为每一项目的方差;2XS为测验总分方差。(四)评分者信度在人事测评中,不同的评分者其观察角度、注意力、对被试的偏见等都会使评分的结果不一致,因此,评分者的评判也是误差的来源之一。评分者信度就是指不同评分者对同样对象进行评定的一致性。具体方法是:由两名评分者对同一个被试样组进行评分,再求两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法,也可以采用斯皮尔曼等级相关方法。如果评分者在三人以上,而且又采用等级记分时,就要用肯德尔和谐系数来求评分者信度。公式为:)(121)()(12132112232NNKNRRNNKSWNiNiii其中,K为评分者人数,N为被评定的人数或答卷数;Ri为每一个对象被评等级。三、影响信度系数的因素测验的信度会受到各种因素的影响,在解释信度系数是我们应充分考虑这些因素,在编制测验和测验的实施过程中要力图避免它们。主要的影响因素有:测验长度、测验难度、样本团体的性质。1.测验长度在其他条件相等的情况下,测验长度(题目的多少)越长,信度值越高。因为测验越长,题目取样或内容取样就越充分,结果就越可靠,同时也避免猜测题目的影响。2.测验难度测验难度对信度也会产生影响。如果一个测验的难度太低,大多数被试都可以轻而易举地答对题目,测验分数会非常集中并聚在高分端;如果测验的难度太高,多数被试都只能凭猜测答题,所有分数都集中在低分端。这样都会使测量到的分数分布太窄,导致信度降低。只有当难度水平适中,使得测验分数分布范围最大时,测验的信度才会比较理想。3.样本团体的性质一般而言,在其他条件不变的情况下,样本团体的分数分布范围越大,变异性越大,信度系数将越大。样本团体的异质性越大,信度系数就越高。第二节效度一、效度的含义测量的效度(Validity)是指测量结果的有效性程度,也就是已测到的质和量与主试者欲测的质和量相符合的程度,有的也称效度为正确性。人事测量的效度就是指测量的有效性,即所采用的测评工具对其所要测评的特性测量到什么程度的估计。效度是任何一种测评必须解决的首要问题,因为有效性决定了一种对测量效度的考查是一个很复杂的问题,特别是对人的潜在特质的测量,因为潜在特质并不是一个看得见摸得着的物质实体,而是一种观念构想。效度的理解需要注意几点,一是效度是针对测验结果的。二是效度是针对某种特定的测评目的而存在的。三是效度是连续性的,是一个关于程度的估计。我们在前面对信度进行分析时,只考虑了随机误差的影响;而在效度分析时将系统误差也引入进来。原因就在于系统误差是恒定的,所以不影响测验的一致性,但却影响测验的准确性。信度高是效度高的必要条件,而不是充分条件。对潜在特质的测量只能采用间接的方法,其测量模型可表示用行为主义的公式S-R表示,在测量过程中我们所能控制的是呈现给被试的刺激S,所能观测到的是被试在一定测量情景下对刺激S的反应R。而潜在特质是介于S和R之间的,在这一中间过程对S传入大脑的信息作出了处理,处理后的信息以R方式输出。简单地说,效度要弄清楚的是在S信号传入大脑后,哪种(哪些或最主要是哪一种)特质参与了对输入信号的处理。效度问题提出了诸多解决方案,因而有很多效度名称。如,同时效度,预测效度,表面效度,相容效度,协同效度,假设效度,效标关联效度,实证效度,经验效度为了规范效度问题的研究与解释,美国心理学会在1974年将测量的效度分为三大类,即,内容效度,是指测验的内容对欲测范围内内容的代表性程度;结构效度,测量结果与测验的理论假设之间的一致性程度;效标关联效度,又称实证效度,指测量的结果与某种外在效标之间的一致性程度,一般用测验分数与效标之间的相关系数表示。成就测验或学科测验(以检测知识为主的考试)较容易获得较高的内容效度,而对这类测验也往往注重考察它们的内容效度。对于能力测验、个性测验、态度测验、品德测评等,其内容效度的考察往往比较困难,而采用效标关联效度较多。效度的检验不是一次就能完成的,往往要通过累积证据的方法不断积累效度资料来证实它的有效性,结构效度在根据某一理论结构模型(智力、个性等)编制测验时特别注重,它也是通过累积证据的方法来效度获得支持的。二、效度的类型及估计方法我们一般把效度分为内容效度、构思效度和效标关联效度三类,这三类效度是相互联系的,一个好的测评通常可以用一种或一种以上的效度来表示。(一)内容效度(ContentValidity)内容效度是检查测验内容是否是所欲测量的行为领域的代表性取样的指标,即是说指标与标准是否符合该类人员的功能特征。要素的设计与标准的编制成为鉴定测评效度的内容。内容效度的估计方法有以下几种:(1)通过对照内容范围来估计我们通过考察测验中包含的项目是否涵盖了内容范围来对内容效度加以检验。在具体的