第四章心理测验的信度与效度任滨海2提纲信度信度概述信度的类型影响信度的因素效度效度概述效度的类型影响效度的因素3SV2SI2SE2SX2ST24第一节信度一、信度定义1、通俗的定义信度,即测量的可靠性,多次测量结果保持一致性的程度。52、测量学定义:信度为一组测量分数的真分数方差和总方差(实得分数的方差)的比率。信度乃是一个被试群体的真分数与实得分数的相关系数的平方。信度乃是一个测验X与它的任意一个平行测验Y的相关系数。信度只受随机误差影响,系统误差不影响信度6二、信度的指标信度以信度系数为指标,常用相关系数表示,表示实得分数的变异数中有多少比例是由真分数的变异决定的,信度系数以相关系数为指标,rxx=rxT2=ST2/SX2信度的平方根就是信度指数,rxT=ST/SX7信度指数(rxT)与信度系数(rXX)实得分数σx2真实分数σT2rxx信度系数(百分比)rOT2信度指数(实得分数与真实分数的相关)rxx=rxT28信度定理:定理1:如果满足独立性条件(即误差分数与真分数无关)时,真分数方差与观察分数方差之比(信度系数)等于真分数与观察分数之间的相关系数的平方。定理2:如果满足平行测验条件时,真分数方差与观察分数方差之比(信度系数)等于两个平行测验的观察分数之间的相关系数。补充:信度系数、信度指数、测定系数的讨论Baidu测定系数信度系数搜索。9三、信度的评估方式(一)重测信度(二)复本信度(三)内在一致性信度(四)评分者信度10(一)重测信度1、定义:用同一个测验对同一组被试在不同时间施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的皮尔逊积差相关系数。又称稳定性信度、再测信度、施测—再施测信度、跨时间一致性。11施测时间间隔再施测相关系数图1重测信度图式10名学生幸福感调查的两次施测分数重测信度的计算举例ABCDEFGHIJ161513131110109871516141210911867X1X2132、注意事项:所测量的心理特性必须是稳定的。遗忘和练习的效果基本上是相互抵消的。在两次施测的间隔时期内,被试在所要测验的心理特质方面没有获得的更多的学习和训练。易受练习和记忆的影响,两次测试的时间间隔要适当,一般是2~4周较宜,间隔时间最好不超过6个月。14(二)复本信度1、定义:又称等值性系数,是以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试者在两个测验上得分的相关系数。2、方法:为排除施测顺序的影响,在实施时,可将被试先分为两组,一组人先作A型测验,再作B型测验;另一组人则反之。15施测A型最短时距施测B型相关系数图2复本信度图式10名学生创造力的复本测验结果复本信度的计算举例ABCDEFGHIJX1X2201918181716141212102020191616171211139173、注意事项要构造真正的平行测验复本测验必须在题目的内容、数量、形式、难度、区分度、指导语、时限以及所用的例题、公式、测验其它方面都相同或相似。被试有条件接受两个测验。18(三)内部一致性信度1、定义:反映的是题目之间的关系,表示测验能够测量相同内容或特质的程度。2、方法:(1)分半信度:通常是先把一份测验按题目的奇偶顺序或其它方法分成两个尽可能平行的半份测验,然后计算两半之间的相关,即得到分半信度系数。19两半变异数相等:积差相关斯皮尔曼-布朗公式校正hhxxhh2rr1r=20变异数不相等:弗朗那根(Flanagan)公式:卢伦(Rulon)公式:22xx2r21abxsss=2xx21rdxss=21(2)同质性信度:测验内部所有题目间的一致性。用每个题目和其它题目平均数的相关。当各测题得分有较高的正相关时,即为同质;相反,测题间相关很低或为负相关则为异质。0、1计分项目(库德(Kuder)-理查逊(Richardson)方法)非0、1计分项目(α系数或克伦巴赫(Cronbach)公式)211iixxxkpqrks2211ixxxskrks22注意事项在一个测量多种特质的问卷中,不同的因子的同质性信度应该分开计算。克伦巴赫α系数相当于计算了所有项目间的一致性程度,避免了分半信度由于分半方式不同所造成的分半系数不一致的问题。23(四)评分者信度1、定义:用于测量不同评分者之间所产生的误差。是由多个评分者给一组测验结果评分,所得各个分数之间的一致性。对于客观性试题,评分所引起的误差或忽略不计对于主观性题目来说,不同评分人员对相同被试的评分存在差异。如心理测量中的投射测验,学业测验中的高考作文,职业选拔中的面试等。一般要求在成对的受过训练的评分者之间平均一致性达0.90以上,才认为评分是客观的。242、计算当评分者为2人时,可以积差相关或等级相关当评分者多于2人时,可以使用肯德尔和谐系数NNKNRRWii3222/1225如有A、B、C三位专家给6位应聘者的面试评分,结果如下,试求评分者信度。ABC175664529072603816354460604258475636969066ABCRi15451422237345413466618533286111326=14+7+13+18+8+3=63=142+72+132+182+82+32=811iR2iR由题意知K=3,N=6,将上述值代入公式有:W==0.95•如在评定中有相同的等级时,用下式校正。其中n为相同等级的个数6636/638111232212//1232222nnKNNKNRRWii27四、信度对测验分数的意义1、解释真实分数与实得分数的相关信度系数可以解释为测验的总变异中,真分数造成的变异占百分之几。如,当rxx=0.90时,我们可以说实得分数中有90%的变异是真分数造成的,仅10%来自测验的误差。rxx=1.00,则表示完全没有测量误差,所有的变异均来自真实分数;同样,信度系数也告诉测量的误差比例是多少。282、确定信度可以接受的水平一个测验究竟信度多高才合适,才让人满意呢?当然,最理想的情况是rxx=1.00,但实际上是办不到的。根据多年的研究结果,一般的能力测验和成就测验的信度系数都在0.90以上,有的可以达0.95;而人格测验、兴趣、态度、价值观等测验的信度一般在0.80~0.85或更高些。一般原则是:当rxx0.70时,测验不能用于对个人做出评价或预测,而且不能作团体比较;当0.70≤rxx0.85时,可用于团体比较;当rxx≥0.85时,才能用来鉴别或预测个人成绩或作为。293、解释个人分数的意义(区间估计)从信度可以解释个人分数的意义,这就是测量标准误的应用。它有两个作用其一是估计真实分数的范围;其二是了解实得分数再测时可能的变化情形。30由于误差的存在,一个人通过测量得到的分数很难等于真分数。理论上,我们可以对一个人施测无数次,然后求得所得分数的平均数和标准差。在这个假设的分布里,平均数就是这个人的真分数,标准差则为误差大小的指标。31X32在实际工作中,我们用一组被试(人数足够多)两次施测的结果来代替对同一个人反复施测,以估计测量误差的变异数。此时,个人在两次测验中的分数差异就是测量误差。据此可制成误差分数的分布。这个分布的标准差(误差分布的标准差)我们称之为测量的标准误,是表示测量误差的大小的指标,其计算公式为:(公式5-4)式中SE表示测量的标准误,即误差分布的标准差;Sx表示一次测量分数的标准差;rxx表示信度系数。xxxrSSE133我们可以用测量的标准误来估计个人测验的真分数的大小。如果选用95%的可靠性水平(置信水平),即显著性水平(a值)为.05,,真分数有95%的可能落入X±1.96SE,即X±1.96SE的范围之内,也可以写成X-1.96SETX+1.96SE,SE则用公式5-4代入。或有5%的可能落入这范围之外。这实际上也表明了再测时分数改变的可能范围。2Z34例1,已知WISC-R的标准差为15,信度系数为0.95,对一名12岁的儿童实施该测验后,IQ为110,那么他的真分数在95%的可靠度要求下,变动范围应是多大?35xxxErSS135.395.0115=110tX35.396.111035.396.1110X103.4116.6X36注意几点:(1)SE对真分数做的是区间估计,不可能由此得到一个确切的点。这就是说,测验分数不是一个定点,而是具有一定的分布范围。因此,两次测验分数之间存在差异是很正常的。(2)置信水平确定后,估计的精度主要取决于SE,SE越小,范围越小,估计就越精确,反之也然。(3)真分数不能等同于真正能力或心理特质,真分数中包括了系统误差。374、比较不同测验分数的差异测量标准误和测验信度在评价两个不同测验的分数是否有明显差异时也非常重要。这种比较包括两个人不同分数的差别和同一被试在两个测验上的差别。38我们可以用“差异的标准误”来检验差异的显著性。差异的标准误的公式为:(公式5-5)为差异的标准误,S为相同尺度的标准分数的标准差,Z分数为1,T分数为10。、分别为两个测验的信度系数。先将原始分数化成标准分数,然后将两个标准分数的差异与1.96SEd(0.05显著性水平)进行比较,如果其绝对值大于此值,则差异显著,否则差异不显著。yyxxdrrSSESESE22221dSEyyrxxr39例题某被试在韦氏成人智力测验中言语智商为102,操作智商为110。假设言语测验和操作测验的信度分别为0.87和0.88,则该被试的操作智商与言语智商有显著性差异吗?解答一:21520.870.887.5dtxxyydSESrrSE标准分数差异的范围(95%):-1.96×7.5~1.96×7.5-14.7~14.7所以被试的操作智商与言语智商无显著性差异40解答二由题意可知:15XYtSSS,0.87xxr,0.88yyr当XYTT时:dtxxyySESrr2=15×0.5=7.5(1)0:XYHTT,1:XYHTT(2)dXYZSE1021101.077.5(3)α=0.05时,Z0.051.96(4)ZZ0.05,接受虚无假设所以,被试的操作智商与言语智商无显著性差异。41例,某校五年级进行了两次数学测验,小张第一次考了85分,此次数学测验年级平均分是77分,标准差是8分,此次测验的信度系数是0.84;第二次考了95分,此次数学测验年级平均分是81分,标准差是10分,此次测验的信度系数是0.91;问小张这两次数学测验的成绩是否有显著差异?42五、影响信度的因素样本的影响样本团体的异质性高,信度就高样本团体平均能力水平的影响测验长度的影响可以通过增加测验长度的方式提高信度值。新增项目必须与试卷中的原有项目同质。新增项目的数量必须适度。1(1)xxxxkrrkr43如由50题组成的儿童心理学测验,其信度系数为0.72,若再增加30个与原测验难度相近且同质性的题目,问长度增加后的测验系数是多少?XXXXKKrKKrr)1(172.01503050172.0503050KKr=0.8044例:有一个包括10个题目的测验,信度为0.50,若把测验增加到50个题目,其信度将增加到多少?45用同样方法可以算出题目数量继续增加时相关系数的值见下表表题目数量对相关系数的影响题目数量1050100200300400500相关系数0.500.830.910.950.9680.9760.98046由表可以看出,增加题目数量可以提高信度,但并非多多益善。测验过长是得不偿失的:(1)测验过长,编制