..word完美格式关于调查问卷的信度和效度检验(一)信度1、信度的含义测验的信度又称测验的可靠性,是指同一个测验对同一组被试施测两次或多次,所得结果一致形程度。一个好的测验必须是稳定可靠的,多次使用所获得的结果是前后一致的。例如,用直尺测量长度,其结果是稳定可靠的;用橡皮筋测长度则是不可靠的,前后测量结果缺乏一致性。在测量理论中,信度被定义为:某次测验分数的真变异数与总变异数(即实测分数)之比:22SRxxxST式中Rxx表示测量的信度,ST2代表真分数的变异数(方差),Sx2表示实得分数的变异数(方差)。Forpersonaluseonlyinstudyandresearch;notforcommercialuse从上式可看出,(1)信度是指实测值和真值相差的程度,实测值是指对某物实际进行测量时所获得值,也称实测分数(X);真值是指被测事物的真实规模取值,也称真分数(T)。由于各种原因,实得分数常不等于真分数,两者之差称为测量误差或误差分数(E)。从理论上看,实得分数由真分数和误差分数两部分组成即:X=T+ERxx就是对一组测验数据的实测分数与真分数相差程度的最好估计。(2)信度又是指相同的测验对相同的被试再次测量时引起的同样反应的程度。如果两次测验中,受测者所得分数或所处等级前后一致,则说明测验结果的信度较高;反之,两次测验结果一致性低,说明测验结果的信度低。Forpersonaluseonlyinstudyandresearch;notforcommercialuse信度是任何一种测量的必要条件(但不是唯一条件),只有测量值接近或等于真值,用同一工具多次测量同一特性获得相同或相近的结果,才能认为这个测量结果是可靠的。信度对于教育测量尤其重要,只有信度高的教育测验才能成为教育工作者有用的工具,才能为教育工作者提供可靠的信息,为教育预测和决策提供客观依据。2、信度的估计方法测验的信度是用信度系数的大小来表示的,根据测量理论,信度系数Forpersonaluseonlyinstudyandresearch;notforcommercialuse22SRxxxST但是在实际测量中,一般只能获得实得分数(X)及实得变异数(Sx2),而真分数(T)及真变异数(ST2)是不知道的,因此,依据上述公式还无法机算信度系数。在统计上,主要采用相关分析的方法即机算两列变量的相关系数,用相关系数的大小来表示信度的高低。主要用以下方法来求得信度:(1)再测法:用同一测验对同一被试,前后施测两次,根据两次测验分数计算相关系数,即是再测信度。该信度反映了测验的稳定性程度,故又称稳定性系数,是用皮尔逊积差相关公式计算的:2121/21SSMMNXXRxx..word完美格式式中X1.X2为同一被试的两次测验得分,M1.M2为两次测验的平均分数,S1.S2是两次测验的标准差,N是被试人数。用再测法估计信度,可以得到有关测验结果是否随时间而变化及变化程度的资料,可以作为预测被测者将来行为表现的依据。但也存在明显的局限性:前后两次测验结果易受到练习和记忆的影响,前后两次施测的时间间隔影响稳定性系数,特别是对学绩测验的影响较大。如果时间间隔太长,被测者的身心因受环境影响将发生大的变化,从而对第二次施测结果产生较大影响,使稳定性系数降低;如果间隔太短,则被试第一次完成测验时练习和记忆会对第二次测验产生较大影响,使第二次测验性质发生变化。另外,有些测验不宜用再测法估计信度,如测量创造力测验,被试一旦掌握了解决问题的办法、原则,重测时,他将很容易作出反应,这样测验的性质就发生了改变。因此,只有在没有复本可用,测验不易受重复使用影响,现实条件又允许重复施测的情况下才使用重测法估计信度。用重测法估计信度,间隔时间长短没有严格的规定,一般说,间隔时间越长,稳定性系数越低,最适宜的时距应根据测验目的、性质及被试特点而定,最好不超过六个月。对儿童的时距应该短些,对成年人的时距可适当长些,因为个体早期的身心特征变化较大,而成年人的身心特征则相对稳定。(2)复本法.根据同一测验目的编制的许多平行德等值测验,可测定被试的同一特征,这些等值的测验叫做复本。对一组受测者间隔一定时间或同时施测两个复本,根据两次测验结果求得相关系数,即得等值性系数,又称复本信度。对一组受测者间隔一定时间后施测两个复本所求得的稳定性系数又称等值稳定性系数。因为用这种方法求得的信度不仅受复本质量的影响,而且受时间练习等因素的影响,因此,等值稳定性系数更全面地反映了测验的信度。计算等值稳定性系数是对两个复本测验结果计算斯皮尔曼积差相关系数(具体公式见前)。(3)分半法.当测验没有复本(复本的编制是很复杂的)而且测验只适合施测一次的情况下,可用分半法估计信度,即将测验题目分成对等的两半,根据每人在这两半测验中的得分,计算其相关系数,这个系数又称内部一致性系数。要求得分半信度,首先要将测验分成对等的两半。绝大多数测验是由许多题目排列组成的,但是若将测验简单地分成前后两部分,常常是不对等的,对等的两部分起码有两个要求:一是测验的两部分在难度、区分度及测验目标上基本是相同的;一是被测者以同等的态度来对待两部队测验,即在完成两部分测验过程中,练习,疲劳,情绪等因素对被试产生了同等的影响。因此,将一个测验分成两部分时,常用的是奇偶分半法,即将奇数题分为一部分,将偶数题分为一部分。特别是测验题目是按由易到难排列时,这种分法可以将测验分为大致相等的两半,但是,对于速度型的测验不适合用奇偶分半法。用分半法求出的测验的信度系数并不能反映整个测验的信度。这是因为信度受测验的长度的影响,测验越长,信度越高,将测验分成两半求得的信度系数,低估了整个测验的信度,因此,需对测验系数加以校正,校正公式是斯皮尔曼—布朗(Spearman—Brown)公式:RhhRhhRxx12Rxx是整个测验的信度估计系数,Rhh是两个分半测验的相关系数。上述公式的前提假设是两个半测验分数的变异性相等,但是若测验资料不符合这个假定,可用下列公式求得信度:弗朗那根(Flanagan)公式:)2221(2SxSbSaRxxSa2和Sb2分别代表两个分测验分数的变异数,Sx2代表整个测验的变异数。..word完美格式卢伦(Rulon)公式:221SxSdRxxSd2代表两个半测验分数之差的变异数,Sx2代表总测验变异数。对于由客观性题目组成的测验(即答对一题得一分,答错得0分),则可用库得─理查逊(Kuder─Richardson)公式估计测验的内部一致性:)2)(1)(1(SxpqkkRkkk为测验的总题目数,p为某一个题目的答对率或通过该题目的人数比例,q为未通过该题目的人数比例,p=1-q,Sx2为测验总分的方差。对于由客观性题目和主观性题目组成的测验,有些题目是多重计分的情况下,则要用克伦巴赫(Cronbach)公式计算α系数来估计测验的内部一致性:)221)(1(SxSikkk为测验题目总分,Si2是某一题目得分的方差,Sx2是整个测验分数的方差。上面这些公式不适用于速度性测验,因为只有每个人做完所有的题目,题目的方差才是准确的。3、提高测验信度的方法:影响测验信度的误差归纳起来主要有:(1)抽样误差:简单说,这是在抽样过程中由于被试间的差异所造成的误差。被试间的差异可以用全距和方差大小来表示。全距是指某一心理量最大值与最小值之差。全距大说明被试间差异大,全距小说明被试间差异小。被试间在某一心理量上参差不齐,差别悬殊,则该心理量的方差大;反之,方差小。对于方差小的样本,被试间在某一心理特征上相差较小,则前后两次测验结果的一致性较低,即降低了信度。因为被试之间的差别越小其同质性越高,被试的分数只要发生小的变化,其名次就可能改变,从而降低信度。(2)随机误差:由于各种偶然因素的影响而产生的误差,表现为用同一方法多次测量同一对象时结果上不一致。随机误差是由许多因素造成的,如量标的质量,测量的程序,被试的身心状态,测量的环境等。根据影响测验信度的因素,可从以下几方面来提高测验的信度:一是从测验本身考虑,如测验的长度、难度、区分度、速度、程序、环境条件与计分方法等;一是从被试自身考虑,如被试在被测心理特征上的差异大小,参加测验的动机水平,对测验的态度和积极性等。在此主要介绍如下几种提高测验信度的方法:(1)适当延长测验的长度:测验的长度主要指量表所包含的题目多少。对一个测验来说,测验的题目越少,得分越容易受偶然因素的影响,故测验的信度越低。反之如果测验题目较多,即测验长度延长,扩大了被试得分范围,可在一定程度上排除偶然因素的影响,从而提高测验信度。但是测验信度的增加并不是等比例提高信度系数。当信度系数较小时,延长测验长度信度系数增加较大;当信度系数已经较大时,延长测验长度对信度系数的影响就较小了。而且,在延长测验长度时,还需考虑其他因素的影响,如被试在回答问题时是否疲倦或产生厌烦情绪,是否节省时间、物力和财力,测题是否附合测验目的等。(2)测验的难度要适中:难度即测验的难易程度,当测验难度太大时,被试得分普遍太低,呈负偏态分布;当测验难度太小时,被试得分普遍较高,呈正偏态分布。太难太易的测验都使被试得分差异减小,使实得分数方差减小,从而降低测验信度。参见公式:221xER..word完美格式(3)测验的内容尽量同质:性质相同的测验内容,对被试也要求相同的能力、知识和技能;而内容不同质的测验,则要求被试不同的能力、知识和技能。因而为了提高测验信度,测验内容应尽量同质。(4)测验的时间要充分:对某一测验而言,应保证绝大多数被试在规定时间内完成测验;否则,如果被试不能从容回答所有问题,就不能反映被试的真实水平。(5)测验的程序要统一:包括测验的题目统一,指导语、回答问题的方式、分收试卷的方法、测验时间等都要统一。(6)评分要客观:评分是否客观对测验信度有直接的影响。对于客观性题目,评分标准明确,评分容易做到客观;但对于主观性题目,受评分者影响较大,不易做到客观。为了尽可能客观评分,应制定明确而易掌握的评分标准,尽量做到一卷多评,或一人只评一题等。(二)效度1、效度的含义效度(Validity)是指测量的有效程度或测量的正确性,即一个测验能够测量出所要测量特性的程度。例如,用直尺测量长度是有效的,而用来测量温度则是无效的。对效度的定义可作如下理解:(1)任何一种测验只是对一定目的来说才是有效的。(2)测验的效度是对测量结果而言的,即一种测量工具只有经过实际测量,才能根据测量结果判断它的效度。(3)测验的效度是相对的而非绝对的。测验是根据行为样本,对所要测量的心理特性作间接推断,只能达到某种程度的准确性,而没有全有、全无的差别。在测量理论中,效度被定义为:在一系列测量中,与测量目的有关的真变异数(即有效变异)与总变异数之比:222SxSyrxyrxy表示测量的效度系数,Sv2代表有效变异数,Sx2代表总变异数。根据上述公式,可看出效度与信度的关系:∵Sx2=Sv2+SI2+SE2ST2=Sv2+SI222222222SySISxSISTSxSyrxy∴rxy2≤rxxSI2表示系统误差方差,它稳定地与有效方差结合在一起,对信度没有影响,而影响效度。从以上证明看出,测验的效度受测验的信度所制约,而且效度系数不会大于信度系数。效度高的测验,信度必定高;但信度高的测验,效度则未必高。效度在教育测量中有重要的意义。对一个测验来说,效度比信度更为重要,测验首先要保证能如实地测量出所要测量的东西,否则,这种测量将是没有意义的。在教育测量中,效度问题尤其重要,首先,教育测量的对象大多是精神现象,只能对被测者的外部表现进行测量,以间接了解其心理活动特点或知识技能水平。其次,学生的心理活动特征与其外部表现之间,仅有相关关系而没有严格的函数关系,外部行为有时并不能准确地反映某种心理状态。再次,教育测量对象是有主观能动性的人,人是能够有意识地调节自己的外部行为,掩盖自己的内心活动,这就更增加了教育测量的难度。2、效