1第三章经典测验理论的基本假设2第一节心理特质及其可测性假设•心理特质表现在一个人身上所特有的相对稳定的行为方式•一组内部相关的行为的概括,如善良、聪明;•比较稳定,对不同的刺激做相同的反应;•特质可以分为多个层次,智力可以分语言和操作,语言可以分为词汇和文法。•通过特质可以对人的行为作出预测;•心理特质的可测性•Thorndike“凡客观存在的事物都有其数量。”•McCall“凡有数量的东西都可以测量。”3第二节测量误差及其来源•测量误差•在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应•种类•系统误差:由与测量目的无关的变因引起的一种恒定而有规律的效应•随机误差:由与测量目的无关的、偶然因素引起而又不易控制的误差4•测量误差的来源•测量工具•题目取样•指导语•难度•时限•测验复本不等值•被测对象•测验的经验•练习因素•应试动机•测验焦虑•生理因素5•施测过程•物理环境•主试者方面•意外干扰•评分计分6第三节真分数及其有关的假设•真分数的含义•真分数(TrueScore,T分数)反映被试某种心理特质真正水平的那个数值,一个测量工具在没有测量误差时,所得到的纯正值。操作定义:经过无数次测量所得到的平均值。•观测分数(ObservedScore)实测分数7•二、数学模型及其假设•X=T+E•观测分数=真分数+随机误差8•测量误差的假设:•1.如果一个人的某种心理特质可以用平行的测验反复测量足够多次,则其观测分数的平均值会接近于真分数。即ε(X)=T或ε(E)=09•2.真分数和误差分数之间的相关为零。即ρ(T,E)=010•3.各平行测验上的误差分数之间的相关为零。即ρ(E1,E2)=011第2.3条假设意在说明E是一个随机误差,没有包含系统误差在内,第1条假设则在于说明E是个服从均值为零的正态分布的随机变量。12对于经典真分数理论(CTT)的理解:(1)在问题的研究范围之内,反应个体某种心理特质水平的真分数是假定不会变的,测量的任务就是估计这一真分数的大小。(2)观测分数被假定等于真分数与误差分数之和,即假定观测分数与真分数之间是线性关系,而不是其他关系。(3)测量误差是完全随机的,并服从均值为零的正态分布。13平行测验:如果两个题目不同的测验测的是同一特质,并且题目形式、数量、难度、区分度以及测查等值团体后所得分数的分布都是一致的,则这两个测验称作彼此平行的测验。14根据CTT模型和假设,推导如下关系:(1)在一次测量中,被试观测分数的方差等于其真分数方差与误差分数方差之和即SX2=ST2+SE2(2)真分数分为两部分:与测量目的有关变异和与测验目的无关的变异即ST2=SV2+SI2(3)由(2)带入(1)得SX2=SV2+SI2+SE2在一次测验中,一个团体的实测分数之间的变异性是由与测验目的有关的变异数、稳定的但出自无关来源的变异数和测量误差的变异数所决定的。15第四章测量信度16第一节信度概述•什么是信度?•信度(reliability)是指测量结果的稳定性程度,也叫测量的可靠性。•操作定义:•rxx=ST2/Sx2•rXX=ρTX2•rXX=ρXX’•注意:•信度指的是一组测验分数或一系列测量的特性,而不是个人分数的特性;•真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,只能根据一组实得分数作出估计。17•信度系数与信度指数•信度指数:相关系数•信度系数:相关系数的平方•注意:•信度系数有多种。•同一种信度系数也会因样本、测查时间不同而有多个。•信度系数只是对测量分数一致性的估计,但并没有指出不一致的原因。•获得较高的信度只是测验有效的必要条件。18•三、信度的作用•信度是测量过程中所存在的随机误差大小的反映•信度可以用来解释个人测验分数的意义•SE=SX√1-rXX•真分数的置信区间(95%)=X±1.96SE•信度可以帮助进行不同测验分数的比较19•假设在一个智力测验中,某个被试的IQ为100,这是否反映了他的真实水平?如果再测一次他的分数将改变多少?已知该测验的标准差为15,信度系数为0.84、•某被试在韦氏成人智力测验中言语智商为102,操作智商为110.已知两个分数都是以100为平均数,15为标准差的标准分数。假设言语测验和操作测验的分半信度分别是0.87和0.88.问其操作智商是否显著高于言语智商呢?20•一个测验可以有多个信度估计值,因而其误差估计值也会有多个,在实际工作者要注意选择。•本理论假定同一个团体中所有人的测量误差都是相同的,但实际上水平高的人与水平低的人在做测量时会有不同的随机误差。•测量的结果不能僵硬地看成一个点,而应看成是一个以该点为中心,以SE的某个倍数为半径上下波动的一个范围(区间估计)21第二节信度的估计方法•一、重测信度•含义和计算•重测信度(test-retestreliability)是指用同一量表对同一组被试施测两次所得结果的一致性程度。•皮尔逊积差相关系数(教材p48)•使用的前提条件•所测量的心理特质必须是稳定的;•练习和遗忘的效果基本上相互抵消;•在两次施测的间隔时期内,被试在所要测查的心理特质方面没有获得更多的学习和训练。22•使用重测信度时应注意•两次测验的时间间隔要适当(研究报告中需要说明)。•再测信度适用于速度测验或人格测验,不适用于难度测验。•重测时应注意提高被试的积极性。•优缺点•用再测法估计信度的优点是能提供测验结果是否随时间而变化的资料,可作为预测被试将来行为的依据。•其缺点是易受练习和记忆的影响。23SPSS计算•求出两次测量的总分•Analyze-Correlate-Bivariate24•二、复本信度•1.含义和计算•复本信度(Alternate-formreliability)指的是两个平行的测验测量同一批被试所得结果的一致性程度,其值等于同一批被试在两个复本测验上所得分数的积差相关系数。复本信度又称为等值性系数。•测验实施的时间不同,复本信度所表达的含义略有不同。•如果两个复本测验是同时连续施测的,则称这种复本信度为等值性系数。•如果两个复本测验是相距一段时间分两次施测的,则称这种复本信度为稳定性与等值性系数。25•使用的前提条件•两测验真正平行;•被试要有条件接受两个测验。•优点•避免记忆效果和学习效应26•复本信度的局限性•如果所考虑的行为机能受到练习的影响很大,那么使用复本只能减少但不能消除这种影响。•测验的性质会由于重复而有所改变,比如迁移的影响•编制真正的等值测验实际困难重重,因此许多测验没有复本。27内部一致性信度(1)•三、分半信度•含义和计算•分半信度(split-halfreliability)是指将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。由于分半信度描述的是两半题目间的一致性,所以有时也被称作内部一致性系数。•计算方法:皮尔逊积差相关•校正公式:斯皮尔曼-布朗公式•rxx=2rhh/(1+rhh)28•斯-布公式只有在两半测验分数的方差相等时才能使用,否则,应选择下面两个等价的公式之一:•弗郎那根(Flanagan)公式:rxx=2[1-(Sa2+Sb2)/Sx2],Sa2,Sb2,Sx2分别为分半测验的方差和总分的方差•卢仑(Rulon)公式rxx=1-Sd2/Sx2,Sd2是两分半测验之差的方差29•应用前提及范围•分半信度通常是在只能施测一次或没有复本的情况下使用。•试卷存在任选题或试卷为速度测验时,不宜采用分半法。30•常见的分半方法是按测题序号奇偶分半:•测验题目按某种顺序(如难度)排列;•如果是随机排列的题目,则必须是所有题目是平等的(要么难度相等,要么性质一致,是测同一个心理特质的);•如果测验有多个分量表,应在分量表内部排好顺序,再把各分量表的两半组合起来求相关。31SPSS计算第一种算法•题目排序,分半•求积差相关•进行斯-布公式校正第二章算法•直接求分半系数32内部一致性信度(2)•四、同质性信度•含义•同质性信度(homogeneityreliability)也叫内部一致性系数,它是指测验内部所有题目间的一致性程度。•同质性信度是指一个测验所测内容或特质的相同程度。33•题目间的一致性含有两层意思:其一是指所有题目都测的是同一种心理特质,其二是指所有题目得分之间都具有较高的正相关。•值得注意的是,一些表面上看起来是测量同一种心理特质的题目,如果其题目间不具有较高的正相关,则不能认为它们具有同质性。34•计算及适用范围rxx=Krij/[1+(K-1)rij],其中K为一个测验的题目个数,rij为项目间相关系数的平均数•(1)KR20公式:rxx=[K/(K-1)][1-(Σpiqi)/Sx2]•pi为答对第i题的人数的比例;qi为答错第i题的人数的比例。K为题目数,Sx2为测验总分的变异。仅适用于(0,1)记分的测验。•(2)KR21公式:rxx=[K/(K-1)][1-(Kpq)/Sx2]•只有当所有题目的难度接近时才适用35•(3)克龙巴赫α系数:•α=[K/(K-1)][1-(ΣSi2)/Sx2]•克伦巴赫系数可以处理任何测验的内部一致性系数的计算问题。•实际上,K-R20和K-R21只是α系数的特例。•α系数是所有可能的分半信度的平均值。•α是测量信度的下界的一个估计值。即α值大,必有测量信度高,但α值小时,却不能断定测量信度不高。36•计算步骤:•按一定要求抽取n个被试的试卷,计算几个人测验总分的方差•这几个人在每一个题上都会有一个得分,分别求出这几个人在每道题上得分的方差。•代入公式,最后求出α。37SPSS计算•Analyze-Scale-ReliabilityAnalysis•单击“Statistics”出现reliabilityAnalysis:Statistics•在Descriptivesfor方框中选取“item”、“scale”、“scaleifitemdeleted”•在“inter-item”,单击“correlations”,单击“continue”按钮回到“reliabilityAnalysis”对话框,单击“ok”按钮。38•当研究者采用试题的标准分数总和作为量表分数时,此情况应该选用标准化α系数;•当研究者采用试题的标准分数总和作为量表分数时,则不选用标准化α系数39•(4)荷伊特信度•测试分数的总变异可分解为被试间变异、项目间变异和人与试题交互作用三部分。荷伊特认为可用MS人作为被试方差估计值,用MS人×题作为误差方差估计值。•Rxx=1-MS人×题/MS人•一般用于预测的测验或学绩测验可不考虑同质性。而验证理论构想时必须考虑同质性。因此,同质性不但与信度有关,还与效度有关。40•五、评分者信度•含义•评分者信度(scorerreliability)是指多个评分者给同一批人的答卷进行评分的一致性程度。•计算•2人时:相关系数•多人时:肯德尔和谐系数•W=12[ΣRi2-(ΣRi)2/N]/[K2(N3-N)]•(K=3~20;N=3~7时,查W表检验)•K是评分者人数,N是被评的对象数,RI为第i个被试被评的水平等级之和41•将数据导入到SPSS中,点击:analyse--nonparametricstests--Krelatedsamples•把所有变量选中(所有作品的列)•再选中Kendall'sW,Ok•结果出来了,•主要看最下面一个表的数据,一个是Kendall'sWa,这个数字应该在0.7以上,另一个是Asymp,这个数字应该小于0.05,如果结果不是符合这两个规则的话,一致辞性检验不通过,成绩要重新打分。42重测信度在两个时间点上对同一群人实施测验皮尔逊积差相关复本信度对同一群人实施一个测验的两个版本皮尔逊积差相关内部一致性(分半)一次性施测,然后分为两半计分皮尔逊积差相关,用斯皮尔曼-布朗公式校正内部一致性(同质性)一次施测,然后比较所有可能的分半法а系数或KR-20评判间信度一次施测,由两个评分者或两种方法评分皮尔逊积差相关评判间信度一次施测,由多个评分者或