1第二讲测量量表•测量:按照法则给事物赋予数值;其中,法则是将事物的属性转变为数字的特定程序。•量表的特征:–量值:具有强度的特征。–等距:在量表中任何两个数值之间的差别与另外两个数值之间的差别具有相同的含义的时候,量表就具有等距的特征。–绝对零点:当测量的特征根本就不存在的时候,我们就称之为绝对零点。•四种尺度•类别尺度(nominalscale)–测量水准最低–一个集合的所有成员都被分派到相同的数字,并且没有两个集合被分派到相同的数字。•等级尺度(ordinalscale)–物体或事物能够依操作定义所界定的明确特征或属性而排列大小或程度。•等距尺度(intervalscale)–要求尺度上的等差代表所测量的特质的量之等差。•等比尺度(ratioscale)–测量的最高水准–除以上特征外,还具有绝对零点。•量表的种类–1、类别量表1-黄种人;2-白种人;3-黑种人–2、顺序量表身高第1-姚明;2-王治郅;3-易建联–3、等距量表华氏温度表–4、比率量表开氏温度表;速度等百分等级“有百分之多少的分数(观测值)落在一个特定的分数(观测)值之下?”1、计算有多少观测值在我们感兴趣的特定分数值之下。2、计算观测值的总数。3、用特定分数值之下的观测值个数(步骤1)除以观测值的总数(步骤2)。4、将步骤3的结果乘以100。2【例:在50000名选手中排名62:[(50000-62)÷50000]×100=99.88百分位数•百分位数(Percentiles)是分数分布中的一个特定的分数值或点,它是一个原始分数。–例如:中国的百分等级是44,百分位数是40/1000。•注意:–联系分数代表的特定意义来理解。–考虑总体的情况。标准分数1、是将原始分数与平均数的距离以标准差为单位表示出来的量表;2、其基本单位是标准差;3、常用的标准分数有:z分数、Z分数、T分数、标准九分数、离差智商(IQ)等。常模(norms)常模是某一群体在特定测验上的表现情况。-常模有多种表示方法:Z分数、百分位数和平均数、标准分数等。-当测验在一个样本群体中运用,并获得这个样本的分数分布的时候,测验的常模就建立了。-有些测验在不同的年龄群体中使用不同的常模。痕迹痕迹:与同伴相比倾向于保持保持在相同水平上的趋势称之为痕迹。标准参照测验常模参照测验(norm-referencedtest)把每一个被试的成绩与常模进行比较。例如,前面提到的,根据总体成绩评定A、B、C、D、E五个等级标准参照测验(criterion-referencedtest)用于描述考生在特定类型的技能、任务和知识方面的表现水平。如:IQ测试;算术能力测试领域抽样模型(domainsamplingmodel):使用有限的测验项目来代表一个复杂的结构所带来的问题。3注意:此处的样本是测验的题目而不是被试长的测验样本项目较多,短的测验样本项目较少;但每一个项目对于所研究能力或行为的代表性相等。真分数:个体在能力或行为总体上的分数。信度:个体在较短测验上的观测分数的方差和较长测验真分数的方差的比率。估计测验信度的方法——重测法:时间取样,考察不同场合的测验结果的一致性。重测信度(test-retestreliability)适用范围:所测量的“特质”或特征不随时间而改变的情况。估计方法:1、在两个不同时间进行同一测验2、计算两次测验之间的相关迁移效应(carryovereffect)练习效应(practiseeffect)注意:时间间隔;测验特征的变化——平行测验技术:项目取样,评估不同测验之间的一致性。平行测验信度(parallelformsreliability)又叫等值信度(equivalentformsreliability)、平行信度功能:考察误差的方差是不是由于编制者选择了特定系列的项目所导致的。估计方法:1、为同一测验设计两个等值的版本2、将两个版本在同一天施测于同一群被试3、计算两个版本的皮尔逊积差相关系数局限性:实践中很难拥有两个版本的测验。——内部一致性技术:考察被试在测验的相似项目之间的表现情况。分半技术;KR20公式;系数估计方法:1、对被试施测一个测验;42、人为地将测验分为两半,分别计分;3、将两部分的分数进行比较:(1)计算两个部分之间的相关系数(2)利用Spearman-Brownformula来修正。KR20公式:适用范围:测验项目是0、1计分的情况。N=测验的项目数S2=总的测验分数的方差p=每一个项目的被试答对比率(各个项目上被试回答情况彼此独立)q=1-p每一个项目的被试答错比率!只有在测验的各个项目之间存在协方差的情况下,即项目之间存在相关的时候,KR20公式计算的信度才不为0。】项目数越多,信度越高。KR21公式:前提假设:所有项目具有相等的难度,或整个测验的平均难度水平为50%。通常低估了分半信度系数Cronbach:用于估计项目非0、1计分的测验的内部一致性。所有的内部一致性测量,都是去评估测验的每一个项目测量同一特质的程度。因素分析(factoranalysis):将项目划分到具有内部一致性的不同子集中去。使用分半技术时,当测验两部分的方差不等的时候,使用系数。2221SSSNNi)(12220SpqSNNrKR221111SNXXNNKR5行为观察研究中的信度对行为进行直接观察也涉及到信度问题。估计观察者的信度:考察两个或更多的观察者之间相一致的次数所占的百分比。库珀统计量(Kappastatistic)与信度评估方法相关联的误差来源误差来源例子方法如何评估时间取样在两个时间点施测同一测验重测两次测验分数的相关项目取样用不同的项目评估同一特征备择版本或平行版本具有不同项目的等值测验的相关内部一致性同一测验项目的内部一致性1、分半2、KR203、1、测验分半后两半相关的修正2、3、略观察者的差异不同观察者的记录库珀统计量略什么样的信度是可信的?一般情况:0.7-0.8涉及到个体未来的决策时,信度应该要求更高(0.95)面对低信度怎么办?增加测验项目理想信度水平下的测验长度:6效度案例:测验能否说明想要说明的问题?测验是否有价值?效度是对测验分数进行推论的证据。这些证据分成三种类型:结构相关的证据;效标相关的证据;内容相关的证据最近的标准:效度是一个整合的概念。效度的分类:表面效度(facevalidity)测验看起来是有效的。表面效度就是你所要关注的内容。如果项目表面上看起来是和测验的目的是相关的,我们就说这个测验有表面效度。表面效度的意义鉴定方式:观察测项,逻辑推理,无需统计证实内容效度例子:教育测验中的内容效度;内容效度与其它类效度之间的区别:不明显/只需要逻辑推理,无需统计证实。鉴定方式:专家判断。结构低估:测验未能包括重要的结构成分无关结构方差:测验分数被那些与所测结构无关的因素所影响。效标效度(criterionvalidity)效标效度证据(criterionvalidityevidence):测验与特定的效标相一致的情况。7效标——测验所真正感兴趣的效标效度包括:预测效度:测验的预测功能。Predictivevalidityevidence同时效度:测验与同时进行的效标之间的效度关系。Concurrentvalidityevidence招聘测验公平录用机会标准:用于测验候选人的任务与现实的工作表现必须有关另一种同时效度证据:职业兴趣测验将参加测验的个体的兴趣形式和各种职业领域中成功的个体的兴趣形式相匹配。效度系数(validitycoefficient):测验和效标之间的相关效度系数0.3,显著水平α0.5效度系数的平方:测验分数能够解释效标的百分比。构想效度证据•大多数社会和心理特征缺乏明确的效标。•构想(construct),又称“构念”,我们在心理上所建构的某种内容。–不是看得见、摸得着的。–是主观的•例如:智力、爱情、好奇心、心理健康•又如:工作满意度、组织承诺、领导风格•构想效度证据(constructvalidityevidence)–搜集——测验的意义•会聚证据(convergentevidence)–与效标效度的异同–变量的构成成分之间的相关;测项之间的相关•区分证据(discriminantevidence)或区分效度(divergentvabidity)–独特性:•该测验与其它无关的测验具有低相关,或是测验其他测验所未能测量的内容。•独特的结构•Cronbach:所有的效度在一定意义上都是构想效度。•标准参照测验8信度与效度的关系•信度是效度的必要非充分条件•效度无法说明信度•信度与效度可以共同解释预测变量的变异。第三讲:编写和评价测验题目测验编制程序•测验编制程序在一定程度上因测验目的而异–成就测验–智力测验–特殊能力倾向测验–人格问卷筛选测验——能力倾向测验•筛选一项特定工作的应聘者•1、任务分析:详细分析工作所包含的活动•2、制定任务分析细目表:关键事件•3、按一般测验编制操作题目形式题目编写的指导方针•1、双选项形式(dichotomousformat)–正误判断测验(true/falseexamination)–优点:简单明了,容易施测,评分便捷,必须明确指出对错.–缺点:记忆资料;猜测;因此需要较大题量–对人格测验而言•2、多选项形式(polytomous/polychotomousformat)–多重选择测验–干扰项(distractors):不正确的选项•增加干扰项可以提高信度•3-4个最为合适•例子:警官资格考试–计分:•对猜测进行校正的公式•其中:R表示正确回答的题目数9•3、利克特形式(LikertFormat)–要求被试表明他对一个特定态度问题的赞成程度–5点、6点和7点;LikertScale–适用范围:人格量表、态度量表、因素分析•4、分类形式(categoryformat)(评分形式)–类似于LIKERT形式,但提供了更多选项。–如:10点量表•对于给定的一组目标进行评估时,评定者一般倾向于在10个等级上平均地分配这些目标。•如果清晰定义量表的两个端点并经常提醒评定者注意端点的定义就可以避免这种倾向。•5、检核表和Q分类–形容词检核表(adjectivechechlist)•适用于人格测量•要求被试从两个形容词中选择认可某一个–Q分类(Q-sort)•适用于描述自我或评定他人•要求被试把一些陈述分为9类10项目分析•1、题目难度(itemdifficulty):–在一个特定题目上做出正确回答的人数–最佳难度水平:•(猜测概率+1)/2–大多数测验题目中应该有多种难度水平:0.3-07•2、项目区分度(itemdiscriminability)–在特定题目上表现良好的人是否在整个测验上也同样表现良好。–估计方法:•1、极端分组法(extremegroupmethod):–通过比较那些在测验上表现很好的被试与表现不好的被试在题目通过率上的差异来估计区分度。–第一步,找出前1/3与后1/3–第二步,算出各组每题答对的比例。–辨别力指数(di,discriminationindex)(右上图)•2、点二列相关法(pointbiserialmethod)–计算题目成绩和整个测验成绩之间的相关。11•3、项目特征曲线(itemcharacteristicscurve)–X轴:测验总分–Y轴:正确回答某一题目的被试的比例项目反应理论(itemresponsetheory,IRT)•测验的每一个题目都有自己的项目特征曲线,描述了每一个特定能力水平的被试答对或答错该题目的概率。•借助计算机,不需要被试做完所有题目主试就可以确定他的能力水平。•测验特征曲线:–综合各题目的项目特征曲线加以平均–用以说明各种能力水平的被试在测验上得到某个分数的预期比例.•计算机施测:–迅速挑选出适用于评估特定能力水平的被试的具体题目–传统测验与计算机适应性测验12项目分析的局限性*•尽管测验编制者知道哪个题