心理测量学第一章概论一、测量:根据一定的法则使用量尺对事物的属性进行定量描述的过程。二、测量的精确度决定于测量对象本身的性质(确定型、随机型、模糊型)和测量工具的精密性。三、测量的基本要素:1.参照点(1)绝对参照点(有绝对的零点,可进行乘除运算)(2)相对参照点(以人确定的零点,只可加减)2.单位:条件:要有确切的意义和相等的价值四、测量的量表:称名量表、顺序量表、等距量表(可进行加减运算)、比率量表(可进行加减乘除)五、心理与教育测量的定义:根据心理学和教育学法则给人的心理特质和教育成就指派数字,或者根据一定的心理学和教育学理论在测验上对人的心理特质和教育成就进行定量描述的过程。六、编制一个测验应当具备下列四个基本条件:(1)行为样本。(2)标准化:指测验的编制、实施、记分以及测量分数解释的程序的一致性。标准化条件:测验内容、施测条件、评分规则和测验常模的标准化。(3)难度或应答率。(4)信度和效度。七、1918年,桑代克提出“凡客观存在的事物都有其数量”。1939年,麦柯尔进一步提出“凡有其数量的事物都可以测量”作业补充题:1、为什么说心理与教育测验的分数本质上是顺序量表上的分数?答:从本质上讲,心理与教育测量的量表属于顺序量表。(1)从使用的参照点来说,教育测量和心理测量领域的参照点均为相对零点;(2)从使用的单位来说,教育与心理测量的单位远没有其他测量的单位成熟完善。第二章简史一、现代心理与教育测量的起源:(1)1879年德国心理学家冯特在莱比锡大学建立了世界上第一个心理实验室。(2)高尔顿把统计方法应用到对个别差异资料的分析之中。学生皮尔逊创立了积差相关公式。(3)卡特尔1890年卡特尔在《心理》杂志上发表《心理测验与测量》一文。首提“心理测验”。(3)比内和西蒙在1905年合作完成世界上第一个智力测验量表——比内-西蒙量表。第三章经典测验理论的基本假设一、心理特质:表现在一个人身上所特有的相对稳定的行为方式。心理特质的可测性假设:1、具有比较稳定的特点;2、可量化;3测验中的行为可预测测验外的行为;4、优缺点共存;5、误差存在于测验过程中;6、测量能以公平和无偏见的方式进行;7、测量有其社会价值。测量的步骤:对所测量的特质进行界定;编制测量项目;制定评分标准和解释体系。二、测量误差:指在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。测量误差的种类:1、随机误差:由与测量目的无关的偶然因素引起的而又不易控制的误差。(影响测验的不准确、不一致)2、系统误差:由与测量目的无关的变因引起的一种恒定而有规律的效应。(影响测验的不准确)测量误差的来源:测量工具;测量对象;施测过程。三、真分数:反映被试某种心理特质真正水平的那个数值称作该特质的真分数(T分数)。把实测的分数称作该特质的观察分数。其中,观察分数越接近真分数,说明这次测量的误差越小。CTT的数学模型X=T+E(X为观察分数,E为随机误差)T=V+I(V为目标真分数,I为非目标真分数)所以X=V+I+E根据CTT推导出被试观察分数的方差等于其真分数方差与误差分数方差之和。(书P47)平行测验:如果两个题目不同的测验测得的是同一特质,并且题目形式、数量、难度、区分度以及测验得分的分布都是一致的。则这两个测验被称为彼此平行的测验。第四章测量信度一、信度:指测量结果的一致性或稳定性(只受随机误差影响)(书P50)定义:1、信度是一个被测团体的真分数的变异数与实得分数的变异数之比。2、信度是一个被试团体的真分数与实得分数的相关系数的平方。3、信度是一个测验x(A卷)与它的任意一个“平行测验”x’(B卷)的相关系数。二、信度的作用1、信度是测量过程中所存在的随机误差大小的反映2、信度可以用来解释个人测验分数的意义3、信度可以帮助进行不同测验分数的比较三、重测信度:指用同一个量表对同一组被试施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的皮尔逊积查相关系数。适用于两个变量都是连续数据,总体呈正态分布,之间为线性关系时。使用的前提条件:1、所测量的心理特性必须是稳定的;2、遗忘和练习的效果基本上相互抵消;3、在两次施测的间隔期内,被试在所要测查的心理特质方面没有获得更多的学习和训练。复本信度:指两个平行的测验测量同一批被试所得结果的一致性程度。(建立复本有难度)使用的前提条件:1、要构造出两份或两份以上真正平行的测验;2、被试要有条件接受两个测验;3、测量的是同一种心理特性。分半信度:指将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。使用前提条件:在只能施测一次或没有复本的情况下使用。可按题号的奇偶、难度、内容分半。斯皮尔曼-布朗公式只有在两半测验分数的变异数相等时才能使用。当一个测验无法分成对等的两半时,分半信度不宜使用。同质性信度:也叫内部一致性系数,指测验内部所有题目间的一致性程度。库德-理查逊公式(KR-20、K-R21)适用于二分法计分测验,当所有题目的难度接近时。克龙巴赫α系数可以处理任何测验的内部一致性系数的计算问题。评分者信度:指多个评分者给同一批人的答卷进行评分的一致性程度。当评分者人数多于两个时,评分者信度可用肯德尔和谐系数进行估计。信度类型误差变异的来源重测信度跨时间的一致性复本信度(连续施测)跨形式的一致性复本信度(间隔施测)跨时间和形式的一致性分半信度跨项目的一致性同质性信度跨项目的一致性评分者信度跨评分者的一致性提高测量信度的常用方法1、适当增加测验的长度2、使测验中所有试题的难度接近正态分布,并控制在中等水平3、努力提高测验试题的区分度4、选取适当的被试团体,提高测验在各同质性较强的亚团体上的信度5、主试者要严格执行实测规程,评分者要严格按标准给分,实测场地要按测验手册的要求进行布置,减少无关因素的干扰。第五章测量效度一、效度:指一个测量或量表实际能测出其所要测量的心理特质的程度。性质:(1)效度是针对测验结果的。(2)效度是针对某种特定的测量目的的。(3)效度只有程度上的差异,不是一个“全”和“无”的概念。定义:与测量目的有关的真实变异数(由所要测量的变因引起的有效变异)与总变异数(实得变异数)的比率。(书P68)概念注意点:(1)效度是一个相对的概念。(2)效度是测量的随机误差和系统误差的综合反映。(3)判断一个测量是否有效要从多方面搜集证据。信度与效度的关系:1、信度高是效度高的必要而非充分条件。当随机误差的变异数减小时,真实分数的变异数增加,测验信度随之提高。信度的提高只给有效变异数的增加提供了可能,至于是否能提高效度,还要看系统误差变异数的大小。可见,信度高不一定效度高。但一个测验要想效度高,真分数的变异数必须占比较大的比重,即测验的信度必须高。2、测验的效度受它的信度制约。(公式在书P69)二、效度的评估1、内容效度:指一个测验实际测到的内容与所要测量的内容之间的吻合程度。内容效度主要应用于成就测验,因为成就测验主要是测量被试掌握某种技能或学习某门课程所达到的程度。也适用于某些选拔和分类的职业测验。不适用于能力倾向和人格测验。内容效度的确定方法:专家判断(定性分析)、内容效度比、重测、双向细目表、经验推测法。2、结构效度:指一个测验实际测到所要测量的理论结构和特质的程度。包括区分效度、效标效度和预测效度。结构效度的确立步骤:提出理论假设;依据理论框架,推演出有关测验成绩的假设;用逻辑的和实证的方法来验证假设。估计方法:测验内部寻找证据法,测验之间寻找证据法,考查测验的实证效度法,多种特质—多种方法矩阵法,因素分析法。3、实证效度(效标关联效度):指一个测验对于特定情境中的个体的行为进行估计的有效性。(1)根据效标资料搜集的时间差异,实证效度可以分成:同时效度和预测效度。(2)效标:衡量一个测验是否有效的外在标准。效标与测验分数之间呈线性分布时用皮尔逊积差相关系数。(3)实证效度的估计方法:相关法;区分法;命中率;基础率、灵敏度和确认度。四、提高测量效度的方法:1、精心编制测验量表,避免出现较大的系统误差2、妥善组织测验,控制随机误差3、创设标准的应试情境,让被试发挥正常水平4、选好正确的效标,定好恰当的效标测量,正确地使用有关公式。第六章测验的项目分析(计算题)项目的分析包括量的分析和质的分析两个方面。一、测验项目的难度(难度系数越大,题目越容易)1、二分法计分项目的难度(1)通过率P=R/N(P代表项目难度,N为全体被试数,R为答对该项目的人数)(2)极端分组法当被试分数较多时,先将被试按照测验总分从高到低排列,分别计算高分组和低分组的通过率,然后求项目的难度。通常以27%为分界值。P=(P高+P低)/2或P=(高分组通过人数/高分组人数+低分组通过人数/低分组人数)/22、非二分法计分项目的难度P=x/X(x为被试在某一项目上的平均得分,X为该项目的满分)测验难度水平的确定测验难度值标准化测验P=0.3~0.7常模参照测验P=0.5选拨和诊断测验接近录取线一般测验极难(P0.1)~极易(P0.9)3、难度的等距变换(书P85)当样本容量很大时,测验分数将接近正态分布,此时,我们可以根据正态分布曲线,将试题的难度P作为正态曲线下的面积,转换成具有相等单位的等距量数,即Z分数。4、难度对测验的影响(1)、测验难度影响测验分数的分布形态:若测验项目的难度普遍较大,被试的得分普遍较低,则测验分数集中在低分端,分数分布呈现正偏态;如果测验题目的难度普遍较小,被试的得分普遍较高,则测验分数集中在高分端,分数分布呈现负偏态。(2)、测验难度影响测验分数的离散程度:当难度集中在0.5时,分数的分布范围较广,方差较大,测验信度值较高;难度集中在两端即不是太难就是太易时,分数分布范围最小,测验信度值较低。二、测验项目的区分度(D):指测验项目对被试心理品质水平差异的区分能力。当难度为0.5时,区分度最大。计算:1、项目鉴别指数法D=P高-P低(P高与P低分别为高分组和低分组在该项目上的通过率)2、相关法(书P90)题目鉴别指数评鉴鉴别指数D题目评价0.4以上很好0.3~0.39良好,修改会更好0.2~0.29尚可,仍需修改0.2以下差,必须淘汰D的最大值与项目难度的关系(学会如何计算)项目通过率PD的最大值1.000.000.900.200.700.600.600.800.501.000.400.800.300.600.100.200.000.00三、项目难度受猜测影响的校正1、猜测校正的性质与公式:选择题中为平衡机遇对难度的影响,吉尔福特提出的可用的校正公式CP=P-(Q/(K-1))或CP=(KP-1)/(K-1)CP为校正后的通过率,P为实际通过率,K为备选答案数目,Q=1-P。2、猜测校正的优缺点:优点(1)通过猜测校正可避免降低测验的信度。(2)校正后的得分可以反映被试的真正水平和能力。(3)在教育测验中,可以培养被试诚实的美德。(4)比较公平。缺点(1)公式的基本假设不成立。(2)只有被试能答完全部试题,猜测校正就无实质性作用。(3)不采用猜测校正对信度并无重大影响。(4)有时会出现无法解释的现象。(5)需要猜测,不符合考试。第七章测验常模一、分数转换原始分数与导出分数(导出分数包括百分等级分数、标准分数、T分数)百分等级分数计算:1、未分组分数资料:Pr=100-(100R-50)/NPr为百分等级,R为排名顺序的序号,N为被试总人数。2、分组分数资料:Pr=(100/N)*[(X-L)f/i+Fb]X为被试原始分数,L为X所在组的下限,f为X所在组的次数,Fb为X所在组以下各组次数之和,i为组距,N为被试总人数,Pr为百分等级。二、常模编制常模:根据标准化样本的测验分数经过统计处理而建立起来的具有参照点和单位的测验量表。常模就是各种导出分数,用平均数和标准差表示。编制常模的三步:1、确定有关的比较团体;2、获得该团体成员的测验分数;3、把原始分数转化为量表分数。测验的常模可分为:发展常模量表和组内常模量表第八章心理与教育测验的编制与实施测验: