第三章教育测量的质量指标第二节效度第二节效度一、效度的意义二、效度的统计定义及其与信度的关系三、效度的分类及估计四、提高效度的方法一、效度的意义•效度(Validity)–测量结果的准确性和有效性的程度–一个测验或量表实际能测出其所要测量的特性的程度–记为:rxy一、效度的意义•第一,效度始终是针对一定的测量目的而言的。•第二,效度是针对测量结果而言的。•第三,效度只有高或低的程度上的差异。•第四,评价一个测量是否有效要多角度、多方面地收集证据。•第五,教育测量中,效度问题比在其他领域的测量中更为重要。一、效度的概念•这是因为:•⑴教育测量的对象大多是精神现象,只能通过对其具有可测性的外部表现(如语言或动作等)的测量,以间接认识其心理活动、心理特征或知识水平等。•⑵学生的心理活动、心理特征与其外部表现之间,一般仅具有相关关系而无函数关系,外部行为并不能准确无误地反映某种心理状态。•⑶教育测量的对象不是物而是有主观能动性的人。人能有意识地调节自己的外部行为,掩盖自己的内心活动,这就增加了认识其精神现象的难度。二、效度的统计定义及其与信度的关系1、效度的统计学原理在实际测量中,影响效度的主要因素是系统误差。因而在讨论效度时,还必须把真分数方差分解为两个部分,一是潜在真分数方差(σV2),另一部分是系统误差分数方差(σI2),它与由随机误差引起的变异(σE2)不同。)22()12(2222222公式 因而, 公式 EIVxIVT 公式 即:)之比,)实得分数方差(潜在真分数方差(定义为所以可以将效度222222222222x2V)32(1)(xIxxxEIxEIxxVxyxyrrr2、效度与信度的关系σV2σI2σE2σV2σI2σE2σV2σI2σE2根据公式(2-2)和(2-3),可将效度与信度的关系图解于后:根据分析,可得结论如下:1)高信度是高效度的必要条件,而非充分条件。2)效度系数不会大于信度系数的平方根。可以用下式表示:) 公式(42xxxyrr高效度、高信度低效度、高信度低效度、低信度三、效度的类别与分析验证法•1974年美国心理学会发行的《教育和心理测量的标准》一书将效度分为三大类:–内容效度:侧重于测验题目取样的代表性,考查这些题目对所欲测量的内容和行为反应测量的有效程度。–结构效度:侧重于一个测验的能够测量到心理学和教学理论上的抽象概念和特质的程度。–效标效度:侧重于测验分数预测我们所关心的外在行为的准确程度。三、效度的类别与分析验证法•琳恩和格朗兰德提出效度的四个向度,即内容内容效度、效标关联效度、构想效度和结果效度。(一)内容效度及其分析方法•内容效度(Contentvalidity)–又称合理效度或逻辑程度,是指测验内容或行为取样的代表性和适当程度;即实测内容和预定测验内容之间的一致性程度。•估计内容效度的方法:–逻辑分析法(定性的方法)–统计分析法(定量的方法)(一)内容效度及其分析方法•逻辑分析法(定性的方法)–依据教材内容、教学大纲的范围以及教学目标分析测验内容,检查测验内容究竟在体现教材内容和教学目标方面达到多大程度–对每一道题目逐一进行审查,以此形成“题目双向细目表”–与“命题双向细目表”加以对照,以确定试卷的效度•统计分析法(定量的方法)–克龙巴赫法(两套测验试题,对相同被试实施测试后,计算得分的相关系数)–评分一致性考查法(不同评分者之间评分的一致性程度,即考查评分者信度)–前后测对比法(根据前后两次测验的差异显著性,确定测验的内容效度)(二)结构效度的验证方法•结构效度是指一个测量能实际测量出理论上的构想或心理特性的程度。它的目的在于用心理学的概念来说明分析测验分数的意义,也就是说从心理学的理论观点就测验的结果加以解释和探讨。•这里的结构的含义是心理学理论所涉及的抽象而属假设性的概念、构想、特性或变量,如智力、焦虑、机械能力倾向、成就、动机等。(二)结构效度的验证方法•建立理论框架•从理论框架出发,提出各种假设•根据假设编制测验•以逻辑及实证的方法,检验结果是否符合心理学的理论框架及其假设•比如:中学生数学能力的研究–数学能力由分析能力、综合能力、归纳和演绎能力、运算能力、空间想象能力构成;数学能力与早期教育有关;数学能力与智力正相关。–编制测验,施测并收集测验结果–分析测验结果,考查测试的结构效度,考查测验结果是否支持理论构想(三)效标关联效度的估计方法–效标:检验测验效度的外在的、客观的标准,即效度的标准–效标效度,也称为效标关联效度,也称为实证效度–验证方法是指一个测验对处于特定情境中的个体行为进行预测时的有效性–例:•高考成绩预测大学学习成绩•能力倾向测验预测工作成效(三)效标关联效度的估计方法–分类:•同时效度:测验分数与效标资料的取得约在同一时间内连续完成,这两种资料的相关系数即为同时效度–目的:诊断现状–用全国高考的成绩作为效标来检验高中毕业生会考的成绩,计算两者之间的相关系数就是会考的同时效度•预测效度:测验分数取得一段时间后才获得效标资料,计算这两种资料间的相关系数–目的:预测某个个体将来的行为–而用大学一年级的成绩作为效标来检验高考的成绩,计算两者的相关系数就是高考的预测效度。效标效度的估计方法•相关法–直接计算测验分数与效标分数的相关系数•积差相关、等级相关、二列相关等•显著差异法–根据效标测量将被试分为两个极端组,检验这两个组测验分数是否具有统计学上的差异显著性•命中率–当测验用作取舍决策时,常使用命中率–相关概念:总命中率、正命中率、负命中率–总命中率高,则测试的效度高–例:•70人参加的考试,通过测验选取了50人,淘汰了20人;选出的人中有40人合格,淘汰的人中有8人不合格。该测验的总命中率、正命中率和负命中率分别是多少?1、用积差相关系数的方法估计效度•积差相关,是计算两个变量线性相关的一种方法,由英国统计学家皮尔逊提出,因此也称为皮尔逊(Pearson)相关。要使用积差相关必须同时具备如下几个条件:•①两个变量都是由测量获得的连续性数据,即等距或等比数据。•②两个变量的总体都呈正态分布,或接近正态分布,至少是单峰对称分布,当然样本并不一定要正态。•③必须是成对的数据,而且每对数据之间是相互独立的,即各自互不影响,本条件是难以检验的。•④两个变量之间呈线性关系。一般用描绘散点图的方式来观察,最好是先各自转化为Z分数,单位会统一些。例:某中学数学教研组的教师积多年的教学法经验,认为刚入高中的学生学习立体几何感到困难的主要原因是空间想像力弱。为了证明这个论点,他们让刚入高中的103名学生作10道题,测量其空间想像力。为避免知道了某些学生的刚入高中时的成绩影响以后考试的评分,试卷暂不评阅。立体几何学完后,进行考试,按得分多少把成绩分为五等(A、B、C、D、E)分别得5、4、3、2、1分。这时才评阅入学时的试卷,统计出期末得5、4、3、2、1分者在入学测验中分别答对1道题至10道题的人数(见表2-1)。就现有资料,用什么方法可以判断教师们的意见是否正确?表2-1:(答对的题数)12345678910所评的等级ABCDE5432113105421688431245983111321111211解:(1)设期末考试的等第为y,空间想像力测验答对的题数为x,列出二重交叉次数分布表:X(答对的题数)12345678910Y所评的等级ABCDE543211310542168843124598311132111121125313296合计241014202017952103(2)用积差相关系数公式计算效度系数:验的得分和的题数与期末测是指刚入学测验中答对标准差。是期末测验各人得分的对题数的标准差,是刚入学的测验各题答人得分平均数,是期末测验中的人数的平均数,道题道题到是刚入学的测验中答对式中公式 fxySSyxssyxNfxyryxyx103101)42(/12.1/)(58.3103619232331425510394.1103/])55.510(2)55.52(4)55.51(2[55.5103210591034221101/)(22222NyyfSSyySxxNxxfSSyyxxx标准差。是期末测验各人得分的=)++++=(人得分平均数,是期末测验中=)++++=(道题的人数的平均数,道题到是刚入学的测验中答对=对题数的标准差,是刚入学的测验各题答式中预测效度,前者对后者有一定的学习成绩有较高的相关体几何间想像力测验成绩与立相关系数较大,表明空)3(699.012.194.158.355.5103/22032203)15(1)510(2)59(4)58(5)57(10)56(3)55(1xyrfxy二列相关•适用于两个变量就其实际含义而言是等距或等比数据,它们服从正态分布,其中一列人为地划分为两类。时的纵高。中从左到右概率值为指的是在整个正态曲线。-=比,的次数占总次数的百分是二分称名量表中一种量值的标准差。是该例连续变量全部变平均数。”相对应的连续变量的”或“是二分名称变量中“或公式pypqpSXXypqSXXrtqptqpb1015)-(2点二列相关•适用于一列数据为等距或等比且总体服从正态分布(实际上只需要单峰对称分布,如T分布),另一列变量是按事物的性质划分为两类的变量,也可以是一个双峰分布,人为划分为两类,如文盲与非文盲。这种相关系数多用于测验中评价题目的区分度。对选择题、判断题在整个测量中作用作出判断。•基本计算公式:。-=比,的次数占总次数的百分是二分称名量表中一种量值的标准差。是该例连续变量全部变平均数。”相对应的连续变量的”或“是二分名称变量中“或公式pqpSXXpqSXXrtqptqppb1016)-(2•例:有一位教师自编了一套测验题,用来预测学生一年后的某科成绩,自编测验按百分制评分,一年后考试评分只把学生分为及格者和不及格者。试就所获资料估计自编测验的预测效度。•解:1)把两次测验成绩成对排列:被试者1234567891011121314自编测验的成绩(X)6710204460436110262330183523一年后考试成绩(Y)111001101001112)计算出二列相关公式所需统计量:绩。不能用来预测学生的成极低,个测验结果的预测效度相关系数极小,说明这=-)代入公式计算得: 。-=比,的次数占总次数的百分是二分称名量表中一种=量值的标准差。 是该例连续变量全部变=++平均数。”相对应的连续变量的”或“是二分名称变量中“或公式0.00736.064.0125.1840.3367.33336.01,64.01491125.1840.335302310604467.33923351067016)-(2pbttqpqptqppbrpqppqpSSXXXXpqSXXr四、提高效度的方法•(一)各种效度系数的要求•(二)影响效度的因素•(三)提高效度的方法:1、控制系统误差2、精心编制量表3、妥善组织测验4、扩充样本的容量和代表性5、合理处理效度和信度的关系6、适当增加测验的长度表2.1测验长度与信度和效度的关系题数与原测验题数之比信度系数效度系数1020306012014048012361214480.3000.4620.5620.7200.8370.9110.9540.4000.4960.5480.6190.6680.6790.713第三节难度及其计算•一、难度的概念•1、难度是指测量试题的难易程度。•在教育测量中,客观题的难度一般用正确回答试题的人数与参加测验的总人数的比值来表示。其公式为:•例如:在100个学生中,答对第一题的30人,答对第二题的60人,这两道题的难度分别是多少?NRp2、难度对测验的影响•1)测验难度影响分数的分布形态。•难