教育测量与评价第一章教育测量与评价的学科发展1.测量:从广义上讲,就是根据某些法则与程序,用数字对事物在量上的规定性予以正确和描述的过程。2.测量的要素:量具、单位、参照物3.教育测量,指针对学校教育影响下学生各方面的发展,侧重从量的规定性上予以准确和描述的过程。4.教育评价:是指按照一定的价值标准和教育目标,利用测量和非测量的种种方法系统地收集资料信息,对学生的发展变化及其影响学生发生发展变化的各种要素进行价值分析和价值判断,并为教育决策提供依据的过程。5.教育测量与教育评价的实际联系与区别:教育测量可以为教育评价提供价值判断的基本数量事实,教育测量是教育评价的基础,教育评价往往是教育测量过程的延续,是对测量结果的解释与应用,并朝着价值判断与释放教育功能的方向拓展。6.中国是考试制度的发源地:西周选士是我国考试制度的萌生阶段7.中国科举制度:中国古代科举考试制度对世界教育、政治、文化,尤其是考试制度产生过重大的影响。8.教育测量学科的诞生:美国心理学家桑代克,《精神与社会测量导论》,首次较系统地介绍了教育统计方法及其编制测量的基本原理,它标志着以科学理论为指导的教育测量理论的诞生。9历史意义:美国的“八年研究”是教育评价的催生剂。10.泰勒在“八年研究”中提出了评价活动原理和课程编制原理,形成了“行为目标评价模式”,被称为当代教育评价之父。第二章教育测量与评价的类型与功能1.教育测量与评价的主要类型⑴按测量与评价在教学中运用的时机分类:①形成性测量与评价:是在教学过程中经常实施的,在性质上大致相当于现在的中小学单元测验。目的:对于教师而言,可以获得教学过程中连续性的反馈,了解学生的学习效果、特点和困难等信息,作为随时修正自己教学的参考。对学生的学习,也可提供反馈信息,学生可以根据反馈结果获知自己学习后的表现情况,从而肯定或修正自己的学习方式。②诊断性测量与评价③终结性测量与评价:用于教学结束后在性质上相当于现在学校中所举行的期末考试。目的:Ⅰ.在教学目标之下,检查学生一学期学业达到了什么程度,从而判断教学效果的得失。Ⅱ.根据结果,评定学生的学业成就,并将评定结果通知学生家长或记入档案。⑵按解释测量结果和评价结果时的参照点分类:①常模参照测量与评价②标准参照测量与评价:也称为目标参照测量与评价,是将被试的表现与既定的教育目标或行为标准相比较,以评价被试在多大程度上达到该标准。(学校的教育测量与评价,主要目的是为了确定学生达到教学目标的程度,考查学生对知识技能的掌握程度,因此,一般都采用标准参照测量与评价)③潜力参照测量与评价⑶按测量与评价被试行为表现的性质分类:①最佳行为测量与评价②典型行为测量与评价⑷按测量与评价的内容分类:①智力测量与评价②能力倾向测量与评价③成就测量与评价:目的在于测量评价个人在接受教育或训练后的成就。常见有两种类型:Ⅰ.学科成就测验:旨在测量与评价被试在某一学科上的学习成就。Ⅱ.综合成就测验:旨在评价与测量被试在多个学科或综合学科上的学习成就。综合成就既可以单个测验,也可以成套测验。④人格测量与评价2.教育测量与评价的主要功能①实现教育判断的功能教育测量与评价的最基本、最原始、最现实、最普遍的功能,就是实现教育判断。它包括测量评定的功能、事实判断的功能、价值判断的功能、问题诊断的功能、区分选拔的功能。②改进教师教学的功能③促进学生学习的功能④行使教育管理的功能第三章教育测量与评价的质量特性第一节信度一、信度,简单的说就是测量结果的可信程度。信度指的是测量结果的稳定性程度,记为rxy。也就是说,如果用同一测量工具反复测量同一种特质对象,则多次测量结果间的一致性程度就叫信度。二、信度的估计方法。(一)重测信度:重测性都指的是用同一个量表(测验或评价表)对同一组被试施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的相关系数。公式2i2i2i2iiiiixy(n(n))((nr))YYXXYXYX公式中,n为被试的数量,Xi是每个被试第一次考试分数,Yi是每个被试第二次考试分数。重测信度有个基本假设,那就是假设某测验所要测量的潜在特质,短期内不会随着时间推移而改变。因此重测信度的用途也在于估计测验结果(以测验分数表示)经过一段时间后是否仍然维持稳定、一致的特性,所以又称为稳定性系数。(二)复本信度所谓复本测验是指在试题格式、题数、难度、指导语说明、施测要求等方面都相当,并且都用来测量相同潜在特质或属性,但试题又是不相同的测验,复本测验也称作平行测验。复本信度指的是两个平行测验测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的相关系数。实施复本测验有两种方式:一种是在同一个时间连续施测,另一种是间隔一段时间后施测。前者主要可以反映出测验内容造成的误差的多少,也就是说可以反映出两个测验是否是真正的平行测验,所以这种复本信度称作等值性系数。(三)同质性信度同质性信度也叫内部一致性信度,它是指测验内部所有题目间的一致性程度。1.分半信度。分半信度指的是将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。斯皮尔曼—布朗公式)(hhhhxyr1/2rr公式中,xyr为整个测验的信度系数,hhr为两个“半测验”上得分的相关系数。(1)弗朗那根公式22b2axy/(12rXSSS)(2)卢仑公式22dxx/1rXSS2.库德—理查逊信度。该方法适合于测验题目全部为二分记分题的测验的内部一致性信度分析。(1)KR20公式2ii20qp11XSKKKR公式中,KR20为测验的信度,K为题目数,ip和iq分别表示答对和答错第i题的被试人数比例,2XS为测验总分的方差。(2)KR21公式2____21)(11XKSXKXKKKP公式中,KR21为测验的信度,—X是全体被试测验总分的平均数,其它符号的含义与(1)相同。3.克龙巴赫α系数当测验题型较多,并非都是二分记分题时,估计测验信度可采用克龙巴赫α系数。公式22i11XSSKK(四)评分者信度。评分者信度指的是多个评分者给同一批人的答卷进行评分的一致性程度。公式)(12132NNKSW公式中,W为肯德尔和谐系数,K为评价者的人数,N为被评价的试卷(或作品)个数。S为每一个被评价对象的K个等级之和的离均差平方和。即:公式NRRS2i2i)(iR为第i个被评价对象的K个等级之和。第二节效度一、效度,就是一次测量的有效程度,严格的说效度是指一个测量或量表实际能测出其所要测量的特性的程度。内容效度就是测验题目样本对于应测内容与行为领域的代表性程度,如果是教学情境下的成就测验,那么其内容效度就是看测验题目样本体现教学目标与教材要求的程度。因此内容效度主要适用于教育测量(尤其是学业成就测验)的情境。内容效度也适合于某些用于选拔和分类的职业测验,这种测验所测的内容就是实际工作所需的知识和技能。二、结构效度的验证方法:测验内部寻找证据法,这种方法是通过研究测验内部结构来验证测验的结果效度。因素分析法。因素分析法是目前研究结构效度最常使用的实证方法之一。第三节难度一、难度,就是被试完成题目或项目任务时所遇到的困难程度,定量刻画被视作答一个题目所遇到的困难程度的量数就叫题目的难度系数,也常称为难度值,用符号P表示。二、难度系数的计算方法1.二值记分题的难度值计算:公式NKP(P为难度值,N为被试人数,K为答题答对该题目的人数)P值介于0与1之间,P值越大,表明通过这个题目的人数比例越大,P值越小,表明通过该题目的人数则越少。2.多值记分题的难度值计算:公式max__XXPP代表题目难度,__X为全体被试在某题目上的平均得分,Xmax为该题目的满分。3.难度值的其他计算方法:公式q=1-Pq为失分率。二、测验题目的恰当难度和恰当难度分布在常模参照测验中,测验的目的主要是区分学生能力或成就的高低,因此教师所期望的难度系数以接近0.50左右为理想,此时的试题最能够区分学生水平的高低,但是在标准参照测验中测验的目的是检验学生们是否已达到教学目标规定的掌握程度,因此教师所期望的是学生都能够在教学之后掌握所有的教学内容,也就是说学生在试题上的表现应该都是100%答对,亦即答对率接近一。筛选参照测验,针对划界点水平来确定恰当难度。第四节区分度。一、题目区分度就是题目区别被试水平能力的量度,常记为D。区分度的实质就是题分与总分的相关程度。区分度的值域范围在-1.00~+1.00之间。通常D为正值,称作积极区区分,D为负值,称作消极区分,D为0,称作无区分作用。具有积极区分作用的项目,其D值越大,区分的效果越好,具有消极区分作用的项目,其D值越小,区分效果就越好。二、区分度的计算三、做题步骤:选公式,计算,显著性判断(P70),下结论。1、相关法(1)点双列相关系数:(1,0)题型,连续变量pqrt__q__ppbiSXX公式中,pbir为点双列相关系数,__pX为此题对的人平均总分,q__X为失分平均总分,所有被试总分标准差,p得分率,q失分率。(2)二列相关系数:总分,等级评分。brYSXXpqt__q__p公式中,br为二列相关系数,Y为正态分布下百分比p与q分割点所在位置的曲线高度(有正态分布表给出,书本附表二),其余符号同(1)。(3)积差相关系数:(k,0),分值评分。YXDYXSSSSS2r222xy可简化为2i2i2i2iiiiixy)(n)(n))((nrYYXXYXYX公式中,XS为全体被试在某题目上得分的标准差,2XS为全体被试在某题目上得分的方差,YS为全体被试总分的标准差,2YS为全体被试总分的方差,2DS是由被试总分减去某题目得分而获得的一个新变量(D=X-Y)的方差。(iX小题分,iY总分。)项目区分度评价标准:区分度值评价区分度值评价0.40以上优良0.20-0.29尚可,需修改0.30-0.39合格0.19以下一般需要淘汰第四章测验题目分为两大类:客观性试题和主观性试题客观性试题:(一)选择题:运用最多编写原则:(1)意义完整,并能表达一个确定的问题;(2)题干简明;(3)题干不要滥用否定结构,要尽可能地采用正面陈述;(4)诱答项具有似真性;编制良好选择题的技术取决于有效的干扰选项的编写。增加干扰选项似真性的具体方法有:①使用学生共同的错误观念或过失来作为诱答项②以学生惯用的模糊性用语叙述诱答项③在正确选项和又打象中使用同样精确的重要性等堂皇的用语来叙述;④诱答项的长度和措辞的复杂性与正确选项相似;⑤在右打向中使用额外的线索;⑥保持选项之间的同质性(5)不能对正确答案有任何暗示。(二)是非题,又叫做二项选择题,通常是给被试一个句子,要被试做出正误的判断;编写原则:(1)考核的内容应是重要的知识,应有考核价值;(2)题目应该是测量理解能力,而不应测验记忆性的知识,更不要直接焯六教科书中的知识,以免引导被试死记硬背二不求理解;(3)一个题目中只能有一个中心问题或一个重要概念,避免两个以上的概念在同一题中出现;(4)试题应做到是非界限分明,用词准确,避免模棱两可的语句,不致引起对正确答案的争议;(5)题目承受应简单明了,避免使用复杂的句子结构,以减少因被试的阅读能力而对测量产生的不良影响,应尽量采用正面叙述,避免用否定和双重否定的语句;(6)正句和误句的排列要随机化,且数量应大致相等。(三)填空题编制原则:(1)题意要明确,限定要严密,使空白处应填的答案是唯一的;(2)空白中所填写的烟是关键词语,而且要和上下文有密切的关系,使被试不至于有填写困难;(3)题目中空白地方不能太多,以免句子变得支离破碎,不利于被试理解题意;(4)尽量将空白放在句子的后面或中间,而不要放在句子开头;(5)所有空白处的线段长度应当一致,不能随正确答案文字的多少而长短不一,以免产生暗示作用;(6)若答案是数字,应指明单位和数字的精确程度。(四)简答题编制原则:(1)问题