0144《教育测量与评价》2013年6月期末考试指导一、考试说明(一)考试说明满分为100分,考试时间为90分钟,考试形式为闭卷。(二)可能包含的题型及各题型相应的答题技巧1.判断题答题技巧:只有对、错之分,判断错误不能得分。一般题目错误处较为明显,遇到不易判断的题目时,注意从细节处去判断题干正误。2.简答题答题技巧:答出讲义与课件中的重要知识点要点即可。3.论述题答题技巧:答题时注意结合相关的知识点,首先找到题目对于的知识点,再阐述自己的对其的认识,然后围绕此观点展开论述,一般来说,最好分几个方面谈对某一问题的认识和看法,需要比较详细的展开论述。说明:本考试指导只适用于201303学期期末考试使用,包括正考和重修内容。指导中的章节知识点涵盖考试所有内容,给出的习题为考试类型题,习题答案要点只作为参考,详见课程讲义或笔记。如果在复习中有疑难问题请到课程答疑区提问。最后祝大家考试顺利!二、复习重点内容第一章教育测量与评价的学科发展1.测量的要素测量的量具、测量的单位和测量的参照点,是测量的三个基本要素或三个基本条件。2.教育测量和教育评价的定义教育测量:就是针对学校教育影响下学生各方面的发展,侧重从量的规定性上予以确定和描述的过程。教育评价:按照一定的价值标准和教育目标,利用测量和非测量的种种方法系统地收集资料信息,对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断,并为教育决策提供依据的过程。3.教育测量的特点由于教育测量主要是测量学生的内在心理特性,因此,它具有与物理测量不同的特点。主要有:间接性和推断性;测量对象的模糊性和测量误差的不可避免性;量表具有多样性,结果具有相对抽象性。4.教育评价的特点教育评价是根据一定的目的和标准,采取科学的态度和方法,对教育工作中的活动、人员、管理和条件的状态与绩效,进行质和量的价值判断。它具有以下特点:⑴教育评价的对象具有广泛性;⑵教育评价具有间接性;⑶教育评价具有客观性;⑷教育评价具有综合性。5.教育测量与教育评价的联系与区别教育测量和教育评价既有各自相对独立的发展空间,也有许多相互交叉、逐步融合的领地。具体而言,两者的联系表现在教育测量是教育评价的基础,教育评价则包括了教育测量两方面。但是教育测量与教育评价也存在一定的区别,主要表现为:(1)教育测量定量地描述所要实现的教育目标或目标实现的程度,而教育评价是对教育活动、教育系统工作情况进行的价值判断;(2)教育测量是对测量标准的参与回应,而教育评价则是对评价标准的参与回应;(3)教育测量是定量的表述,而教育评价是定性的表述;(4)教育测量结果以多或少的数量表示,而教育评价则以合理、不合理、适当、不适当,好、不好、优、劣等表示第二章教育测量与评价的类型和功能1.教育测量与评价的类型(1)按测评在教学中运用的时机分类:形成性测量与评价、诊断性测量与评价、终结性测量与评价。(2)按解释测评结果时的参照点分类:常模参照测量与评价、标准参照测量与评价、潜力参照测量与评价。(3)按测量与评价的内容分类:智力测量与评价、能力倾向测量与评价、成就测量与评价、人格测量与评价。(4)按照测量与评价被试行为表现的性质分类:最佳行为测量与评价、典型行为测量与评价。(5)其它分类:按测量对象可分为个别测量与评价和团体测量与评价;按测验材料可分为文字测验和非文字测验;按量具的标准化程度可分为标准化测验和非标准化测验。2.教育测量与评价的主要功能(1)实现教育判断;(2)改进教师教学;(3)促进学生学习;(4)行使教育管理。第三章教育测量与评价的质量特性1.信度的定义信度,简单地说就是测量结果的可信程度,指的是测量结果的稳定性或一致性程度。记为rxx。具体地说,测验的信度是指同一组学生用同一测验实施两次后所得分数的一致性,或者同一组学生经过一次测验后,用另一个同质的测验再测一次,这两次测验所得分数的一致性。2.信度的估算方法(1)重测信度:也叫稳定性系数,指的是用同一个量表,对同一组被试施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的相关系数。(2)复本信度:指的是两个平行测验测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的相关系数。(3)同质性信度也叫内部一致性信度指测验内部所有题目间的一致性程度。题目间的一致性有两层意思,其一是指所有题目测的是同一种心理特质,其二是指所有题目得分之间都具有较高的正相关。(4)评分者的信度:指的是多个评分者给同一批被试的答卷进行评分的一致性程度3.提高测验信度的方法(1)适当增加测验题目的数量;(2)测验的难度要适中;(3)测验的内容应尽量同质;(4)测验的程序应统一;(5)测验的时间要充分;(6)评分要尽量做到客观化、减少评分误差;(7)应试者参加测验的动机水平、积极性、疲劳程度也会影响测验分数,从而影响信度。引起应试者参加测验的强烈动机,提高其积极性,使其保持旺盛的精力,都对提高测验信度有一定作用。4.效度的定义效度是指测量结果的准确性和有效性的程度,亦即测量是否达到了预期的目的。每当进行教育、心理之类的间接测量的时候,必须考虑是否测量到了所要测量的东西,在多大程度上测量到了这些东西。也就是说,必须考虑测量的效度问题。在效度和信度之间,首先要重点保证是高效度,因为,高效度必然高信度;反之,则不然。特别是对于教育测量而言,效度问题显得更为重要。5.效度的类型(1)内容效度:指测验目的代表所欲测量的内容和引起预期反应所达到的程度。也就是测量内容的代表性程度。(2)效标关联效度:又可称为经验效度或统计效度,是以测验分数和效标之间的相关系数来表示测验的效度的高低的。效标就是足以显示测验所欲测量的特性的变量或足以显示测验所欲预测的特性的变量,作为检定效度的参照尺度。效标关联效度又可分为同时效度和预测效度。同时效度是指测验与当前效标之间的关联程度;预测效度是指测验与将来的效标之间的关联程度。例如,用全国高考的成绩作为效标来检验高中毕业会考的成绩,计算两者之间的相关系数就是会考的同时效度;而用大学一年级的成绩作为效标来检验高考的成绩,计算两者之间的相关系数就是高考的预测效度。(3)结构效度:指一个测量能实际测量出理论上的构念或心理特性的程度。它的目的在于用心理学的概念来说明分析测验分数的意义,也就是说从心理学的理论观点就测验的结果加以解释和探讨。这里的结构的含义是心理学理论所涉及的抽象而属假设性的概念、特性或变量,如智力、焦虑、机械能力倾向、成就、动机等。6.难度难度指被试完成测验或量表时所遇到题目的难易程度。测验题目的难度必须根据测验的目的确定和评价。(1)难度对测验的影响:影响测验分数的分布状态、影响测验的鉴别能力。(2)影响题目难度的因素:考查知识点的多少、考查能力的复杂程度或层次的高低、考生对题目的熟悉程度、命题的技巧、利用经验判断或者通过预测调整难度。7.衡量测验质量的四个指标作为教育测量的工具—测验,它的编制是一项十分复杂的工作,它需要懂得一些教育测量基本知识和基本方法的人来完成。从教育测量的理论上来讲,一个良好的测验应该具备恰当的难度和区分度,具备较高的信度和效度,也就是说,测验的信度、效度、难度和区分度是衡量测验质量的基本指标。其中,前两个指标主要是对整个测验而言,后来两个指标主要是对测量的项目而言。8.效度的分类1974年美国心理学会发行的《教育和心理测验的标准》一书将效度分为三大类:内容效度、效标关联效度和结构效度。第四章编制教育测验的一般原理与方法1.教育目标分类(1)布卢姆等人的教育目标分类法:教育目标分为认知领域、情感领域和动作技能三个领域。认知领域的目标细分为知识、理解、运用、分析、综合和评析六个主要类别。情感领域的目标分为接受、反应、赋予价值、组织和形成品格五个类别。动作技能领域非常复杂,分类不完善,有克布勒(1970)、辛普森(1972)、哈罗等人(1972)的分类。(2)加涅的教育目标分类法:教育目标分为智力技能、认知策略、言语信息、运动技能和态度五种能力。智力技能细分为辨别、概念、规则、高级规则四类。态度领域分为情感因素、认知因素和行为后果三个类别。认知策略、言语信息和运动技能不再细分。2.布卢姆的认知领域的目标分类布卢姆将认知领域的目标分为六个类别,按照由低级到高级的难易程度形成一种递进的等级关系,前一类别是后一类别的基础,后一类别又涵盖了前面的类别。(1)知识/知道。这是最低等级的认知目标。此处的知识是指对具体事物和普遍原理的回忆,对方法和过程的回忆,或者对一种模式、结构或框架的回忆。(2)领会。这是最低层次的理解,指个人把某种材料与其他材料联系起来,也不必弄清它的最充分的含义,便知道正在交流什么,并能够运用正在交流的这种材料和观点。(3)运用。运用是指将抽象的概念用于特定的和具体的情境。这些抽象的概念,可能是以一般的观念、程序的规则或概括化的方法等形式表现出来的,也可能是那些必须记住的和能够专门运用的原理、观念和理论。(4)分析。分析是指把材料分解成各个组成部分,弄清各部分之间的相互关系及其构成的方式,以指出那些用来传递意义或确定交流结果的技术和手段。(5)综合。综合是指将各种要素和组成部分组合起来,以形成一个整体。它是对各种要素和组成部分等进行加工的过程,是一个用这种方式将它们组合起来,以构成一种原先不那么清楚的模式或结构的过程。(6)评价。评价是指为了某种目的,对观念、作品、答案、方法和资料的价值及符合准则的程度作定量和定性的判断。准则既可以是内在证据,如逻辑上的准确性、一致性等,也可以是外部准则,如根据挑选或回忆出来的相应领域的最高标准等。3.测验题目类型与测量功能若根据被试作答的范围和评分方法不同,又可分为主观性试题和客观性试题。客观性试题主要包括选择题、匹配题和供答题中的填空题、简答题等,一般适用于测量知识的掌握、理解、应用、分析几个层次的教学目标。客观题的评分标准客观、具体,但是它所能考查的内容具有一定的局限性。主观性试题主要包括论述题、操作题和作文题等。它们适合于测量较高层次的教学目标,尤其是适合于测量综合、评价等目标层次。4、如何确定测验的题型?答:测验题目是测验的基本构成元素,题目编制恰当与否直接关系到整个测验的质量,正确地选择合适的题型并编制出高质量的试题,组成高质量的测验试卷。首先,要根据学科类型和测验目的选择使用主观性或者客观性试题。第二,要根据测验考察的教学目标选择题型。第三,要根据被试的特点选择题型。5.题目反应理论与经典测验理论题目反应理论认为,一个人的行为举止就好像处于自身某些心理品质的定量控制之中,可以通过一组题目定量地估计个体在每一种特质上的位置。反之,可用所估计到的特质的量去预测和解释个体在相应情境中将会产生的行为反应。与经典测验理论相比,题目反应理论在以下方面取得突破。第一,参数比较稳定。经典测验理论使用的题目分析法所得的题目统计量数受样本的抽样影响较大。而题目反应理论的方法具有局部独立和参数独立等特点,题目参数估计是独立于被试样本和题目样本,因而后者的参数比较稳定。第二,能力的比较。经典测验理论对被试能力间的比较只能在相同的测验或平行复本的情况下进行。而题目反应理论是自适性测验或电脑自适应测验,它的处理较方便且灵活。第三,平行复本难实现。经典测验理论最基本的概念是测验的信度。而信度的设定来自平行复本的假设。但事实上平行测验是很难达到的,被试不可能在两次测验中得到完全相同的结果。影响测验结果的因素很多,如遗忘、学习新知识技能、动机及焦虑程度等。经典测验理论常依赖平行复本的假设,所以研究者在现实实施中只能接受下限的信度估计或具偏差的信度估计。第四,缺乏预测力。经典测验理论无法预测被试在一个新的测验中可能的表现。而题目反应理论使用概率的观念来表示被试能力与项目的关系表示具有某种能力的被试答对某题的概率P。第五,测量标准误。经典测验理论是假定所有被试的测量标准误都是相等的。事实上,不难发现,不同能力组表现在测验上的稳定性是不同的。如施测几个复本,可能高能力组比中能力组稳定性