1教育质量评价专题山西财经大学工商管理学院张爱文2020年2月17日星期一2第1讲教育评价理论发展第2讲教育测量与评价第3讲教育测量的质量指标第4讲测量数据的处理与解释第5讲常见的评价方法3第1讲教育评价理论发展现代教育评价是教育学中的一个重要的组成部分。对现代教育评价的研究始于20世纪初美国进步主义教育联盟组织的“八年研究”,到了20世纪60年代已成为一个具有独立研究价值的教育科研领域,国际上也专门成立了“国际教育成就评价协会”(简称IEA),开展世界性的教育评价和研究工作。4教育评价的内容(1)教育评价如何定义;(2)教育评价的功能是什么;(3)教育评价的对象是什么;(4)关于每一个对象应收集哪些资料;(5)用什么标准来评价一个对象的优缺点;(6)教育评价为谁服务;(7)进行评价的过程是怎样的;(8)评价中应用什么调查方法;(9)谁来评价;(10)用什么标准对教育评价进行再评价。5本章主要内容一、教育评价的含义二、教育评价的产生与发展三、教育评价的类型四、教育评价的原则五、教育评价的功能六、教育评价研究的主要问题七、教育评价方案的设计6一、教育评价的含义1、泰勒(Tyler,R.W.)在他们著名的“八年研究”(1933-1940)报告(《史密斯—泰勒报告》)中,首次提出“教育评价”的概念。认为,“教育评价过程在本质上是确定课程和教学大纲在实现教育目标的程度的过程。”后来有人进一步把它界定为:教育评价就是系统地、有步骤地从数量上测量或从性质上描述儿童学习过程和结果,据此判定是否达到了所期望的教育目标的一种手段。这种观点认为教育评价就是以教育目标为依据,评判学生学习结果达到教育目标的程度。72、1963年,克龙巴赫(Cronbach,L.J.)在他的题为《通过评价改进课程》的论文中,对教育评价内涵的阐述是:“一个搜集和报告对课程研制有指导意义的信息过程”。83、1966年,斯塔弗尔比姆(Stufflebeam,D.L.)在对泰勒评价理论提出异议的前提下,主张:“教育评价不应局限于评判决策者所确定的教育目标所达到预期效果的程度,而应该是收集有关教育方案实施全过程及其成果的资料,为决策提供信息的过程”。94、1975年,比贝(Beeby,C.E.)把评价定义为:“系统地收集信息和解释证据的过程,在此基础上作出价值判断,目的在于行动。”105、1981年美国教育评价标准联合委员会对教育评价进行了综合性的界定,他们认为:“教育评价是对教育目标和它的优缺点与价值判断的系统调查,为教育决策提供依据的过程。”116、我国人们一般人们把教育评价定义为:“教育评价是根据一定的目的和标准,采用科学的态度和方法,对教育工作中的活动、人员、管理和条件的状态与绩效,进行质和量的价值判断。”12美国学者格朗兰德:教育评价=测量(量的记述)或非测量(质的记述)+价值判断(事实判断)(价值判断)13美国学者格朗兰德:1、教育评价的基础是事实判断2、教育评价的核心是价值判断3、评价手段可以是定性的,也可以是定量的14考试与评价的关系1、考试是一种定量评价手段2、考试属于事实判断,评价是在事实判断基础上的价值判断3、考试是评价的基础。15(二)教育价值观的转变1、教育既要考虑培养满足社会需要的学生,也要考虑促进个人发展需要※社会需要-→个人发展需要2、教育既要培养学生的共性,也应培养学生的个性※学生共性-→学生个性3、教育既要促进学生的近期发展,也要促进学生的可持续发展※近期发展-→长远发展16二、教育评价的产生与发展(一)教育测量运动(二)现代教育评价的产生——教育评价运动(三)教育评价的发展1、发展初期(约为1950年代)2、迅速发展时期(约为1960年代)3、专业化时期(约为1970年代以后)171.以测量为标志的第一代教育评价(桑代克时期1900-1933)第一代教育评价出现在十九世纪后期至20世纪30年代。英国的高尔顿通过对个体差异的长期研究,于1869年发表了《遗传的天才》一书,揭开了教育测量的序幕。1879年,德国的冯特在莱比锡首创了心理实验室,实验心理学家逐步摸索出了一套测量方法,对教育测量的发展产生了积极影响。十九世纪最后十年,各种测量随着心理实验的发展层出不穷。181897年,美国的莱斯发表了他对20个学校的1600名学生所作的拼字测验的结果,更引起了人们对测验方法的普遍关注,对后来教育测量的发展产生了深远的影响。在这种背景下,1904年,美国的桑代克发表了《心理与社会测量导论》一书,系统地介绍了统计方法和编制测验的基本原理。该书提出了“凡存在的东西都有数量,凡有数量的东西都可以测量”的基本观点,为教育测量奠定了理论基础,对教育测量学的建设与发展做出了巨大贡献。19“拼字测验”结果表明:8年中每天花45分钟时间进行拼字练习,同每天花15分钟进行练习的成绩并没有多大的差别。这一结论尽管遭到了不少人的反对,但它引起了人们对测验问题的普遍关心,推动了教育测验问题的研究。中世纪以后,西方自然科学由于在方法论上引入了测定、观察和实验,一些传统学科如物理学、化学、医学、天文学等有了长足的发展。1879年,冯特在德国莱比锡建立了第一个心理学实验室,为进一步揭示人的心理本质问题而设计了种种周密的实验方案与实现方案的各种严密的测量方法。所有这些方法论的变革促进了教育测量运动的兴起。20以后的几年中,比纳·西蒙智力量表、斯坦福·比纳量表等心理测验的日趋定型对教育测量的标准化也产生了极其深刻的影响。所以,这时期评价就是选择测量工具、组织和实施测量、提供测量数据。为此,这一时期被称为“测量”时期。21教育测验是用数学方法对事物或现象进行描述,是为了取得客观的数据,客观性是测验质量的首要指标。这种倾向在我国教育评价实践中普遍存在,影响深远。其思想及理论来源于美国的教育测验运动,主要应用于评价学生的学业成绩。22主要优点是:可以使学生学业的考查客观化、计量化和精确化,便于经常性和大规模的进行评价。缺点是:不易测量学生学业的全部,对学生的学习态度、兴趣、品行、性格等,都不能做出充分的说明。教育工作包括许多因素,要衡量其好坏,不能只通过学生的学业成绩来考查,单靠教育测量的定量分析,是远远不够的。232.以描述为标志的第二代教育评价(1930-1940)第二代教育评价盛行于20世纪30到40年代。30年代以前,现代教育评价的概念尚未形成,教育测量与教育评价几乎是同义语。无论是我国的科举,还是西方的心理测验和教育测量,所关心的仅是个体学力状况,追求的是量的大小,而对人的全面了解和把握对学校乃至整个教育成就的评价并未正式提出来。241933年罗斯福实行了“经济的社会化政策”,这一经济政策的实行导致了大批青年没有就业的机会,只能涌向中学。而当时美国的高中课程都是为升大学服务的,于是,中学课程和失业青年的需要之间产生了尖锐的矛盾。为了促进和保证课程改革的进行,美国进步主义教育协会进行了一项课程内容改革的实验研究,从1932年到1940年历经八年完成,史称“八年研究”。25为了评价其研究成果,组成了以泰勒为领导的教育评价委员会。通过这场研究,泰勒和他的同事们正式提出了教育评价的概念,即教育评价就是衡量实际活动达到教育目标的程度,测量是它的手段。同时,还提出评价的原则和方法,即“泰勒模式”。“八年研究”实际上宣告测量运动的终结,使人们在思想上和行动上接受了采用教育评价方法来描述教育效果这一观点,形成了一个以“描述”为特征的评价时代。263.以判断为标志的第三代教育评价(1940-1970)第三代教育评价出现在20世纪40年代末50年代初到70年代。1957年,前苏联第一颗人造卫星上天使美国大为震惊,促使美国投入大量的人力和财力进行大规模的教育改革,从而对教育评价也提出了新的要求。政府十分关注教育评价的开展,民众也迫切要求对学校的办学成效进行鉴定和报告,使教育评价成了官方和民间共同关心的课题。271963年,克龙巴赫发表了一篇题为《通过评价改进课程》的文章,1967年斯克里芬发表了《评价方法论》。他们一方面对原先的评价理论与方法提出质疑,同时对评价理论与方法进行了更广泛和更深刻的研究和开拓。他们认为评价不仅要以目标为中心,而且更要注重对决策的评价。也就是说,评价者不仅要关心课程制定者规定的目标,检验这些目标达到的程度,更应注意对目标的合理性的判断,关心所作的决策和决策的依据。281967年,斯泰克发表了《评价的面貌》一文,肯定了判断是评价的两大基本活动之一,同时提出了一个完整的、包含描述与判断两个方面的评价模式。这样,判断就成了第三代教育评价的标志。正如著名教育评价专家顾巴所说的:“60年代或者更确切地说1967年以后,判断成了第三代评价的标记。”294.以同构为标志的第四代教育评价(1970-至今)20世纪80年代,由美国印第安纳大学教育学院枯巴教授和维德比尔大学高等教育学院副教授林肯创立了“第四代教育评价”理论。“第四代教育评价”的初步思想最早出现在他们合写的《有效的评价》(1981)和《自然主义的研究》(1985)两篇重要文章中。经过几年的潜心研究,1989年他们出版了名为《第四代教育评价》的专著。30在这本书中,枯巴和林肯较为系统地阐述了这种新理论的基本观点和理论构架。“第四代教育评价”理论提出后,在美国引起了很大的反响,整个教育界几乎都为之震动了。主要内容包括以下几点:31①把评价看作是所有参与评价活动的人们,特别是评价者与评价对象双方交互作用、共同建构统一观点的过程,评价结果也是其双方交互作用的“产物”。32②提倡在评价中形成“全面参与”的意识和气氛。主张让参与的评价所有人都有机会发表自己的意见,并要求评价者在评价中充分尊重每个人的尊严、人格与隐私,所有参与评价的人都应是平等、合作的关系。33③他们提出在评价中存在“价值差异”。认为,参与评价的人们的价值观是各不相同的、价值标准是存在差异的。这种“差异”观点将纠正传统评价理论价值是一致的、单一的观点。第四代评价观点的提出,在全世界教育领域中产生了很大的反响。345.多元评价理论的出现多元智能理论是一种全新的有关人类智能结构的理论,它的悄然兴起,不仅有力诠释了素质教育的基本理念,而且给我们的课程改革提供了有力的理论支撑。该理论的提出者霍华德·加德纳教授认为:人的智力是由言语/语言智能、音乐/节奏智能、逻辑/数理智能,视觉/空间智能、身体/运动智能、交往/人际关系智能、自知/自我认知智能、自然观察智能等8种以上智能构成。35加德纳提出:世界上并不存在谁聪明谁不聪明的问题,而是存在哪一方面聪明以及怎样聪明的问题。非智力的心理因素如兴趣、情感、意志等对学习效果的关系极大,把非智力因素作为一个与知识能力平行的领域来评价,是现代社会对多元化人才的需求。1963年,美国政府正式提出要对教育的效能和质量进行评价,并拨款支持。这段时间出现了40多种评价模式,教育评价呈现出一派生机勃勃的局面。其中比较著名的有:361.决策评价(CIPP)此类评价认为,“评价最重要的意图不是为了证明,而是为了改进”,评价不应单纯的以教学目标为中心,应以决策为代表的社会为中心。评价应为决策服务、为决策收集、组织和报告信息,它是“为决策提供有用信息的过程”。1963年,克龙巴赫发表《通过评价改革课程》,指出评价的内容不应仅仅是教学目标的达到程度,而更应关心对教育决策及其所依据的准则的评价。为决策提供信息更应是评价的中心。37斯塔弗尔比姆(D.L.Stufflebeam)是这一方法的主要奠基者,他把评价过程分为四个阶段:背景评价(ContextEvaluation);输入评价(Input);过程评价(Process);成果评价(Product)。被称为CIPP评价模式。38这类教育评价有三个明显的特点:(1)明确提出评价为决策服务的思想;(2)开始探讨目标本身的科学性和合理性,即目标本身成为评价的对象,同时预期目标之外的教学效果开始受到关注;(3)正式提出形成性评