第二讲国外教育评价的发展历程一、国外教育评价发展历程美国教育评价专家库巴和林肯对教育评价发展历史阶段的划分:(1)第一代教育评价:测验和测量时期(19世纪末—20世纪30年代);(2)第二代教育评价:描述时期(20世纪30年代—40年代);(3)第三代教育评价:判断时期(1957—20世纪70年代);(4)第四代教育评价:建构时期(20世纪80年代—今)。美国现代教育评价专家马道斯(GeorgeF.Madaus)和斯塔弗尔比姆把教育评价发展划分为以下七个时期:(1)变革时期(1792—1900);(2)效率与测验时期(1900—1930);(3)泰勒时期(1930—1945);(4)萌芽时期(1945—1957);(5)发展时期(1958—1972);(6)专业化时期(1973—1983);(7)扩展与整合时期(1983—2001)(一)测验与测量时代1.教育测量的萌芽期——笔试代替口试(1904年以前)1845年,美国波士顿学校委员会主席贺拉斯曼将笔试——开创了用学生的测验分数作为依据来评价一所学校教学质量或教育方案1864年,英国人费赦(GoergeFisher)公布《作业量表集》——运用科学方法研究教育测量问题的最初尝试1879年,冯特(wundt)在德国莱比锡设立了第一个心理学实验室,为进一步揭示人的心理本质问题而设计了种种周密的实验方案与实现方案的各种严密的测量方法。同时,他与卡特尔(Cattell)、霍尔(Hell)、贾德(Judd)和梅伊曼(Meuann)一起研究了各种教育问题,提出了实验教育学的基本思想和方法,他们的研究工作在世界上产生了较大影响。1882年,英国高尔顿(SirF·Galton)在伦敦设立了人类学测验实验室,对人类个别差异进行研究。他在统计学者皮尔逊(K·Pearson)的帮助下,设计了许多统计方法。一些教育家借鉴这些统计方法,把不同学生的学习能力与学习效果量化,并加以客观比较。1897年,美国人莱斯(J·M·Rice)发表了《拼字实验》他对20所学校的1.6万名学生所作的拼字测验的结果,测验表明:8年中每天花45分钟同每天花15分钟进行拼字练习的学生的测验成绩并没有多大区别。因此,他提出要对教学方案进行改进。在以上这些测量研究潮流的推动下,一场教育测验运动兴起了。2.教育测量理论的诞生1904年,桑代克(E·L·Thorndike)发表了《心理与社会测量导论》:“凡物的存在必有其数量。”美国测量学者麦柯尔(McCallW.A.):“凡有数量的东西都可以测量。”“凡是存在的东西都有数量,凡是有数量的东西都可以测量”——测验和量化评价的公理这是一本在测验学史上划时代的巨著,标志着教育测验运动的开始。3.教育测量的兴盛期(1915---1930年)1905年,法国人比纳(A·Binet)为适应对弱智儿童进行教育的需要,制定了第一个实用的智力测验量表。《比纳—西蒙量表》,比纳被称为智力测量的鼻祖。1908年,美国教育家斯通(C·Y·stone)提出了客观化测试算术的方法。美国的30-40个大学校系统采用新的客观测验方法,对一些教育活动进行综合测量,测量内容为算术、拼字、书法和英语作文,以评价教学质量。早期学校系统的测量主要采用标准参照测验,1930年出现了常模参照测验,这种测验开始用于测量个体行为水平,后来发展到用于测量团体。教育测验已发展成三种不同性质的测验:学力测验、智力测验和人格测验。在学力测验方面,据统计,从桑代克发表书法量表到1928年为止,已有标准心理测验和标准学力测验三千余种之多。在智力测验方面,自比纳一西蒙智力测验传入美国后,经辜鲁满(F·Kunlman)及斯坦福大学推孟(G·M·Terman)的相继修改,加以量化,并引用德国斯登(W·Stern)智能商数(IQ)。在人格测验方面,1921年,华纳德(G·G·Fernald)着手试作人格测验;1924年至1029年,哈芝红(H·Hartshorne)等人组织了人格教育委员会,着手研究人格测验工具,并不断加以改进。在这一时期的标志是大量测量技术的运用,评价者仅仅扮演“测量技术员的角色”。测量的弊端:•无论是知识测验还是人格测验,都只能做中断的测定,不能全部了解人格的发展与知识学习过程,完全忽视了学生在态度、兴趣、情感等方面的表现;•测验只是注意于客观的信度,忽略了质的分析,不足以说明效度;•教师为测量成绩所采用的学业测验,根本就是教科书中心主义;•测量或考试决定教学方法和学习方法,使学习者处于被动地位,易培养个人主义与被动式的学习态度。现阶段影响较大的三种不同性质的教育测验IEA(国际教育成就评价协会,偏重于学科本身的学业能力);PISA(经济合作与发展组织OECD,偏重于成年后的实际生活能力);美国的SAT、AT和ACT三种测验(二)描述时期背景:•1929—1933年经济大萧条席卷美国、波及全球•社会与教育危机四起•生产过剩、工厂倒闭、工人下岗•经济大萧条既导致教育经费不足,部分学校关闭;同时大批失业青年涌向学校,使学校学生人数空前扩大。整个社会和教育皆处于反省之中•为摆脱危机,两百余名美国教育界人士于1930年4月在首都聚会讨论中学如何更好地为青年人服务的问题,大会提出了许多改进中学工作的建议。但每一项改革意见都与大学的入学考试相冲突。当时美国的中学在大学入学考试这根指挥棒的制约下,它们的课程为大学入学服务,不适应失业青年的需要。因为大学规定了严格的入学要求,各州对每个学校又规定了认可标准,学校难以修改课程。为了促进和保证课程改革的顺利进行,有人提议让美国进步主义教育协会成立一个中学与大学关系委员会,寻求大学与中学之间的合作。同年秋天,以艾金(Aikin)为主席的课程改革委员会宣告成立。当时全国选了30所中学参加实验研究,同时得到300所大学同意,对来自这些学校的学生中止他们的传统入学标准,以保证这30所进步学校按照既定的新教育计划进行实验。该实验从1932年到1940年历经八年完成,史称“八年研究”。为了评价其研究成果,组成了以泰勒为领导的评价委员会。泰勒和他的同事正式提出了“教育评价”的概念,即教育评价就是衡量实际活动达到教育目标的程度,测验是它的手段。同时,他们还提出了评价原则和方法,其基本思想是:(1)教育是改变人的行动方式的过程;(2)教育目标是各种行动方式的变化;(3)教育能够根据对该目标实际完成情况的分析进行评价;(4)人的行动是复杂的,所以要从各方面进行评价,它不仅是分析的,而且也是综合的;(5)作为评价方法,仅靠用纸和铅笔的测验是不充分的,应该采用包括观察行动在内的更为广泛的方法。其评价过程分为四个步骤:第一步,确定教育目标;第二步,设计评价情境;第三步,选择和编制评价工具;第四步,分析评价结果。这就是所谓的目标评价模式泰勒的“教育评价”在“测量结果”基础上作了一些“描述性”的解释,目的不再是学生本身,而是什么样的学习目标模式对学生学习有效,评价者不再是“测量技术员”。更重要的是一个“描述者”,所以被称为描述时代。泰勒的教育评价概念的提出,对当时的教育评价工作起了重要的指导作用。(三)判断时期背景:1957年苏联人造卫星发射成功,美国朝野为之震动。1958年美国国会通过《国防教育法》,制定了课程改革和数学、自然科学、外语教学改革方案,还拨出专款来研究如何评价这些课程改革的效果。在研究过程中,一些评价工作者意识到泰勒的目标评价模式对课程改革作用不大。为此,许多人开始从不同角度研究教育评价,先后提出了40多种评价的观点和方法。1.1963年,克龙巴赫(Cronbach)发表题为《通过评价改进课程》的论文,对泰勒评价模式提出质疑:(1)评价人不仅应关心教育的目标,检验教育目标达成的程度,更应关心教育决策;(2)评价的重点应放在教育过程之中,而不是教育过程结束之后;(3)评价不是决定优劣的过程,而是作为一个收集和反馈信息的过程。2.1966年斯塔弗尔比姆(Stufflebeam)也对泰勒模式提出异议,他认为:“评价不应局限于评判决策者所确定的教育目标预期效果的达到程度,而应该收集有关教育方案实施全过程及其成果的资料,评价是为决策提供信息的过程”。斯塔弗尔比姆提出了以决策为中心的CIPP评价模式,通过找出“实际是什么”与“应该是什么”之间的差异来为决策服务。3.1967年,斯克里芬(skriven)发表了《评价方法论》一文,明确提出以下集中评价概念的区别(1)形成性评价和终结性评价;(2)专业性评价和业余性评价;(3)比较性评价和非比较性评价;(4)目标达成度评价和目标是否达成的评价。同时,斯克里芬还提出了目标游离(GoalFree)评价模式。4.70年代中期,斯塔克(Stake)认为传统的评价模式是预设式的评价(PreordinateEvaluation),难以反映目标本身的变化、学生在目标之外的感受,各方面人士对目标所持的不同的观点,而且教育的价值有时是扩散的、潜在的,有时又是内在的,这些都难以用预先确定的目标一一查对。据此,斯塔克提出,评价的意义在于服务,为了使评价有利于评价对象,评价者应该关注服务对象关注的问题、兴趣和焦点。在此评价理念指导下,斯塔克提出了“应答评价模式(ResponsiveEvaluation)”。5.1975年,比贝(Beeby)把评价定义为“系统地收集信息和解释证据的过程,在此基础上进行价值判断,目的在于行动”,并强调:(1)评价要收集系统而非零散的资料;(2)资料必须经过精心整理、精心解释,引入评判性思考;(3)思考的结果要对教育活动的价值作出判断,包括对教育目标本身作出判断;(4)价值判断的结果应有助于决策的科学化并付诸今后的行动,也即评价应对实际工作有指导意义。特征:用一定的标准去衡量所得结果是否达到了既定目标,并作出“价值判断”。评价者不仅要运用一定的测量手段去收集各种参数,而且还要帮助制定一定的判断标准与目标,所以被称为“判断时代”。明确提出评价为决策服务的新思想;开始探讨目标本身的科学性和合理性;正式提出形成性评价的思想。(四)建构时期代表人物:印第安纳大学教育学院的枯巴(Cuba,E)和维德比尔特大学的林肯(Lincoln,Y.S)。著作:《有效的评价》(1981)、《自然主义的研究》(1985)、《第四代教育评价》(1989)前三代评价理论的不足之处:(1)前三代评价往往把评价对象及其他一切有关的人都排除在外,不予考虑,容易在评价者与评价对象之间形成紧张、对立的关系。另外评价者没有完全享有充分的工作权力与自由,他们到处受限制。因而整个评价工作很难做到公正、准确。(2)前三代评价忽视了其他价值体系在评价中的作用,没有注意到现实生活中价值体系的多元性,没有看到由文化造成的“价值差异”问题,这样的评价往往很难为各种文化背景下的人们普遍接受。(3)前三代评价过分强调在评价中采用“科学方法”。“第四代教育评价(FourthGenerationEvaluation)”基本观点:评价的本质:评价描述的并不是事物真正的、客观的状态,而是参与评价的人或团体关于评价对象的一种主观性认识,是一种通过“协商”而形成的“心理建构”。因此,评价应坚持“价值多元化”的信念,反对“管理主义倾向”。从评价认识论上看,传统评价坚持二元客观主义论,认识者与认识对象保持一定的距离,并可以排除认识过程中的价值影响;而第四代教育评价主张建构主义观点,坚持一元主观主义论,认识者与认识对象可以融为一体,使认识过程成为一种确实的创造过程。从评价方法看,提倡评价对象应参与评价活动的设计、评价方式的选择,坚持解释型方法论。过去的评价坚持控制型方法论,不断去伪存真,将认识集中控制在真理的探求上,把评价对象放在“被告”位置上,忽视了评价的终极目的是提高工作效率和质量。二、国外教育评价发展特点(1)从评价的目的看,从以目标为中心转向以决策为中心再到以人为中心。评价强调将完整的、有个性的人当做自己的对象,并努力通过评价促使受教育者个性的充分发展,主张从每个学生的发展的内在需要和实际状况出发,评价他们各自的发展进程,并努力使