我国教育评价发展的世纪回顾与未来展望华东师范大学教科院陈玉琨上海市教委督导室李如海摘要在将近一个世纪的历史进程中,我国教育评价理论研究的发展大致可分为两大阶段:间续发展阶段和持续发展阶段。本文研究了这两个阶段发展的特点,并对新时期以来,我国教育评估研究取得的主要进展和对未来需要进一步研究的问题作了探讨。关键词教育评价理论研究世纪回顾未来展望教育评价思想在我国渊源已久,但作为现代教育学科的一门分支学科却是西方的舶来品。在我国自20年代引进后约半个世纪的时间里,教育评价学科的发展却命运多舛,时断时续;直到70年代末期,才逐步获得了持续稳定的发展。本世纪以来,我国教育评价主要取得了哪些进展,有些什么经验教训以及未来可能发展的趋势如何?本文尝试对此作些探讨。一、我国教育评价发展的历史回顾现代教育评0价主要产生和发展于本世纪。从1900以来,在将近一个世纪的历史进程中,我国教育评价理论研究的发展大致可分为三个阶段:间续发展阶段(1900-1977)、理论积累阶段(1977-1985)和持续发展阶段(1985以后)。需要说明的是,第一,历史与逻辑是一致的,从逻辑上讲,教育测量是教育评价的基础;就历史而言,我国的教育评价确实是从教育测验开始研究的。因此,本文关于发展阶段的回顾,将从我国的教育测验运动说起。第二,本文关于历史阶段的划分,主要以我国教育评价理论研究发展的客观过程和标志为依据,而不过多参照政治维度的分段标准。(一)间续发展阶段(1900-1977)中国作为世界著名的文明古国,蕴藏着丰富的原始型态的教育思想。换言之,许多种教育思想,都可以在古代中国找到其最初的萌芽,教育评价思想也不例外。早在战国时代的《礼记·学记》中便有对学生管理和考核的规定和要求。自隋炀帝大业二年(公元606年)置“进士科”开始的科举取士,分科选拔、逐级考试,在考生来源、考试科目与方法、录用程序等方面都形成了一套较完备的制度,这也可以看作有系统的教育评价活动的萌芽。然而古代中国所萌发的教育评价思想的嫩芽,却因种种原因,并未能在20世纪伴随着西方教育测验和评价运动而率先成长发展起来。1905年我国废止承袭已1300年的封建科举制度之时,正值西方教育测验运动方兴未艾,在内与外、主动与被动两种力量的共同作用下,西方教育测量的理论很快就传入了中国,并进而在二、三十年代形成了中国的教育测量运动。1918年,美国人瓦尔科特在北京清华学校任教时,用推孟修订的比纳量表测量了该校高等科四年级学生;同年,俞子夷仿造了一种小学生国文毛笔书法量表,但也并未引起广泛注意。1920年,廖世承和陈鹤琴在南京高师开设测验课程,并以心理测验量表测量了学生,这算是在我国正式开始应用科学心理测验。1921年他们正式出版《智力测验法》一书,当时影响较大。1922年,费培杰将比纳量表译成中文。同年,美国教育测量学家麦柯尔(Mccall,W.A.)应“中华教育改进社”之聘来华,担任该社心理研究主任之职,将TBCF(T:totalability;B:brightness;C:classification,F:effort)测量编制法介绍到中国,并在一、两年内迅速传播开来。陈鹤琴、廖世承等都按照这种方法编制过多种测验。这一时期,智力测验的研制与实施盛行一时:有陆志伟订正的比奈—西蒙智力测验;寥世承的团体智力测验;刘廷芳的中学智力测验;刘谌恩的非文学智力测验;陈鹤琴的图形智力测验等等。而后艾伟和其他人士编制了小学各科测验及诊断测验等。我国的教育测验运动,从“五四”前后到1928年可谓第一个高潮。这期间西方以智力测验为代表的各种理论传入我国,我国学者在翻译、引进的同时也结合中国的具体情况作了修订、改造,并积极开展了自己的探索和研究工作。其间出版的一大批教育测验类理论著作,充分表明了当时研究的活跃状况。其中智力测验方面翻译出版的国外著作主要有法国比奈(原题宾尼特,Binet,A.)、西蒙(原题欣蒙,Simon,T.)著、费培杰译《儿童心智发达测量法》(上海商务印书馆1922年5月初版)等;“五四”前后至1928年间,我国出版的测验理论著作主要有:张秉洁、胡国钰编《教育测量》(北京高等师范1922年8月出版);华超编《教育测验纲要》(上海商务印书馆1925年1月初版)等。对这些著作的研究表明,当时我国教育测量起始于引进与传播法国、美国、日本等多个国家的较为先进的智力测验理论与方法。稍后,我国学者就积极开展了大量创造性的研究。与同时期出版的译著相比较,当时国内的研究方法、广度、深度及成果的数量,都并不逊色许多。然而事物的发展往往是曲折前进的。当时我国教育测验运动在发展过程中也出现了严重偏差,主要因为“一是人们赶时髦,东也测,西也测,把测验弄得非驴非马;二是搞测验的人夸大测验的功能,对测验结果翻译不慎重,导致社会对之发生反感”,以致于到1929-30年间,“测验运动竟一蹶不振,社会对之几乎有淡然抛弃之势”。面对教育测验研究和实践的这种混乱、低迷的状况,我国学者痛定思痛,意识到教育测验在中国要健康、持续地发展下去,必须加强理论研究,还之以科学的面目。著名学者艾伟、陆志伟、陈鹤琴、萧孝嵘等倡议组织“中国测验学会”,专门从事测验理论研究。该学会于1931年正式成立,这也是我国教育测量和评价方面的第一个学术研究组织。经过痛苦的低谷徘徊,进入30年代以后,至1937年7月抗日战争全面爆发前,以“中国测验学会”成立为契机,我国的教育测验运动及其研究又获得了新一轮的发展。就研究而言,这期间,左任侠发表了《智力是什么》、《常态曲线之基本原则》等论文,对智力结构作了探讨。萧孝嵘对智力发展曲线和智力成熟年龄等问题作了一定的解答。其中1933-37年间,黄觉民的幼童智力测验、萧孝嵘的订正古氏画人测验、艾伟的订正宾特纳智慧测验等纷纷问世。这期间也出现了一批有关测验、测量等内容的学术著作,其中关于智力测验的有:吴天敏著《中国比纳西蒙智力测验之经过(第二次修订)》(上海商务印书馆1936年6月初版)等;关于教育测验理论与方法的有:汤鸿翥著《教育测验》(上海大华书局1933年8月初版)等。但是,尽管这期间我国关于教育测验、测量的研究取得了一定的进步,然而这一轮的发展力度和质量明显不及上一轮,更多地是沿袭上一轮的研究方法和内容而作进一步的丰富和完善,重复性劳动居多,而缺乏创造性的、有新意的研究方法、课题和成果。也就是说,多量的增加而缺少质的突破。仅以有关测验与统计的研究为例,这一期间出版的一字不差同样名曰《教育测验与统计》的图书将近十本!王书林在其1935年出版的《心理与教育测量》(上海商务印书馆1935年版)中则对教育测验的研究编制情况作了分析。他介绍当时的情形是:“在最近的数年中新的测验没有编造,而旧的测验,有大多数不大合用。”至于青黄不接、进展缓慢的原因,他认为有三:“第一由于主持教育行政的当局,大多数是官僚,不知道教育测验之意义及其重要;第二由于中国的教育界,还没有到应用科学的测验的程度;第三由于麦考尔的方法,TBCF诸名词,不容易使一般人明了其意义”。这场在20年代初期蓬勃兴起,至20年代末跌入低谷,到了30年代有所回升但进展缓慢的中国教育测验运动,却由于1937年7月开始的日本帝国主义的大举入侵而被迫中断。而30年代正是西方教育评价研究诞生并迅速发展的年代,就在中华民族救亡图存、浴血抗日的血泪八年中,美国教育家泰勒(Tyler,W.R.)完成了教育评价史上具有里程碑意义的“八年研究”(1932-40),这也标志着教育评价学科的正式确立。然而在当时的历史背景下,“八年研究”及其它一系列的研究成果自然是不可能介绍到我国来的。甚至连“教育评价”的概念都未能引进,我国教育评价理论的研究水平自此与世界拉开了距离。这期间只是零星地出版了一些教育测验类的书籍,如陈选善著《教育测验讲话》(上海世界书局1944年6月出版)、孙帮正编《心理与教育测验》(贵阳文通书局1947年12月初版)、李象伟编《教育测验与统计》(上海中华书局1948年9月出版)等(参见北京图书馆编:《民国时期总书目(1911一1949)·教育·体育》卷第58—64页,书目文献出版社1995年版),多为师范教育或教师培训实用所需,并无多少研究创新可言。新中国成立以后,由于政治上的原因,政府认定苏联的教育就是社会主义教育,予以一概肯定,并在实践中全盘照搬;同时认为,欧美国家的教育和旧中国的教育遗产都应一概否定。这种严重的片面性使我们丧失了对具体问题作具体分析的能力。在教育评价研究上,我国经过二、三十年代教育测验运动而积累的研究人才、方法、技术、资料等诸多宝贵成果,曾一度由于战争而丧失殆尽;好不容易保存下来的一点弥足珍视的文化遗产,却又在50年代初、中期全盘学苏联的热潮中,统统被贴上“资产阶级”的标签而全遭否定。在这种形势下,当时西方正蓬勃发展、日渐成熟的教育评价研究和理论自然又不可能被引进中国。此时我国的教育评价研究,实际上主要是学习以五级分制为核心的苏式成绩考评法,如广东教育与文化月刊社编的《学习五级分制计分法》(华南人民出版社1952年8月初版)一书,即是关于如何贯彻五级分制的说明。外国语学校外语教学丛书编委会编的《五级分制与考试的检查工作》(上海五十年代出版社1953年5月4版)一书,讨论的是如何在外语教学和考试中应用五级分制。50年代末期,中苏两党乃至两国的矛盾已初露端倪。到了60年代初,以布加勒斯特会议为标志,中苏论战全面爆发,两国关系彻底破裂。此时,政治上的斗争再次延伸到教育领域中来,我国教育系统对于以凯洛夫教育学为代表的苏联教育模式,由学习模仿转变为声讨批判。至此,在教育评价领域,欧美式的教育测验既以“资”字号被否定于前,苏式的考评方法又以“修”字号被批判于后,而教育行政领导部门又并不能指出评价发展的正确方向在哪里,于是我国的教育评价研究遂陷于无所适从的困境而再次被迫中断。然而这一中断便是20年。1966年我国开始了史无前例的“文化大革命”,在这一时期,我国高等学校的正常招生被中断了6年之久。1972年起,大多数学校开始恢复招生,主要是招收具有两年以上实践经验和初中毕业以上文化程度的工农兵学员,取消了文化考试,实行“自愿报名、群众推荐、领导批准、学校复审”的办法。在教育评价的实践和研究进程中,就其内容而言,有一个由单一到多样的发展过程,即由主要评定学生的有关方面到全面评价教育系统各种因素的发展过程。建国以后直到80年代初期,我国的教育评价实践和研究都还基本处于单一化的学生评定阶段。而这其中社会意义和影响最为重大的学生评定,便是全国高校统一招生考试。高考制度废止,自然无法奢谈教育评价研究的任何发展。到1977年恢复高考,我国教育评价理论研究中断己足有20年。(二)理论积累阶段(1977—1985)由于社会大局的稳定,与前一阶段相比,本阶段最突出的特点是发展的持续性、不间断性。这种连续性使研究成果得到了有效的累积,同时由于我们具有后发优势,从而使得我国的教育评价理论研究在短短20年的时间内,取得了令人瞩目的成绩。1977年8月,根据邓小平的指示,教育部在北京召开全国高等学校招生工作会议,会议确定了《关于1977年高等学校招生工作的意见》,并于10月12日由国务院批转各有关部门。文件规定,自1977年起高等学校的招生制度进行改革。新的招生制度采取“自愿报名,统一考试,地市初选,学校录取,省、市、自治区批准”的办法。这是时隔11年之后我国再度实行高校统一招生考试制度。统一招生制度的恢复,受到社会各界的普遍欢迎,也极大地刺激了我国教育评价研究的发展,它对我国教育评价理论研究的发展提出了需求,提供了动力,并为其积累了必要的实践基础和研究素材。但我国教育评价理论研究真正启动,还是在1978年党的十一届三中全会以后。70年代末80年代初我国教育评价研究兴起的背景和动因大致有三:一是反思历史、重建秩序的需要。拨乱反正以后,人们看到了建国以来我国教育发展上的大起大落和重大失误,感到有必要认真反思和评价过去的教育政策和实践。探究我国教育发展的客观规律。这种整治、重建工作成效如何,需要及