1表现性评价20世纪90年代早期,许多教育决策人员十分钟情于表现性评价。表现性评价通过让学会完成某一特定任务来测量学生的状态。从理论上讲,学生在判断题中选择正确和错误也是在完成任务,尽管这一任务很简单。但是,表现性评价的支持者认为,表现性评价的测量方法与选择题测验有很大的不同。实际上,正是对传统纸笔测验的不满使许多教育者开始尝试使用表现性评价。什么是表现性测验表现性评价不仅要观察学生的表现,还要对学生的表现做出评判。在表现性评价中,学生要建构一种原创的反应,教师还要观察这一建构的过程。表现性评价与其他传统测验的区别主要在于引发学生真实行为表现的程度。例如,有个教师指导学生用合作的方式解决各种问题,他想评估学生是否习得了合作技能。这里要考查的是每一个学生掌握合作技能的程度。依据评估的结果,教师可以决定某一学生是否需要额外的指导,是否可以开始新的教学任务。实际上,在这里教师真正感兴趣的是学生能否与其他学生合作,一起找到解决问题的方法。图8.1列举了五种用以评估学生合作技能的方法。但你会发现,一和二两种方法都是选择—反应评价,它们没有让学生建构任何反应。其他三种(三、四和五)虽然都是建构—反应评价,但所提供的任务与教师教学目标相一致的程度有明显的不同。具体地说,第五种方法与教学目标所要求的行为最接近,而第4种方法与第一种方法相比就更具有表现性测验的特点。不难看出,不同的教育者在用“表现性评价”这个词表示不同的评价方法。有些教师把简答题和论述题测验作为一种表现性评价的形式,也就是说他们基本上把表现性评价等同于各种形式的建构—反应评价;有些教师则使用比较严格的表现性评价概念。很多表现性评价的支持者主张,真正的表现性评价必须至少具备以下三个特征:●多重评估标准。学生表现的评判必须依据多个评估标准。举个例子来说,一个学生说西班牙语的能力要从口音、句法、词汇三个方面进行评估。●预定的质量标准。用以评判学生表现的每一条评估标准,必须在评判之前就已十分具体、明确。●主观的评估。真正的表现性评价与选择题的评分不同,它不能借助于计算机和扫描仪,它要依靠人的经验和智慧来决定学生表现的可接受程度。回头去看图8.1,如果用上述三个条件来衡量图中提供的五种评价方法,我们不难发现,第五种方法是表现性测验,第四种方法也算,但其他三种就不符合要求了。很多表现性评价的支持者指出,提供给学生的任务应当是能代表真实世界而不是校园世界的问题;其他支持者则认为,校园世界的测量都应是建构—反应的,而不是选择题;还有一些支持者主张表现性测验中的任务应当是十分严谨的,要以布卢姆的目标分类学为指导。总之,表现性评价的支持者所主张的方法实际上是各不相同的。你有时候可能会碰到有人使用其他词来称呼表现性评价。比如,有些人可能会使用真实性评价(authenticassessment)(因为评价任务比较接近真实酌生活)或替代性评价(因为这种评价构成了传统纸笔测验的一种替代方式)。下一章,我们将介绍的成长记录袋评价是表现性评价的一种类型,不能被看做是表现性评价的又一称呼方法。为什么要使用表现性评价之所以许多人倡导使用表现性评价,影响因素有很多。杰出的教育测量专家梅伦斯(Mehrens,1992)曾提出一系列教育者赞同使用表现性评价的理由,下面列举的是他认为比较重要的三个方面:2●对选择一反应测验的不满。表现性评价的支持者认为选择题和判断题只能考查学生的再认能力,不能有效地测量学生的高水平思维技能,如学生能否解决问题、综合或独立思考。尽管也有人批评选择—反应测验是不公平的或只能考查不重要的内容,但最为常见的批评意见是学生只需要选择一个答案。●认知心理学的影响。认知心理学家认为,学生不仅要获得内容知识,还要获得程序性知识。他们指出,所有的认知任务都需要两种类型的知识,但不同类型任务的侧重点不同(Snow&Lohman,1989)。因为学生程序性知识的获得已越来越成为教学的重点,而某些类型的程序性知识却不能通过选择—反应测验来评价,许多认知心理学家都倡导在教育中应用表现性评价。●传统测验对教学的消极影响。由于教育评价的高利害性,教师倾向于把测验中所要求的内容作为教学的重点。结果学生测验的得分提高了,但知识与技能的掌握情况却没有什么改善,特别是在教师只按测验要求组织教学的时候。多数教育者已认识到高利害测验将会持续影响教师的教学。他们认为,相对于传统的纸笔测验而言,表现性评价更能对教师的教学目标构成积极的影响。如果在高利害评价中合理使用表现性测验,教师教学活动的重心将会发生积极的转变。p138类似的意见还可以列举出很多,但实际上梅伦斯(1992)的分析已经把支持表现性评价的主要理由阐释清楚了。梅伦斯非常支持教师在课堂评价中使用表现性评价,因为他认为这种评价可以明显地改进教师的教学。不过,他对在教育效果评估中使用表现性评价持怀疑态度。现在我们开始讨论表现性评价的两个核心问题:给学生选择适当的任务,以及学生完成任务后评判学生反应的满意程度。确定适当的表现性评价任务一般来说,表现性评价需要学生完成一定数量的比较有意义的任务,而不是大量并不是很重要的任务。比如,在化学测验中,学生不用再像原来那样完成50道选择题,而是在化学课上操作一个实际的实验,然后撰写报告分析实验程序和解释实验结果。从化学教师的观点来看,对每一学生学习状况的评估必须以学生在完成某个单一或复杂任务中的表现为依据,而不能凭借学生在选择题测验中的反应来做出判断。正是由于表现性测验的任务具有重要意义,教师在选择表现性评价任务(performance-assessmenttasks)时必须非常谨慎。基本上,教师可以自己设计表现性测验任务,也可以根据需要从现成的表现性评价任务中进行选择。推论和任务本书已经反复强调过,教师评价学生要明确以下两个主要问题:(1)教师要得出什么样的评价推论;(2)教师依据评价推论做什么决定。举个例子来说,假如你是个历史教师,你连在湖滨小屋度假时都在考虑一些有关课程的问题。三个月后,你拿定主意,你要教学生学会将所学的历史知识用于解决实际问题,这些问题可能是当前的,也可能是未来的,但它们都在一定程度上与历史事实有关。于是你决定放弃原来被学生称为“测验马拉松”的期末测验,不再花一个星期的时间让学生完成1500多道判断题。现在,你要采用表现性评价策略,希望选择一个适当的表现性测验任务,帮助你考查学生运用历史知识解决当前和/或未来问题的能力。图8.2是一个关系图,涉及的变量主要是:(1)一个教师的核心教学目标,(2)教师希望得出的学生评价推论和(3)用来获取数据以支持评价推论的表现性测验任务。你会发现,教师的教学目标是评价推论的依据,而表现性任务产生了教师达成评价意见的证据。根据学生对教学目标的掌握程度,教师可以确定下一步教学的内容与安排。类推性的困境表现性评价面临的最大问题是难以准确地类推出学生掌握知识与技能的情况,因为表现3性评价与传统纸笔测验不同,它的任务数量一般很少。为了说明这一问题,我们假设你正在关注学生计算两位数乘法的能力。如果出于教学上的考虑,你只能用半个小时的时间来评价学生,你可以要求学生在30分钟内完成20道乘法题。(题目可能有点偏多,但我是想给大家一个鲜明的对比。)通过学生的答卷,你可以公平地评价每一学生两位数乘法的掌握情况。由于测验题目是从评价内容领域抽取的一个有代表性的样本,你可以依据学生的表现得出结论,比如“贾维尔(Javier)真正掌握了乘法题”,或“弗雷德(Fred)不能解决两位数乘法问题”。正是因为你的抽样是合理的,你可以自信地推论出学生解决类似类型乘法问题的能力。但是,同样只有30分钟的时间,如果你使用比较正规的表现性测验,你只能让学生完成一个表现性任务。例如,你呈现给学生一个涉及具体操作的以乘法为主的实际数学问题,让学生先给出初步的解决方案,然后用纸笔写出这一过程。应该说,如果学生能在半小时内完成那实在是十分困难的。而且,单凭这一单一的任务,你能做出关于学生能否完成其他类似任务的推论吗?正如你所见到的,这就是表现性测验的一个突出问题。因为学生只完成少数几个任务,教师很难作出关于学生一般能力的合理推论。如果你只使用一个表现性测验,倘若学生表现出色,是因为他真正掌握了所测量的技能,还是他运气好呢?另一方面,如果学生在单一的表现性测验中表现得一塌糊涂,是因为他没有真正掌握所评估的技能,还是这一特定表现性任务的特点误导了学生,而他在其他任务中实际上表现得相当出色呢?作为一名教师,你会面临测量上的两难选择。尽管表现性测验可以测量到你所要评价的学生能力,但依据学生在表现性测验中的表现做推论必须十分谨慎。我们至今尚未找到解决或避免这一问题的方法,但至少你可以在处理这一两难困境时尽可能小心一些,在选择表现性测验任务时尤其要谨慎。在选择表现性任务时最重要的考虑应该是提高准确类推学生能力的可能性。如果你总是在选择/建构表现性测验任务过程中着重考虑类推性问题,你就能够做出一个强有力的推论。评估表现性测验任务需要考虑的若干因素现在,我们已讨论完类推性的问题,许多测量专家认为这是教师评判表现性评价任务的最为重要的因素。下面一个问题是,无论你选择一个已有的表现性测验任务,还是自己生成一个表现性测验任务,都可能会考虑下面七个方面的因素。评估表现性测验任务的标准●类推性。学生在这一任务上的表现能在多大程度上类推学生在类似任务中的表现?●真实性。这一任务是否接近学生生活的真实情境,而不是校园情境?●多重关注点。这一任务能不能测量多方面的教学成果?●可教性。学生能熟练完成这一任务,是教师教学努力的结果吗?●公平。这一任务对所有学生都是公平的吗?——就是说这一任务是否避免了对学生性别、种族和社会经济背景等个人特点的歧视?●可行性。考虑到财力、空间、时间和设备等方面的因素,这一任务是可以实施的吗?●可评分。这一任务能否让学生表现出可以准确、可靠地予以评估的反应?无论你是自己设计表现性测验任务,还是选用已有的任务,你可能只考虑到上述七个因素中的几个。我个人认为,确定表现性测验任务要设法考虑所有七个因素,但有时候我们也可能需要对某些因素(如真实性或多重关注点)少一些考虑。比如,在某些情况下,校园情境比真实生活情境更适合教师作出某些推论,真实性标准就不再那么重要了。又如,考虑到每一表现性测验都牵扯很多时间和精力,能在同一时间测量多方面的成果确实很经济,但有时候某一单一的教育产出非常重要,这就需要关注点单一的表现性测验。不过,上述两种情况并不多见,一个真正好的表现性测验任务应该符合所有七个评估标准。表现性测验与教师时间在第一章,我曾声称,如果你认真阅读完这本书,你将成为一个优秀的教师。4现在,我又有另外一个承诺,那就是“诚实”,我会说出对我们正在探讨的测量方法的真实意见。关于表现性测验,我认为它很花时间!作为一名教师,使用表现性评价要在以下几方面投入时间:(1)选择适当的任务;(2)制定合适的给学生反应评分的计划;(3)对学生反应的实际评分。与已经使用过表现性测验的教师交谈,你会发现表现性评价的应用需要大量时间。因此,我给大家一个建议,当你使用表现性评价时要考虑另外一个因素,那就是你所要评价的技能的重要性。由于你只能在教学过程中使用有限的几次表现性测验,你要确保你的每一次表现性测验都能涉及最为重要的技能,而这些技能正是你试图让学生获得的。如果表现性测验不是在评价十分重要的技能,你最好赶快终止它,坦率地说,这样做得不偿失。确定评分标准表现性评价始终遵循建构—反应测量的要求,学生在评价中要生成而不是选择反应。但是学生建构的反应必须要进行评分,而这种评分比选择性反应的评分要难得多。建构—反应的评分要根据评估标准。现在,让我们来关注用来考查学生在表现性测验中反应质量的评估标准。所谓标准,韦伯大词典将其解释为“评判或决定所依据的规格”。给学生在表现性测验任务中的表现评分,就是试图评判学生建构性反应的满意程度。显然,评判所依据的具体标准会影响教师给学生反应评分的方式。比如,你依据组织、用词和表达的清晰程度来给学生的作文评分,与你依据拼写、标点