吕兆格●郑州大学国际教育学院●2009.07.01语言测试及方法一、语言测试的性质、目的作为老师,几乎天天和测试打交道。如:讲新课之前,要抽出几分钟的时间复习一下上一课学过的内容,或者听写单词或者听写句子等;每学完一课书,要检查学生对本课掌握的情况;学期中间,一般要进行期中考试,期末有期末考试,等等。因此,教学离不开测试。3二、语言测试的目的目的:科学地测量出学习者的语言能力作用:选拔、诊断、评估、预测、研究。测试具有信息反馈、成绩评定及人才选拔的功能。作为教师,应充分重视测试所起到的信息反馈作用,及时调节教学内容及教学手段,改进教学方法。此外,还应尽力发挥考试的后效作用,增强学生的学习动机。三、语言测试的分类(1)以测试用途为标准的分类:1.水平测试proficiencytest2.成绩测试achievementtest,也叫学业测试。3.分班测试placementtest4.潜能测试aptitudetest(能力倾向)5.诊断测试diagnostictest5潜能测试、诊断测试潜能测试主要是测试受试者是否具备将来学习语言的天赋,设计的题目往往多一些,目的是通过考查受试者模仿、记忆等方面的能力,判断其学习语言的潜力。诊断测试的目的与成绩测试相反,成绩测试所关注的是学习成功的程度,而诊断测试关注的是失败的程度,即学习者在哪些方面犯了错误,并借此找出补救的办法。6诊断测试和成绩测试诊断测试可以用来考查单个的语言项目(如语序),也可以是综合性的,其目的是为了改进教学,调整教学计划,进行个别指导。成绩测试是回顾以前,水平测试主要是展望未来,同时也注意过去,而潜能测试只是预见未来。7语言测试的种类(2)按学习阶段来分:分班测试(placementtest)随堂测试(classroomtest)期中测试(mid-termtest)期末测试(end-of-termtest)按考试方式来分:分离式测试(discrete-pointtest):把知识和能力分解为若干小的单位,如集中考查语言的某一方面,或考查学生单方面的技能。综合性测试(integrativetest):听写、完形填空、写作、翻译。8按对考试分数的解释来分:常模参照性测试(norm-referencedtest)标准参照性测试(criterion-referencedtest)按试卷的评阅方式来分:主观性测试(subjectivetest):作文、口试、简述、翻译等。客观性测试(objectivetest):选择、判断、配对题等。9常模参照性测试常模是指一群类型相同的人在一类考试中的成绩,这个常模一般用该考试的平均分与标准差来表示。常模参照性测试是指参照某一个常模来对某考生的分数作出解释。实际上是结合其他考生的得分情况来反映一个考生的分数,说明他在这群人当中的位置。如:某次HSK成绩的平均分是512分,标准差为66,某考生在这次考试中得了578,比平均分正好多出一个单位的值,即一个标准差的分数(512+66=578)。按照正态分布的原理,有84.13%的考生成绩低于得578分的考生。这种测试有利于选拔学生。10测试的种类(3)也有人直接划分为:1、成绩测试和水平测试2、客观性测试和主观性测试3、标准化测试和非标准化测试11语言测试的总体设计1、确定考试类别2、确定考试内容3、确定考试题型4、确定试卷结构5、制定考试细目表6、命题及编辑试卷——编写试卷121、确定考试类别考试目的不同,试卷的内容、要求也不一样。成绩测试是用来检查学生对所学知识或技能的掌握情况。随堂测试、期中测试和期末测试都属于成绩测试。设计这类测试题时,试卷的内容就要反映过去学习过的内容,即学生学了什么,考试就要考什么。水平测试主要看考生是否达到某一水平,与过去的教学内容没有直接联系。它不考虑学生从前学过什么,也不考虑是如何学的。这种考试认为考生应该掌握什么,考试就考什么。132、确定考试内容考试类别确定了,就要考虑考试内容了。成绩测试的内容是由教学大纲规定的。一般来讲,教学大纲不仅规定了教学的内容,同时也规定了教学目标,即学生除了要掌握规定的教学内容之外,还应该达到的行为目标和能力层次。设计题目时,理解、应用及综合等能力的题目应多一些,因为语言能力的高低,说到底是一个运用的问题。143、确定考试题型从纵向看,每个学习阶段的考查都有最适合它的有效题型;从横向来说,每种技能的考查也都有最适合它的有效题型;由纵横两向决定的坐标点即题型的最有效点。考试题型在客观上对教学方法起着导向作用,所以课程考试的题型应有相对的稳定性。选择考试题型时,有几个因素要考虑:15(1)根据测试目的选择题型采用何种题型,要看考试的类型、目标和要求。如听写句子,这种题型已被HSK弃置不用,原因是所反映的诊断目的不清楚。而在课程考试中,综合课的考试特点与这种题型所反映的某种综合能力(听力+语法结构+汉字书写能力)相吻合,所以仍然选用这种题型,只是对不同阶段的难易度加以调整。16(2)纵横结合,确定题型是否有效在单项技能考查中如何使用四选一这种题型是一个常被忽视的问题:在阅读考试中,所有的四个备选项都以书面文字的形式表现是和适的;而在听力考试中,仍然采用同样的形式表现,考试的有效程度会大大降低,因为:汉文化圈的被试会以阅读的便利掩盖听力的缺陷,非汉字圈的被试则会因阅读困难影响听力能力的表现。17(3)考虑被试的能力范围被试的能力范围即被试在某一特定阶段应有能力的最大范围。如初级阶段的词汇教学,要求学生能够理解和运用所学词汇,这是为学生划定的最大能力范围。在测试中,如果要求学生用书面文字准确地定义某一词汇,甚至某一词素,则超过了学生应有的能力范围。所以,初级阶段综合考试中不适合出现为某一孤立汉字释义的题型。这个阶段学生因词汇量所限,即使明了词义,也不可能用文字准确地定义。18测试的题型从评分的角度看,语言测试的题型分主观试题和客观试题两大类。主观题的特点是命题容易评分难,效度(有效性)高,易于测量考生实际使用语言的能力。与此相反,客观题评分容易命题难,信度高(信度指考试结果的可靠性和稳定性)。下面介绍常用的一些题型,了解其优缺点,对于我们选择题型是非常重要的。19(1)多项选择题优点:A.可以测试各个层面的语言知识和技能;B.具有良好的诊断作用。多选可以将要测试的内容分解为若干项目进行,老师可以通过分析考生在各个项目中出现的错误及时发现问题,予以纠正;C.答案固定,评分客观,可以机器阅卷,省时省力;D.试题覆盖面广,适用于大规模测试,测试信度高。缺点:A.题目很难设计,费时费力;B.不能测量考生的表达能力和推理、论证能力;C.对教学和学习的反拨作用不明显。20(2)是非题、判断题优点:A.命题容易,可以在短时间内编制大量的题;B.作答迅速,节省时间;C.适合于随堂测试使用,老师可以随时利用学生易犯的错误编写试题;D.评分客观。缺点:猜测机率大。猜中的机率高达50%。因此,在重要的考试中一般不使用这种题型。21(3)配对题可以看作是一种改良的多项选择题。优点:A.能在小篇幅内测量大量内容,经济实惠;B.题目编制容易,很适用于随堂测试;C.能够有效地测量知识上的相关性,有利于培养学生观察、辨别、比较分析等方面的能力。缺点:A.不适于测量较高层次的教学目标;B.由于其结构特殊,考生每答一题都要把所有选项进行比较,因此浪费时间。22(4)填空题此题要求考生在句子的空白处把答案填写出来。答案可以是一个词、一个词组或者一句话,题目设计得好,对于测量学生的语法、词汇运用能力很有效。与多项选择相比,填空题所测量的多是语言的运用能力,而不是辨认能力,因此比多选题更受欢迎,测试效度也高。优点:这类题目设计比较容易,且不受猜测因素的影响,可以促使学生全面复习所学内容。试题形式也可以有多种变化,学生不会感到枯燥无味。缺点是评分不客观,有时一题会出现多个答案,是题目设计者意想不到的。23(5)短文写作优点:A.可以直接测量考生的写作能力;B.对学生的学习态度和方式也有积极的影响,有利于培养学生实际使用语言进行交际的能力;C.试题设计起来比较容易。24(5)短文写作缺点:A.信度低。一方面是题量小,有很大的偶然性,另一方面是有时题目指令不清楚,考生不知如何下手。B.阅卷做不到客观。对同一作文,不同的老师会给出不同的分数,这样会大大降低测试的信度;C.阅卷工作费时费力。25(6)口试、面试考生与考官之间的简单对话,一般只能反映考生的口头表达能力,如果考生过于紧张,有时会出现口误,使得口语测试的可靠性很差;如果测试的内容不一致,还会造成考生成绩之间的差异。另外,面试实施起来费时费力,尤其是大规模考试,如果要对每个考生都进行面试,会浪费很多人力和时间。26编制各种题型的试题都要注意:1、试题编制者对每道题要达到的目的应当十分清楚,要排除与测试目的无关的因素。2、试题固然要针对学习者的难点(常通过与其母语对比或学习者常出现的偏误中得出),但也要照顾目的语常用的句型和词汇。不应专挑难点和特殊点,不出偏题。3、试题应在教学大纲或考试大纲范围之内,一般不应超纲。27编制各种题型的试题都要注意:4、除了考记忆能力外,还应当考思考能力和猜测能力。5、成绩测试应当是客观测试和主观测试相结合,以提高效度。6、题序安排要体现由易到难,以排除受试者的心理障碍。还要注意试卷的校对等技术问题。284、确定试卷结构考试的类型、内容和题型确定了,下一步就要安排试卷的总体结构,即不同类型的题目在整体中占多大分量。可以根据考生水平、考试目的、规模、时间长短等来确定试卷各个部分的内容及其所占的比重。首先,要确定试卷各部分的比例;其次,是研究每一部分有多少题目才能保证测试起码的效度;第三,题目数确定了,还要看时间是否够。29如HSK的总体设计初中等(145分钟)听力理解语法结构阅读理解综合填空50305040高等(155分钟)听力理解阅读理解综合表达作文、口试40404030确定试卷结构如果把语言能力分为接受能力和运用能力两大项,测试初学者时,接受能力的题目多些,测试水平较高的学生时,运用能力的题目要多些。词汇用法和语法结构可以看作是对语言知识的考核,听力、阅读、填空和写作都是对语言能力的考核。在动手编写题目前,还要制定一份考试细目表,作为命题人员的依据。如:315、制定考试细目表知识理解应用分析综合总计比重时间(分)语法10102012.520词汇202012.560阅读404025综合填空202012.520听力353521.930写作252515.630总计3075102025160100160326、命题及编辑试卷整个命题过程包括选材、编写试题、审题等环节。命题原则:先出容易的题,后出现较难的题目;题型相同的题应放在一起;客观题在前,主观题在后。规模大、影响大的测试在正式实施前还要进行试测,以验证试卷有没有缺失,要不要作一些改动等。33命题要求命题要求:效度、信度,注意试题的难度和区分度等。区分度的形成:我们在考察被试是否达到标准的同时,也做出了与标准相距远近的鉴定。这个鉴定的基础就是试题的区分度。成绩测试与水平测试的区别在于,后者对每项试题的区分度都有要求,而前者只是对大部分试题的区分度有要求,即允许一些试题(那些基本常用的、简单必会的)区分度较低。34区分度分析的例子采用H.S.麦迪逊的区分度分析法,对北语2007学年的考试结果抽样分析,结果如下:试卷题项高分组低分组区分度值07.JD7[1]1240.2607.JD8[8]15110.13(不合格)07.JD4[6]1120.3007.JD5[14]15120.10(不合格)35难度的形成知识的综合程度试题的呈现形式试题提问的思维跨度有用信息的提取难度36试题的难易度把考题的难易度控制在适当的范围内,难度值一般在0.5