2016.05.17第6组大学英语四级考试信度与效度研究的文献综述目录1.文献范围2.基本趋势3.研究方法4.研究内容4.1理论层面4.2实践层面5.研究反思及展望1.文献检索范围本文选取了2000年至2015年间国内外语教学6种核心期刊和1种重要期刊(共7种),有关大学英语四级考试信度与效度研究的文章共15篇。外语界外语教学外语电化教学外语与外语教学山东外语教学外语教学与研究西南民族大学学报(人文社科版)篇数占比200011113.33%200111213.33%200211213.33%200300%200400.00%200511213.33%200621320%200700%200800%2009116.67%201011213.33%2011116.67%201200%201300%201400%201500%共计612212115刊物年份图1.过去15年大学英语四级考试信度与效度研究情况2.基本趋势222231210123篇数图2.过去15年大学英语四级考试信度与效度研究发展趋势结果显示:国内对于大学英语四级考试信度与效度研究的趋势是波动的,研究热潮集中在2000-2003年、2005-2006年、2009-2011年三个阶段。我们大胆假设,其发展趋势跟大学英语四级的发展、改革相关的。1.参考人数逐年增加:大学英语四级考试开始于1987年9月,考试发展的15年里(至2001年),参考人数逐年递增,由1987年的10万人,增长至2001年的448万人,其中2000年至2001年的增幅最为明显,因此2000-2003年研究的热度较高。2.大学英语四级考试制度调整或改革:1990-1996年——主要调整英语考试流程、题型和成绩统计方式。1999年——增加英语口试。2005年——改革计分体制(满分710,不设及格线)、改革成绩报道方式,由考试合格证变为成绩报告单(总分、单项分)提出研究开发计算机口语测试,进一步扩大口语考试规模2006年——实施网上阅卷222231210123篇数图2.过去15年大学英语四级考试信度与效度研究发展趋势3.研究方法20世纪90年代以后,随着外语教学研究的不断深入,国内越来越多的专家学者开始关注外语教学的研究方法。其中,高一虹等有关研究方法分类的标准,将研究方法分为两大类:实证性研究和非材料性研究。实证性研究——以系统的、有计划的材料采集和分析为特点,包括定量研究、定性研究以及定性定量相结合的研究。非材料性/非实证性研究——指不以系统采集的材料为基础的研究,包括个人感想、操作描述(对大纲、教学方法、测试方法等具体操作性描述和评价)及理论反思等。114024681012实证研究非材料性研究篇数73%17%图3.过去15年中大学英语四级考试信度与效度研究方法情况由此可见,过去15年的研究主要采用实证研究方法,包括对比试验法、问卷调查法、对卷面、题型等材料分析定性法等。也有少数研究采用非材料性研究法,如解释分数测算的具体操作、从理论出发对考试的信度与效度进行评析等。4.研究内容4.1理论层面在理论层面,纵观目前的研究发现研究焦点主要集中于两方面:一方面是研究信度、效度的含义及延伸;另一方面是探讨大学英语四级考试信度和效度的影响因素。经过研究发现,目前国外对语言测试的信度和效度定义研究较为成熟且有延伸,我国虽起步晚也发展较为迅速,但目前对信度和效度的界定仍未达成一致,且对信度定义的探讨较少。(1)含义:关于效度的含义:国外的研究中,较早的效度定义是由Kelly提出的,他认为效度就是一项测试是否真正测量了它所要测量的东西。后来,对效度的认识一直有两个不同的体系:一是认为效度可以分割成不同的种类;另一种观点认为效度应该作为一个整体去认识和理解。同时,Messick、Bachman等把效度看作一个不可分割的整体,它既不是某个内涵单一的概念,也不好按其内涵分成不同的种类。(薛梅2006.06)Richard认为在测试中效度是“指一个测验能测出预定要测量的事物的程度,或能够引起预报作用的程度”(转引自李炯英2002,05)。Messick(1989)将考试效度的概念扩展到了包括考试使用、社会后果等在内的以构念效度为核心的整体效度观。这种效度观认为,效度并不是对考试本身的评价,而是对测试结果的解释和使用的评价,效度研究是收集不同方面的证据支持对测试结果的解释或使用的合理性(转引自金艳2006.06)。Baehman(1990:289)认为效度是关于测试分数解释和使用方式充分性和适当性的一个整体概念,是语言测试开发、解释和使用中应考虑的最重要的因素,主要用于测试分数或结果的解释和使用(转引自穆惠峰2011,04)。在国内的研究中,杨惠中(2003,25)认为效度是指考试能准确反映学生实际运用语言的能力。李筱菊称,“语言测试的效度,亦指有效性,指测试所考的,是否就是所要考的,或者说,在多大程度上,是考了目的所要考的”(转引自江澜,冯晓媛2003:85)。李清华(2006)指出语言测试界对考试效度的传统定义是“考试是否或多大程度上测试了设计者想要测试的内容”,测试内容和形式是这种效度观所关注的核心。关于信度的含义:徐强认为(2000)信度是指同一考生在不同的考试条件下(如不同的考场、不同的考官等)参加同一项考试后所得到的分数是一致的(转引自蔡基刚.2005.04)。杨惠中(2003:25)认为“信度是指对学生的语言水平提供可靠的度量。李筱菊(2001)称测试信度是指测试结果是否可靠可信。(2)影响因素:在关于效度和效度影响因素的研究中,研究内容多样化并取得了很大的进展,对后续的探索具有很好的借鉴意义。首先,不少学者探讨了影响英语技能测试(口语、阅读、写作)的因素。庞继贤(2005.07)认为口语考试的效度和信度受到多方面因素的影响。例如:口试形式、任务内容、评分标准和考官素质等。蔡基刚(2005.04)在《大学英语四、六级计算机口语测试效度、信度和可操作性研究》中指出施考的条件、试卷的内容和难易度、阅卷评分是否一致等会影响口语考试的信度与效度。辜向东(2009.01)的《大学英语四级考试快速阅读部分内容效度研究》结果表明快速阅读部分在选材、词汇范围、话题范围、阅读速度要求、考查技能、题目题型分布方面影响内容效度。Hughes(2003)相信如果阅卷员能够得到较好的培训,写作测试的评阅信度系数有可能达到0.60以上(引自张森2010.05)。此外,不少学者试求基于新热点角度进行探讨。Alderson认为语料库的应用可以提高考试的内容效度,因为测试材料选自真实语言文本,具有自然语言特征。也就是说,语料库作为一种手段,可以用来提高考试内容效度(转引自邹申2008.11)。薛梅(2006.06)在《基于效度验证的新四级考试效度》的探讨中认为试卷内容、反应过程、试卷的内部结构以及测试的后果与其他外部变量之间的关系这四方面会新四级考试的效度有较大影响。金艳(2010,03)在《大学英语四级网考效度初探》中认为影响网考效度的因素产生于测试任务的呈现方式和考生答题方式,而且这些因素可能对不同的考生会产生不同的影响,包括考生对考试的态度和评价、考生的心理过程、认知策略、答题策略以及考试成绩。4.2实践层面研究内容多样化,包括对英语技能测试(口语、阅读、写作)和新热点的研究。(1)英语技能测试蔡基刚(2005)对大学英语四、六级计算机口语测试效度、信度和可操作性进行了研究。蔡基刚通过计算机口语考试和目前的面试型口语考试的对比研究,发现计算机考试无论在效度和信度方面都将超过目前四、六级面试型口试。在考试成本上也有较大的降低。文章对如何实行大规模口语考试提出了建议:①我们建议考试委员会是否可以确立几个考试点,进行计算机口试的试点工作,边试验边摸索,为大规模推行找到最佳管理组织模式。②考试点可以通过投标方式产生。愿意承担考试点的学校应能提供符合计算机考试的场地和设备,并负责组织口试工作。③考试委员会可在全国聘请和培训稳定的专业计算机口语考试评分员。张森、于朋(2010)对大学英语四级考试作文网上评阅信度保障进行了研究。结果显示网上阅卷系统能明显提高评阅信度,培训实验有助于阅卷员掌握评分尺度。本研究最后对改进网上阅卷员培训及保障网上阅卷评阅信度提出了建议。目前的网上阅卷系统在保障随机发卷的基础上已能够保证较高的评阅信度,但在阅卷员培训和阅卷组长如何更好地凭借阅卷系统实施有效监控方面仍有进一步提升的空间以达到更高的评阅信度。①阅卷组长组织阅卷组成员进行面对面的讨论,确保阅卷员之间对每一份试卷的评分尺度把握一致。②阅卷组长除了参照相关系数、平均分、平均用时及图表等数据和使用抽查等方法进行有效监控外,还应考虑评卷系统所提供的标准方差、综合指数等数据,不应片面追求较高的相关系数而伤害评阅信度。辜向东、李志芳、张书奎(2009)对大学英语四级考试快速阅读部分内容效度进行了研究。研究结果表明该部分具有较高的内容效度。优势:①文章选材基本符合《考试大纲》要求,话题广泛,词汇属于《教学要求》规定的范围;②阅读速度达到《教学要求》和《考试大纲》对快速阅读每分钟100词的要求;③采用的题型多样;充分考查了考生的查读技能。不足:①但是,分析也表明快速阅读部分在选材、考查技能和题目分布方面存在一些问题文章的题材和体裁较单一;②难度较高,波动幅度也较大;几乎没有考查考生的略读技能;③题目分布大都按照从首段依次排列至末段的顺序。基于以上分析,本文建议:快速阅读部分选材应更注重体裁多样化,难度适中并保持一定的稳定性,加强略读技能的考查以及题目分布随机化。穆惠峰(2011)基于语料库的大学英语四级完型填空测试内容效度验证研究。本文作者发现2006-2010大学英语四级完型填空测试项目总体来说符合考试大纲的要求,但也存在一些不足之处,包括部分考点的典型性不太高和部分干扰项的设计不够科学等。为了提高我国大学英语四级完型填空测试项目的命题质量,以便更好地考核学生的综合语言知识和能力,本文作者提出以下建议:①在考前命题时可运用基于计算机的语料库帮助我们选择更加有代表性、典型性的测试材料;②在编制测试项目时可运用基于计算机的语料库帮助我们设计考点的分布;③在校对测试项目时可运用基于计算机的语料库来帮助我们更好地检验考点的典型性;④运用基于计算机的语料库也可帮助我们设计出更有效的干扰项,使测试能够更加科学地、全面地考核学生的综合语言知识和运用能力。(2)新热点薛梅、薛君、刘路喜(2006)从试卷内容、反应过程、试卷的内部结构以及测试的后果与其他外部变量之间的关系四个方面寻找效验的证据,通过理论和实证两方面对新四级考试的效度进行了探讨。本文对新四级考试做了试卷内容的分析,并运用统计方法对某综合性大学的四级考试成绩做了试卷内部结构相关分析。这一大样本的统计数据能够证明新四级考试试卷的每个部分有效测试了不同维度的语言能力,而且各个部分的综合能够准确而有效地反映学生总的语言水平。朱正才、杨惠中(2001)对机助自适应大学英语四、六级考试的效度、信度问题做了研究。论述大学英语四、六级考试如何处理“英语交际语言能力”的测量问题,并充分利用计算机多媒体技术进一步改善测试的真实性和题型的多样性,开发出具有自适应能力的计算机化考试系统,大大改善了语言测试的效度。1.研究成果丰富近15年来,国内学者注重对大学英语四级考试信度与效度的研究,其研究发现与成果丰富。2.注重现代科技对考试信度效度的研究随着语言测试科学的发展和测试手段的更新与进步,大学英语四级考试逐步实行无纸化网考、计算机口试及网上阅卷等。近年来,研究注重计算机对考试信度与效度的研究,不少学者在对比面试口试与计算机口试,探讨网上阅卷系统等方面获得了不少的研究成果。5.研究反思及展望优势:1.对效度的分析不全面效度是语言测试学界的重要概念,对效度的认识一直有两个不同的体系:一是认为效度可以分割成不同的种类,如表面效度、内容效度、效标关联效度、同期效度、预测效度和构建效度等;另一种观点认为效度应该作为一个整体去认识和理解。从理论