如何自建英语语料库

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

论自建小型学习者语料库的方法及作用——以自建中学生英语写作语料库为例曹鹤北京市第三十一中摘要:大型语料库的出现和发展在研究语言的用法、翻译、教学、教材编写以及词典编撰等方面起着重要作用,但对于处于一线从事基础教育的外语教师而言,针对性和使用性不强。本文以自己建立小型基础英语教学中中学生写作语料库为例介绍了小型学习者语料库建设的可行性、方法和应用,借以提倡广大一线从事基础教育的教师利用高科技所带来的成果,武装和丰富自己,让自己的教学科学化、客观化。关键词:小型学习者语料库;英语写作;基础教育自20世纪60年代至今,语料库从萌芽阶段已经发展到广泛应用于语言研究的各个方面,如:词典编撰、语言学研究、教材编写、翻译、语言教学等等。同时,计算机技术的高速发展使语料库(Corpus)在过去的50多年来也得到了长足的发展,突出表现就是大型语料库的出现。大型语料库为语言研究提供了可靠的信息,但正因为其包罗万象、内容泛泛,在辅助基础教学研究等方面缺乏针对性,实用性不强。作者认为广大英语教师可以根据自己的实际需要建设小型学习者语料库,开展有针对性地研究,并将其应用到教学中。本文以建立中学生写作语料库为例介绍建设小型学习者语料库的方法、以及如何使用小型语料库等方面做主要论述,向基础英语教师展示如何运用这一新技术来辅助英语写作教学。一、语料库简介建设语料库之前,我们应首先明白什么是语料库。语料库并不复杂,它通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体(杨惠中,2004)。语料库可以帮助人们观察和把握语言事实,分析和研究语言系统的规律。从语料库语言学的发展历程可以看出,语料库的用途主要体现在对语言现象以及语言本质的研究,如语言统计、词典编撰、词汇搭配和自然语言处理等方面(顾曰国,1988)。现在语料库也开始逐渐应用到语言教学研究中。根据邢富坤(2006)的统计,国内基于语料库的教学研究的数量越来越大,将语料库应用于外语教学的趋势也越来越明显。与国内英语教育关系最紧密的语料库是学习者语料库(learnerscorpora),即非母语学习者的口头和书面语料库,其中包括注有学习者拼写和语法差错标记以及改错提示的语料库.根据Leech(1998)的论述,学习者语料库的语料来自外语学习者产出的口语或书面语。将这些语料经过计算机处理后形成的数据库即为学习者语料库。学习者语料库的建设将为深入研究学习者的二语语音、词汇、语法、语篇、语用、交际能力的发展提供充分的数据,而且还为研究语言学习过程以及教材编写和测试提供重要的反馈和支持(文秋芳,2005)。随着语料库语言学的发展,学习者语料库的建设已经成为了当今语料库语言学研究的重点之一。国外建成的规模较大的学习者语料库是CambridgeLearnerCorpus(CLC)。国内也逐渐出现了学习者语料库,除拥有100万词的CLEC之外,规模较大的还有南京大学的“中国英语专业语料库(100多万词)”和“中国学生英语口笔语语料库(200多万词)”以及规模更大的香港科技大学学习者语料库等。这些大型语料库为广大学者和教师提供了大量真实的学习者的语料,可以对学习者的词汇、语法,特别是错误分析等进行研究。同时,可以将英语学习者的语料与本族语语料进行对比,找出它们的异同,为教材编写、大纲制定等提供有用的数据(李文中,1999)。然而,尽管国内已经建成了上述大型学习者语料库,也有大量基于这些语料库的研究成果,但这些语料库涵盖的语料来源太广,而且多是针对高级语言学习者,广大教师可以利用其对国内英语学习者语言的整体特点等方面进行研究。但具体来看,这些语料库并不能反映广大一线教师自己所任班级的学生,特别是初级英语学习者的语言学习情况和语言特点。相对来说,基于这些语料库的研究对一线教师的教学并没有很强的针对性。因此,一般的外语教师应自己动手,收集与教材相关的材料和学生日常的材料,建立适用于教学的各种语料档案,如与课文相关的阅读材料档案库、学生作文档案库、教师——学生课堂话语档案库等(卫乃兴,2005)。个人教学语料库不仅能克服以上种种缺陷,而且有着自己巨大的优势。突出表现如下:第一、目标明确,语料收集针对性强,适合自己教学对象,能反映学生真实语言水平。第二、语料库具有开放性和时效性,能不断扩展及时更新。第三、本地机操作,经济、方便、快捷,检索语料时选择自由,易于突出语言的语域特征(谢家成,2003)。以下就以建立中学生写作语料库为例介绍建设小型学习者语料库的方法和使用。二、小型学习者语料库的建设(一)、可行性人们一般认为构建语料库是一个花费大量人力物力的工程,实际上随着电脑技术的不断发展,现在个人建设教学语料库是完全可行的。语料库主要由两部分组成:以电子文本形式存贮于计算机中的语料和管理检索这些语料的定位检索软件。现在许多功能强大、使用简便不需专门计算机知识的定位检索软件网上也能免费下载,教师只要善于收集语料、加以整理就可以建立一个实用的语料库。再加上个人教学语料库规模灵活,可边建设边使用,建库要求也不是很严格,这一切使得个人教学语料库的建设成为现实。就中学生写作语料库而言,即小型学习者书面语语料库,是针对具体学生语言学习情况的最重要的语料库之一。教师可以利用检索软件得出分析数据,了解学生总体的语言学习情况、词语搭配掌握情况以及错误情况等,而不是根据个人直觉对学生的学习情况做出主观判断。从中找出自己学生的问题所在,分析问题,解决问题,从而达到提高学生整体水平的效果。(二)、建设方法建立一个中学生写作语料库,一般需要以下几个步骤:1、语料的收集和分类保存中学生写作语料库的语料,顾名思义应来自学生在课堂或课外的写作产出,如课堂写作作业、考试中的作文和学生的英语日记等。书面语料的收集较为容易,可以在课后将课堂作业输入计算机存档,计算机的普及可以让学生用电子文档的方式提交写作材料。相对来说,考试中的作文语料收集工作量较大,需要在试卷批改存档后输入计算机。大部分书面语料的收集在日常教学中就可以完成。语料收集并不是语言材料的简单堆砌,从一开始就应按一定原则进行科学分类。对于中学生写作语料库而言,分类可适当参考作文质量分为三个等级,优秀(Excellent)、良好(Good)、及格和及格以下(Aroundpass),并把不同种类的作文存入不同的文件夹。还应注意,以上述方式获得的语料是未经计算机处理的语料,称为生文本(rawtext)。存档时,应把每一个生文本(学生作文)作为一个独立文件单独命名存放。文件应以英文字母形式命名便于能让软件识别,并统一格式,方便以后添加新的文件。可以用“年级+班级+学生姓名”来命名,如初三5班李红的作文,可以命名为“g1_c5_lihong”,并存入相对应等级的文件夹。同时,所有文件的格式应统一,建议使用纯文本(.txt)格式存档,这是几乎所有的语料库软件都能识别的格式。如图1和图2所示:图1:分类文件夹图2:所存生文本2、语料的标注和赋码存档之后,必须对生文本进行加工,使它更易于检索。首先应加注文本头,即在这些语料文件的开头第一行提供相关基本信息,如姓名、年级、班级、性别、文本字数等。信息要详细而且要有相关性,这样对以后的研究就更实用。通常的标注方法是将上述信息放入尖括号“”中。例如:GRADE=年级;CLASS=班级;SEX=性别;AGE=年龄;等等。如下图:图3:文本头标注如果教师建设学习者语料库的目的是要对学生的错误现象进行分析,然后开展有针对性地教学,那么,文本头标注之后,就应对文本进行错误标注。错误标注是一项细致的工作,教师应先对错误分类,然后制定错误标注赋码表,解释各赋码的含义,方便教师在标注时使用。若建库目的是了解学生的词汇搭配或词汇量等语言使用情况,则不用进行错误标注,这样工作量相对较小。此外,应对语料进行词性赋码。在进行词性赋码之前,应确定赋码方案。现在已经开发了多种词性赋码方案,如CLAWS自动词性赋码器等1。目前比较流行的词性赋码工具有AnnoTool和GoTagger软件(卫乃兴,李文中,濮建,2005)。标注后的文件另存为纯文档格式,如下图:(但无论做何种标注或赋码,都应保存一份生文本,以备将来进行更多的研究或标注时使用。)图4:标注完后的文件总的说来,小型学习者语料库的建设基本步骤为:规划、语料收集、语料输入计算机、标注、赋码。上述工作完成之后,我们应将这些库文件统一命名保存,方便语料的维护与应用。语料库的建设也就基本结束。这样建成的语料库是开放的,教师可以在今后的教学过程中不断添加新的语料,使语料库发挥更大的作用。除了写作语料库外,其他一些简单可行的语料库还有阅读材料语料库(可细分精读语料库、泛读语料库等)、试题语料库(其中还可以分单选题语料库、完形填空题语料库及作文题语料库等)和核心词汇语料库等等。三、小型学习者语料库的应用学习者语料库建成之后,教师可以利用软件对语料库进行定位检索。通过检索,找出自己学生在写作中的用词规律、词语搭配情况、语言特点以及错误类型情况等。分析之后,进行有针对性地教学。也可以通过将检索情况演示给学生,让学生自己发现问题,这样能加强学生自主学习的能力并提高他们的学习兴趣。在实践中,笔者根据上述方法自建了一个小型学习者语料库,语料来源为自己所任班级学生的写作材料,共收集到131篇文章,约12,987万字,全部加注了文本头(header)和词性赋码。在批改学生作文时,发现大部分学生的被动语态使用不准确的情况。于是,笔者首先利用专门软件对语料进行了标注,然后把语料中所有被动语态通过检索软件AntConc3.2检索出来,希望通过定位检索工具找到确切的数据和问题所在。下图为利用AntConc3.2工具2中的Concord功能检索,输入被动语态的表达式得到所有优秀作文中的被动语态的使用情况(许家金,熊文新,2009):图5:优秀作文中被动语态的使用情况图中的数据显示,共有1258个句子使用了不同的被动语态,其中,容易出现错误的地方主要在于被动语态后的介词,良好或者及格左右的作文大多使用by这一唯一介词,而优秀作文差异明显,介词会根据句子的具体要求改变。这体现了学生在学习被动语态时,太注重记忆公式be+Ved+by,而忽略了句子的实际用法。另一方面,被动语态的时态,即be动词的变化,也会常常出现错误。最后,有些词汇如occur,happen等不及物动词学生往往会用被动语态,这说明学生未充分理解被动语态的含义,这与英语为本族语的学生的用法相差太大法。这样,将来的教学中就可以更有针对性地对这些被动语态的使用进行讲解。当然,我们还可以对被动语态的错误用法进行进一步标注,进而分析得出更细的结果。上述对语料库的应用研究只是简单示范,还可以根据实际情况进行更多地分析研究,本文中不再详细介绍。四、总结构建和使用个人教学语料库目前还是一个少有人问津,但却急待探索的领域。个人教学语料库的建设不仅必要,而且简单易行。当然这并非一定要个人独干,可以小组协作,团队的力量才能使繁杂的工作变得简单有序。因此建议形成合作小组,共同建设同一个专业,或同一个年级,或同一个学校的学习者语料库。这样,可以使已建成的语料库发挥更大的作用。当然,这类语料库功能的发挥还取决于以下两个方面,一是对语料的标注。一般来说,标注越细,通过检索能得到的信息就越多,应用范围就越广。二是教师的综合能力。除了教学能力之外,教师还应具备语言学知识,善于总结、发现语言特点。这样才能做到在教学中研究,在研究中教学。本文中的构建方法还有一些不足的地方,需要我们在实践中不断完善。此外,如何能更方便地对文本进细致的标注也是今后研究中应关注的问题。总之,笔者希望本文能激起广大外语教师对语料库在语言教学中的兴趣,并真正行动起来,动手构建自己的教学语料库,这必将大大促进语料库在外语教学中的推广普及。1给文章词性标注,可以直接登录。2感兴趣的读者可登陆

1 / 7
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功