中介语语料库中成语的使用情况调查与分析《中介语语料库中成语的使用与偏误情况考查与分析》在国际汉语教育“三教”问题学术研讨会(杭州,2009.10)中报告,并收入论文集:北京语言大学对外汉语研究中心编《汉语国际教育“三教”问题——第六届对外汉语学术研讨...更多中介语语料库中成语的使用情况调查与分析①曾小兵1邱丽娜2张普1(xiaobingzeng@126.com)1北京语言大学应用语言学研究所国家语言资源监测与研究中心(平面媒体)2北京语言大学语言研究所提要:本文用语料库的方法来调查与分析中介语语料库中成语的使用情况。在历时的国家语言资源监测语料库中筛选得到7437条稳定的成语,以此为调查对象,在HSK动态作文语料库中考查它们的正误使用情况,并建立了留学生成语使用情况数据库,包括正误信息、作者国籍、性别、考试成绩等重要信息,从而为对外汉语的成语教学提供数据、资源及策略。关键词:成语中介语使用情况〇、引言近年来,在本体研究方面,人们重视“语”的研究,成语、惯用语等研究有较多的成果。除本体研究外,对外汉语教学中的成语教学与词典编纂也引人注目。众所周知,成语在对外汉语教学与研究中有重要地位,但是由于“汉语语汇是一个庞大而复杂的系统”②留学生要正确使用成语谈何容易,,而一旦掌握并能娴熟运用,则对于传播中国传统文化和人文思想、增强留学生的学习兴趣、提高留学生的汉语交流水平与能力等方面都有重要作用。本文通过对北京语言大学HSK作文语料库中的成语使用情况进行调查与分析,从中反映学习者的实际使用情况,发现其中规律,以期能更好地促进学习者的成语学习,实现教学的良性互动。一、研究现状成语在对外汉语的教学与研究中备受重视,它是传承中国传统文化的重要载体,也是汉语水平的重要表征,成语的正确、恰当使用可以使汉语学习者事半功倍。近年来,专家学者们从成语的文化意义、教学法、语典编纂、学习者偏误等方面进行了诸多研究,取得了不少成果(张文一,2006;王美玲,2004;张永芳,1999;洪波,1999等)。但是,对于留学生汉语学习汉语过程中的成语使用情况我们仍然缺乏系统的认识,枚举式的定性研究较多,而系统的定量分析较少,单纯的偏误分析较多,而从多因素多角度来分析中介语成语的较少。为此,本文较为科学地选定四字格成语7437条,在北京语言大学HSK作文语料库中进行穷尽式的考查,从正确与错误两个层面来看留学生实际使用成语的实际情况,并分析个中原因。二、研究对象及技术路线我们的目标是:全面系统地分析留学生作文中成语的使用情况。因此,有以①本文受北京市教委项目“汉语国际推广背景下的首都留学生教育研究”(项目号:413628)子课题的资助。初稿在汉语国际教育“三教”问题学术研讨会上宣读,会上蒙赵菁、张宝林、劳培宣等提出了中肯意见,同时北京语言大学任杰、张宝林教授为作者的语料获得提供了便利,谨此一并致谢!文责自负。②温端政(2006)也谈“语汇重要,语汇难”《语文研究》第3期38-43。,下几个问题必须先进行界定或解决:1、成语如何确定?在成语与惯用语之间,往往会有模糊地带,我们只有确定了成语的范围才能对成语进行考查。2、考查多大范围的成语为佳?即使是确定了的成语,数量也是成千上万的。选择多大的范围进行考查才比较合理,这也是前期工作必须解决的重要问题。3、使用什么样的方法来反映留学生成语的使用情况?留学生对于成语的使用,多见于书面语,业内的学者多从问卷调查的角度来考查。本文从大规模的语料库中进行调查,如何在已有的语料库中提取与分析这些成语,是值得进一步思考的问题。为了解决上述问题,我们采用以下的技术路线:曾小兵等(2009)曾将28351条成语在国家语言资源监测语料库中进行考查,从而选取其三年(2006-2008年)交集部分的四字格成语(因为在时间的维度上讲,其使用情况也较为稳定,这些稳定的部分,正是人们在语言生活中经常使用的成语,也正是教学与研究的重点)共得到7437条成语,,将这7437条成语作为研究对象,在北京语言大学HSK语料库中进行考查与分析,并建立了留学生成语使用情况数据库,包含正误信息、作者国籍、性别、考试成绩等其他重要信息。三、使用语料的说明3.1国家语言资源监测语料库为了更好地反映语言生活,把握语言国情。国家语言资源监测与研究中心自2005年始,每年通过约10亿字次的大规模真实语料,对语言的使用状况进行调研,并以《年度语言生活状况报告》的形式向社会公布,本文采用了2006-2008年的国家语言资源监测语料库平面媒体的语料库(规模为每年约5亿字次,见下表1,亦可参见:《中国语言生活状况报告(2008)》下编)中进行历时考查,以确定我们的研究范围。表1:2006-2008年国家语言资源监测语料库语料量统计表类型总字次2006年399488842530291675264763979789944062007年5312873058610901438965686110070531802008年548899104987871483440315399917177912006年8326619481429231字种数2007年908265398393101232008年8156656979849271年度媒体报纸广播电视网络(新闻)全部语料从三年历时考查的结果来看,详见表2。初始集为28351条成语,其中共用的四字格成语为7437条,这些成语是我们的调查对象。因为语言的稳定部分最直观来说就是在历时层面上共用的部分。张普(2008)认为:语言的稳态是指语言的相对稳定部分和相对稳定的时期。在稳态的基础上,语言需要动态更新;在动态更新的基础上,语言形成新的稳态,如此循环往复螺旋上升,就是语言发展的健康状态。选取7437条共用的成语作为调查对象,初衷也是利用母语者的稳定部分来圈定我们的研究范围。表2:2006-2008年成语的使用情况一览表①年份总数共用部分共用76611781206独用5859751085独用占总数比例(%)6.6610.1711.152006年878874372007年959074372008年972874373.2HSK动态作文语料库“HSK动态作文语料库”(为行文方便,简称HSK库,下同)是母语非汉语的外国人参加高等汉语水平考试(HSK高等)作文考试的答卷语料库,收集了1992-2005年的部分外国考生的作文答卷。主要信息如表2。本文使用语料库1.0版,收入来自94个国家及地区的留学生语料共10740篇,共计400万字,包含话题26个之多。(网络共享地址:)表3:HSK动态作文语料库1.0版的信息时间1992-2005年地域领域容量属性94个国家及地区26个话题(或更多)11569个文本,约424万字字处理;标点符号处理;词处理;句处理;篇章处理等。需要强调一下我们使用HSK库的方法,目前使用较多的是逐词检索再记录结果的方法,它主要适用于小批量词条的处理,此外,它的一个缺陷我们需要十分注意:“字符串检索”中,如检索“前所未有”,则“前所未〔B末〕有”等成语中间部分有错误的情况会丢失,需要使用表达式“前+3+有”才能穷尽检索,但使用表达式又会产生很多的杂质,“前面没有”如等字符串则会被检索到。对于7437个词条,我们使用自行设计的检索程序,分别在有标注与去除标注两个版本的语料中进行自动检索,并生成两个版本的数据与例句。通过比较两个版本的数据,可以得到其正确与错误的分布情况,从而可以有针对性地了解成语的正确与错误例句。而对于错误的使用情况,进一步通过不同的标识,自动进行归类与整理,从而得到不同的错误类型与上下文环境,最终形成成语的正确与错误使用情况两个数据库。四、HSK中成语使用情况统计分析4.1整体情况在7437条成语中,HSK库中共使用了2397条,占总数的32.23%,使用频次为8269次,平均每条成语使用3.45次。众所周知,成语通常用于书面语体中,而以主流媒体为基础的国家语言监测与研究语料库是书面语的重要载体。因此,总体上来讲,7437条成语较好地反映了汉语母语者的平面媒体语言生活中的成语使用情况。而留学生使用的语种数是母语者的近1/3,可以看出留学生的汉语水平在逐步地向目的语方向发展。在HSK库中使用的成语,使用正确的成语种数为1487个,占使用总数的①关于三年成语历时考查的方法与详细数据可以参见曾小兵等《主流平面媒体中成语的使用情况及特征分析》一文,载《语言教学与研究》,待刊。62.04%,这些实际使用的成语在数量上远远多于教学大纲的要求。据张文一(2006)统计:在《汉语水平词汇与汉字等级大纲》中共收词8822个,成语146条,多属于丁级词(甲:0;乙:1;丙:20;丁:127);《汉语水平等级大纲》列出常用词汇5168个,成语只有16条。这说明,留学生的汉语水平已经高于考试大纲的要求,从成语的输入来看,这些“超纲”的成语一方面来自教材,另一方面就是来自母语者的语言生活,即在汉语的实际使用中习得这些成语,并应用于写作中。这些超纲成语,既可以成为我们动态更新大纲的参考,也可以验证二语习得过程中,母语的语言生活对于学习者的习得有积极的作用,提醒我们在对外汉语教学中,在注重课堂教学的同时,也可以加大语言实践的比重。在HSK库中使用错误的成语语种数是910个,占37.96%,在频次方面,错误的使用频次占成语总频次的23.81%。这表明,成语的使用错误仍然不容小觑,这些错误的使用,有些是由于汉字输入的错误,有些是成语意义的理解错误,我们将在下文详述。具体情况如下表4。表4:HSK库中留学生的成语使用情况一览表词种数占总数百分比频次正确使用1487错误使用910总计239762.0437.96100.00630019698269占总频次百分比76.1923.81100.004.2HSK库与语言资源监测语料库中成语的使用情况比较诚然,母语者与留学生在汉语使用中会有不同的特色与倾向,尤其是中介语使用者的这些特征是由多方面的因素共同作用而形成的。“中介语的起点是学习者的母语,中介语是以目的语规则逐渐替换其母语规则的过程。”(王建勤,1994)而在成语方面,两者的使用也有明显的不同,如下表5,其中“在监测语料库排序”是指在语言资源监测语料库中按频次的降序排列所得的序号。表5:HSK库与语言资源监测语料库的比较HSK使用的成语频序前十位成语不治之症不知不觉总而言之理所当然不好意思众所周知无可奈何HSK未使用的成语频序前十位在监测语料库排序7172534474953在HSK中频次在监测语料库排序成语51216453062325799421911199621951298150杂乱无章深入人心物美价廉源源不断抛砖引玉一应俱全泰山压顶自然而然青梅竹马一见钟情9613881101578207惊心动魄耳目一新沸沸扬扬575966可以看出,母语者和留学生两者都使用得都比较多的是“理所当然”“众所、周知”“不知不觉”、。而两者使用差别比较大的是“不治之症”“青梅竹马”“总、、而言之”“杂乱无章”“深入人心”“物美价廉”等。、、、通过对成语上下文的考查,我们发现,“不治之症”“青梅竹马”这两个成、语是由于已经在HSK试题中出现而同时留学生引用较多造成的,因此,我们后期还会将试题中已经出现过的成语进行筛选与比较,使数据更加科学合理。4.3成语的正误使用情况成语在HSK库中的正确与错误使用情况可以很好地反映留学生使用成语的主要特色及问题。为此,我们将使用正确与错误的成语进行一些简单的比较。表6:使用正确与错误的成语的比较表使用正确使用错误数量共用数独用数1478564914346910错误独用的成语表明留学生对此类成语的字形、意义或用法掌握不牢,如:众说纷纭,留学生使用中有:意见纷纭、众生云云、意见纷纭、众说纷云、众说纭纷等情况;又如:苟延残喘,留学生用为:久延残喘。从中看出,留学生错误使用的情况,除了繁体字、错别字外,也由于其很容易记住成语的一部分而修改另一部分、或者由杂糅造成的现象,如“众生云