1基于附码语料库的对外汉语教学知识挖掘研究盛玉麒250100济南山东大学中文信息研究所Email:yuqisheng@163.com电话:0531-88378577(H);88361885(O)提要本文运用语料库语言学的理论和方法,论述了汉语的特点和对外汉语教学面临的知识短缺以及基于附码语料库进行汉语知识挖掘的可行性,重点介绍了本文所采用的语料库加工后的主要属性数据库的类型和特点,从词语动态频度、兼类词分布、词语搭配及句法模型等方面,介绍了对外汉语教学知识挖掘的类型和具体方法。关键词:语料库对外汉语教学知识挖掘StudyonKnowledgeMiningforTeachingChineseasaForeignLanguageBasedonAnnotatedcorpusPro.ShengYuqi(ChineseProcessingInstitueofShandongUniversity,Jinan,Shandong,PRC,250100)Email:yuqisheng@163.comPhone:86+0531-88378577(H);86+0531-88361885(O)Abstract:ThispaperinquiriesintothecharacteristicsofChineselanguage,theknowledgeshortageencounteredinteachingChineseasaforeignlanguageandthefeasibilityforknowledgeminingbasedonannotatedcorpus.Itlaysemphasesonintroductiontostylesandcharacteristicsofattributivedatabaseadoptedafterknowledgeprocessing.ItalsooffersanintroductiontostylesandmethodsforknowledgemininginteachingChineseasaforeignlanguageintermsofworddynamicfrequency,homonymdistribution,wordcollocationaswellassyntacticmodels.KeyWords:Corpus;TeachingChineseasForeignLanguage;KnowledgeMining.一、导言对外汉语教学面临诸多知识短缺的问题,一方面是因为汉语本身的复杂性和汉字记录汉语过程中的噪音干扰与信息缺失所致,另一方面是因为长期以来汉语的研究、工具书和教材的编写几乎都是面向母语学习者的,即使是名之为对外汉语教学的,也多以低年级母语学习者的读本为参照,所以,教和学都陷入的境地。权威的汉语教科书讲解词类划分标准的时候,都以会说汉语为前提,例如:“形容词一般能受程度副词修饰”、“动词后面可以带动态助词”、“及物动词能带宾语”、“不能重叠”……等等。试想,对于外国学习者来说,根本不懂汉语,自2然不知道词与词之间能否搭配。所以,这种讲解对他们来说毫无用处。正如维特格斯特说的那样,“用法即意义”。汉语词语究竟有多少种用法谁也说不清楚,但是,可以肯定地说远远超出静态的词典工具书所描述的范围,从发展的观点看,更是如此。因此,基于语料库的汉语知识挖掘就显得十分必要。特别是对外汉语教学领域,要解决所遇到的知识短缺的问题,唯有从现代汉语流通语料库中挖掘,舍此没有其他捷径可走。这里说的知识挖掘并不是增加对外汉语教学的内容和知识量,而是提高教学效果,把最简明、最实用、最有规律的知识找出来教给学生。二、汉语知识短缺与对策1.词汇语义知识短缺汉字数量繁多、结构复杂、理据多样、信息冗余、读写繁难;同音、谐音、连读音变影响词汇语义的理解和运用;有声语言中的语调、节奏、轻重音等都因为汉字无法记录而被忽略。常常会遇到“听—说”的时候没有歧义,用汉字写出来再念的时候,就有了歧义,如“喝口水”绝不会听成“喝/口水”,却很可能被留学生们读错。字义笼统,随词而变;词义模糊,随句再变;二语习得者茫然难得要领。同一个字用在不同的语句中,意义改变很大。有些表面上看起来词形类似,却不能望文生义、随意类推,如:“妈妈═妈”、“爸爸═爸”、“哥哥═哥”;“爷爷≠爷”、“老爷爷≠爷爷”、“老公公≠老公”。“有没有关系——有关系——没关系——搞关系——搞好关系”等短语中的“关系”的意义各有细微的差异:◆“没关系”起码有三个用法:①惯用语,礼貌用语。如:“打搅你们吃饭了,对不起。”“没关系,别介意。”②惯用语,不要紧,没有问题:没关系,我自己会做。③短语,无关、没有关系。如:我可不愿意搬弄是非去管那些跟我没关系的闲事。◆“有关系”:①短语,存在某种关联。如:这消息与你的家乡有关系。②短语,在疑问句中表示有问题。如:这有关系吗?③短语,表示特殊关系。如:他与领导有关系◆“搞关系”短语,贬义,指为某种利益驱动进行的疏通、贿赂行为。如:他很会搞关系。类似的例子比比皆是,举不胜举。2)句法知识短缺虚词和语序是汉语表示语法功能的重要手段。虚词和语序自然是对外汉语教学的重点。虚词是封闭的类,数量有限,但是由于“古今参杂”,必须加以筛选。筛选的依据就是实用性,这就离不开通过语料库的统计分析。语序知识表现在彼此的相关性上,或者说组合搭配关系上。汉语词与词之间的组合搭配关系并不像有形态的语言那样,掌握了词类和形态标志就条理清楚了。汉语曾经有过“词无定类”、“依句辨品、离句无品(“品”即词性。麒按)”状态。3长期以来,词都是“自由自在”地“兼类”、“活用”着,最权威的《汉代汉语词典》标注词性也是从第五版开始的。离合词问题、动宾结构带宾语问题等,成了教学中“剪不断、理还乱”的难题,由于对这类现象缺乏定量定性分析,常常是就事论事,缺乏规律性解释。例如“在桌子上写字”、“在火车上写字”、“在飞机上写字”中“上”的意义不一定是指“上面”。“火车上”有“在火车里面”和“在火车外面”两种解:而“飞机上”则只能理解为“飞机里面”。至于“刚才——刚刚”、“突然——忽然”、“帮助——帮忙”的区别,用“解词”的方法不如用不同的搭配举例说明来得简洁明了。静态系统的“兼类”并没有指出所兼的“类”之间的主次。语言学习不是照着词典学、只要背会词典就能说话。实际使用的句法知识才是语言学习的主要对象。因此,采用定量定性统计分析数据描述的句法知识,不但是中文信息处理智能化的需要,也是提高对外汉语教学科学性和实践效果的需要。3)语用知识短缺汉语共时系统中口语、书面语、网语多元杂糅,非标准普通话随处可闻,文言词语偶尔参杂期间,甚至有些冷僻词语一夜之间成为“流行语”。词语在实际使用中的意义和用法与词典中的解释往往不尽相同。如果拘泥于词典的释义,在实际交际中就会遇到费解的情况。例如接电话时说“好,好,我就来。”其中的“来”所表示的是“去”的意思。这就不是词典中解释的“从远处到近处”的意思。日常交际中常使用省略、简称,有大量不完全句;表达含蓄、不直白,这与文化习俗方面讲究“礼节”和形式的传统习惯有关。许多常用的模糊词语如“还行”、“还可以”、“不错”、“很有意思”、“很有特点”、“好吧”、“看看再说”、“研究研究”之类,需要在具体的语境中仔细玩味才能体会其中所表达的意义。长期靠天吃饭的农业社会形态和粗放式生活方式也会影响到话语表达方式,特别在日常词语中,如称谓语、礼貌语、情感表达等表现明显。崇尚自由、顺应自然的审美取向,注重心领神会、淡化言语表述,喜欢隐喻的方式,对微言大义津津乐道,加上历史悠久、文献浩瀚,典故丰富、崇古尚文,致使文言词语、诗词名句,超常搭配时有所见。这些都无形中增加了对外汉语教学的难度。由于多元信仰和多源禁忌,传统文化对生老病死、婚丧嫁娶、吃喝拉撒、交易旅行等形成了多种多样的委婉语。这些文化层面的知识在对外汉语教学中几乎是一个禁区,成了“说不好、不好说、不说好”的教学“瓶颈”。实际上,如果处理得好,文化词语不但可以丰富教学内容,还可以提高学习汉语的积极性,因此,挖掘常见习用的文化色彩词语知识也应是对外汉语教学领域的一个新课题。3.基于语料库知识挖掘的可行性语言教学的目标是“听说读写”,必须立足于活的、实用的语言,因此,从大规模真实文本语料库中挖掘静态系统所缺乏的知识,应该是对外汉语教学领域一项重要的基础工程。1)从举例证明到定量分析语言学是一门最具人文社会性的实证科学,“约定俗成”的规则实际上就是统计学的“大数定律”。因此,不能满足于“例不十、法不立”的传统标准,而应注重定量定性分析的方法。2)从静态系统到动态系统维特格斯特曾说“用法即意义”,只有在动态系统中才能真正发现意义。由自4然语言的真实文本所组成的语料库是语言动态系统“子集”,是内部语言的外化。各种用法、各种意义表达上的细微差别都是静态系统所无法比拟的。3)从充分描写到充分预测当代语言学对语言现象和语言规律的研究讲求的是“充分描写、充分解释和充分预测”。这里所说的“充分”实际上是一个理想的目标,任何时候只能是相对的“充分”。采用基于语料库的知识挖掘方法,借助计算机大容量、高速度的优势,可以在所建立的语料库范围内,实现充分和穷尽式的描写和分析,这就已经远远超越了以往任何个人研究能力和时间周期的局限性。“预测”是从已知推测未知的复杂的探索过程。许多语言现象所蕴含的规则或规律,需要满足统计学中的“大数定律”,也就是从“量变”到“质变”的规律。那种“一叶知秋”的能力,“见瓶水之冰而知天下之寒”的预测力,需要大量经验知识的积累和复杂的逻辑推理。现在我们所做的只是一种探索和尝试,尽我们所能挖掘所缺乏的语言知识。虽然我们不知道距离理想的目标究竟有多远,但是我们相信经过不懈的努力总会逐步逼近这个目标。4)克服语料库的局限性语料库所收入的语料总有一个局限,无法收入所有已经说出的言语作品,更无法收入那些“能说”但没有说出来的句子。从这个意义上可以说,语料库永远都是“不完备”的。实际上任何研究都会受到研究者认知能力和范围的限制,即使内省式的研究可能从内部词库中搜索出语料库之外的例子,但是也还是有局限性。在语言知识挖掘方面,特别需要把“内省式”的研究和语料库语言学方法结合起来,采用科学合理的抽样方法,尽量保证语料库的规范性和代表性,再充分发挥研究者内部词语知识库和“见微知著”的能力,实现基于语料库的汉语知识挖掘的根本突破。四、本文所用语料库1.本研究所用语料库概况目前语料库语言学受到学界的普遍重视,不同规模、不同用途的语料库纷纷建设,并投入使用。加之网络的普及和数字化文本的与日俱增,给语料库的研究和建设带来了极大的便利。本文研究所采用的自建语料库主要以现代汉语文学作品抽样语料库。总字符数将近600万字,其中汉字符号近580万字。(详见表1)表4-1:文学语料库的基本数据词长词次词频字数单音词857529850542985054双音词4961412141212428242三音词1127872846218538四音词770234222136888五音词63117188590六音词1782871722七音词81136952合计7805943083845779986本语料库采用国内流行的中科院计算所研制的自动分词和标注词性软件进行5加工处理。因为文学文本的特殊性,分词正确率达到90%以上,词性标注正确率超过80%。因此需要人工校对。加工后的语料库分别建立不同的数据库,用于知识挖掘和数据分析。这些数据库主要有:①词频数据库(音序、降频)②属性数据库(词长、词性、频数、频率)③兼类词数据库;④二词搭配数据库;⑤三词搭配数据库;⑥四词搭配数据库;⑦五词搭配数据库;⑧句法模式数据库。2.搭配关系数据库1)二词搭配数据库由两个词相互搭配所组合成的一种关系。通过二词搭配数据库,不仅可以得到词与词之间的组合搭配关系,还可以得到有关结构模式的量化信息。从降频表中可以看到高频组合的出现频度和前后两个词在搭配选择上的分布情况。表4-2:二词搭配降频例表序号词