1北京大学现代汉语语料库基本加工规范俞士汶段慧明朱学锋孙斌(北京大学计算机系,北京大学计算语言学研究所北京100871)摘要:北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。关键词:现代汉语;语料库;词语切分;词性标注;规范中图分类号:TP391TheBasicProcessingofContemporaryChineseCorpusatPekingUniversitySPECIFICATIONYUShi-wenDUANHui-mingZHUXue-fengBingSWEN(InstituteofComputationalLinguistics,PekingUniversity,Beijing,100871)Abstract:TheInstituteofComputationalLinguistics,PekingUniversityhascompletedthebasicprocessingofacontemporaryChinesecorpusthathas27millionChineseCharacters.Inadditiontowordsegmentationandpart-of-speechtagging,theprocessinginvolvesthetaggingofpropernouns(personnames,placenames,organizationnamesandsoon),morphemesubcategoriesandthespecialusagesofverbsandadjectives.Thesuccessofthislarge-scalelanguageengineeringisattributedtotheSPECIFICATION,whichhadbeenmadebeforehandandwasbeingperfectedwhileinuse.WeareherebymakinganintroductiontotheSPECIFICATIONthroughthispublication,thusinvitingthecommentsfromalltheexpertsandourcolleaguesfortheimprovementofit.Keywords:contemporaryChinese;corpus;wordsegmentation;part-of-speechtagging;specification⒈前言关于汉语语料库的全面情况,冯志伟教授的文章已有详细介绍[1]。本文只介绍北京大学计算语言学研究所的工作(以下简称计算语言所)。计算语言所从1992年开始汉语语料库的多级加工研究,历时已有10年,也积累了一些成果[2,3,4]。最令人瞩目的成果是《人民日报》标注语料库。该语料库包含《人民日报》1998年全年2600多万字的语料,对全部语料已完成词语切分和词性标注等基本加工。全部加工结果均已通过合作单位Fujitsu的严格验收。由于1个月的200多万字的加工语料早已在网上公布,可免费下载[5],半年的1300万字的加_______________________________________________________________________________收稿日期:2002-2-20(2002年5月21日修订)基金项目:国家自然基金69483003、973项目G1998030507-4、863项目2001AA114040、北大985作者信息:俞士汶,男,1938年12月生,教授;段慧明,1957年12月生,女,高工;朱学锋,1937年12月生,女,副教授;孙斌,1968年10月生,博士后;4人的主要研究方向:计算语言学2工语料也开始向业界提供,这项成果的影响正逐步扩大。计算语言所另外还有100多万字语料不仅完成了基本加工,还加注了汉语拼音。这项庞大的语言工程之所以能顺利展开并按计划取得成果,因素当然很多[6]。其中,在工程大规模实施之前,集多年理论学习之心得、研究实践之经验以及众多同仁之智慧制定《现代汉语语料库加工规范——词语切分与词性标注》(1999年3月版和2001年7月版),是至关重要的[7]。这个规范成了软件开发的需求说明和专家校对的准则,也是成果验收的依据。由于业界对大规模标注语料库的需求日益旺盛,也由于国家语委制定的语言文字应用“十五”科研规划和国家863计划于2001年秋季公布的项目指南都把语料库建设放在相当重要的地位,预计今后或许会出现一个语料库开发的热潮。计算语言所决定公开发表“现代汉语语料库基本加工规范”(2001年7月版),期望起到抛砖引玉的作用,引起对语料库加工中的这个关键问题的讨论,这个规范可以作为讨论的靶子。2.关于基本加工任务的说明汉语语料库的基本加工通常指词语切分与词性标注两项内容。《人民日报》标注语料库的加工项目多于这两项内容,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注、动词和形容词的特殊用法标注、短语型名称的标注等,标记总数约40个。下面摘录一段原始语料如下:19980101-05-001-0031997年11月8日,长江三峡工程实施大江截流,成为一期工程圆满完成,二期工程进入攻坚阶段的里程碑。目前,担负施工任务的各路建设大军,正为宏伟的三峡工程再续新篇章。(李舸摄)其中“19980101-05-001-003”是加在《人民日报》原文的每段内容前的标签,表示“1998年1月1日第5版第1篇文章的第3段”。加工后的语料如下所示:19980101-05-001-003/m1997年/t11月/t8日/t,/w[长江/ns三峡/ns工程/n]nz实施/v大江/n截流/vn,/w成为/v一/m期/q工程/n圆满/ad完成/v,/w二/m期/q工程/n进入/v攻坚/vn阶段/n的/u里程碑/n。/w目前/t,/w担负/v施工/vn任务/n的/u各路/r建设/vn大军/n,/w正/d为/p宏伟/a的/u[三峡/ns工程/n]nz再/d续/v新/a篇章/n。/w(/w李/nr舸/nr摄/Vg)/w词语之间有了空格,斜杠之后的字母是该词语的标记,其中包括词性标记(如n,t,v,a,u,m,w等)、专有名词标记(如nr,ns,nz等)、语素子类标记(如Vg)、动词和形容词的特殊用法标记(如vn,ad)。不妨将这些标记笼统地称为“词性标记”。关于这些标记的含义请见下文3.(2)的说明。短语型专名“长江三峡工程”用方括号[]标记出来了。3.制订基本加工规范的基本思路⑴词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范”3(以下简称为“分词规范”)[8]保持一致。由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《现代汉语语法信息词典》[9](以下有时简称“语法信息词典”或“语法词典”)可以作为基本参照,这就有必要对“分词规范”作必要的调整和补充。⑵便于扩充的标记集。词性标注除了使用《现代汉语语法信息词典》中的26个词类代码(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加了以下3类标记:①专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz,英语等其他非汉字的字符串nx。②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;由于标注时只使用这些子类标记,故语素标记g不在标注语料库中出现。③动词和形容词的特殊用法标记,即名动词vn(动词的名词用法),名形词an(形容词的名词用法),副动词vd(动词的副词用法),副形词ad(形容词的副词用法)。合计约40个。这个标记集虽然不算大,但与《现代汉语语法信息词典》结合,它是很容易扩充的。如可将成语、习用语和简称细分为名词性的、动词性的、形容词性的等等。⑶多方面的适应性。既要适应语言信息处理与语料库语言学研究的需要,又要能为传统的语言研究提供充足的素材;既要适合计算机自动处理,又要便于人工校对。⑷汉语的词组(短语)本位语法体系的指导作用[10,11]。汉语的词类与句法成分之间不存在简单的一一对应关系。同一个句法成分可以由不同词性的词来充任;而具有确定词性的同一个词又可以充当不同的句法成分,形式上可以没有任何不同的标记。《现代汉语语法信息词典》是在词组本位语法体系的指导下研制的,对数以万计的词语根据其在实际语料中的语法功能分布,特别是优势功能分布决定了它们的词性(即它们所属的词类)以及各种语法属性。进行词性标注时利用了《现代汉语语法信息词典》的成果,避免了只根据词在当前句子中的句法功能就决定其词性。同时考虑到语言学界对汉语词类的划分存在不同意见,在标记集中增加了名动词vn,名形词an,副动词vd,副形词ad。增加这些标记可以为词的兼类研究提供计量根据,也可以为汉语词的概率语法属性描述准备充分的数据资源[12]。⑸为了对新闻语料中大量存在的专有名词(地名、团体机构名称等)进行研究(从命名规律到自动识别),在词语切分与词性标注的基础上对由若干个词语组合而成的短语型专有名词加上方括号和类型标记(主要是nt,nz,还有少量的ns)。⑹标注语料库同《现代汉语语法信息词典》相结合,可以形成一个立体的语言知识库。本规范分为三个部分:①切分规范,见第4章。切分规范主要规定将汉字串形式的句子切分为词语序列的原则,即什么样的汉字组合可以作为一个切分单位。②切分和标注相结合的规范,见第5章。在汉语中,像“双音节动词+单音节名词”通常构成新的名词,对于这个新的名词,即使在词典中没有登录,也应该把它们处理为一个切分单位。因此,在本规范中,给出了一些基于词性描述的构词规则,规定了什么样的组合可以处理为一个切分单位,并给出了新组合的词的词性。③标注规范③-1一般词性标注,见第6章。标注规范用以确定切分单位的标记。包括:4a.标记集以26个词类标记为基准,名动词、副动词、名形词、副形词和专有名词的标记是在动词代码v、形容词代码a、名词代码n后增加一个小写字母,语素标记是在语素代码g前面增加一个大写字母。b.一个词若在语法词典中已属于某一个或若干个词类,标注时不轻易增加词性。如“训练”、“强调”在语法词典中只属于动词,标注时切勿仅根据其在当前句子的功能就将它们改为名词或副词,可以标注为名动词vn或副动词vd。c.当语法词典给某个词确定的词性确实不对或不完备时,当然也要订正或补充。d.即使语法词典中的简称实际上指的是团体、机构、组织名称或地名,标注时仍标以j,而不要改为nt或ns。e.“唐朝”、“宋代”等历史朝代名称虽然也是专名,因语法词典已作为时间词收入,标注时仍标以t,不改为nz。③-2专有名词标注,见第4章与第5章。这里“专有名词”的含义有了拓展。短语型的地名、团体机构名称及其他专有名称在词的切分基础上用ASCII码的方括号括起来,并在右方括号之后标以相应的ns,nt,nz,方括号不嵌套。4.切分规范4.1基本概念⑴切分单位“分词单位”是中国国家标准“分词规范”中的一个基本概念[8]。它是指信息处理中使用的、具有确定的语义和语法功能的基本单位。为了同“分词规范”衔接,这里仍沿用“分词单位”这个概念,不过术语改用“切分单位”,因为“分词”这个术语已在英语语法中已表示其他概念,而用同一个术语表达同一或邻近学科的多个概念容易引起混淆。按照“分词规范”对“切分单位”的定义和解释,本切分规范中的“切分单位”主