-1-中医药古文献语料库设计与开发研究①刘耀1段慧明2王惠临1周扬3王振国3李宏展21(中国科学技术信息研究所北京100038)2(北京大学计算语言学研究所北京100871)3(山东中医药大学文献研究所济南250014)摘要:专业领域语料库是对专业领域文献进行自然语言处理的重要的不可或缺的基础,是对专业文本内容与意图进行深层把握的必由之路。本文通过对研究背景的分析,进一步明析了专业文献进行自然语言处理的必要性,并在对专业文献语料库的研究特点进行分析的基础上,深入探讨了专业语料库的设计思想及原理,同时,对语料库词类的标注信息进行了深入研究。成功地开发了针对专业领域语料库的辅助加工系统,为专业领域语料库建设提供了理论指导和技术支撑。关键词:自然语言处理语料库中医药古文献知识工程ResearchonCorpusCreationandDevelopmentofChineseTraditionalMedicine1LiuYao2DuanHuiming1WangHui-lin3ZouYang3WangZhen-guo2Lihong-zhan1(InstituteofScientificandTechnicalInformationofChina,Beijing,100038,China)2(InstituteofComputationalLinguistics,PekingUniversity,Beijing,100871,China)3(InstituteofChineseMedicalHistoryandLiterature,ShandongUniversityofTraditionalChineseMedicine,Jinan,250001,China)Abstract:Domaincorpusistheimportantbaseofnaturallanguageprocessingfordomaindocuments.Itisnecessaryforgrippingthedeepmeaningandcontentofdomaindocuments.Basedontheresearchbackgroundanalysis,thispaperclarifiestheimportanceofnaturallanguageprocessingfordomaindocuments.Afteranalyzingthespecialtyofdomaincorpus,thispaperdiscussestheideaandprincipleofdomaincorpuscreationinadeepdegree.Meanwhile,italsofurtherresearchesonpartofspeechtagginginformationofcorpus.Finallywedevelopanassistantprocessingsystemofdomaincorpusforthepurposeofprovidingtheoryinstructionandtechniquesupportfordomaincorpuscreation.Keyword:naturallanguageprocessing;corpus;Chinesetraditionalmedicinedocument;knowledgeengineering自然语言处理(NaturalLanguageProcessing,NLP)是一种对自然语言信息进行处理的技术,从语言学角度来说,自然语言处理也叫计算语言学(ComputationalLinguistics)。自然语言处理包括自然语言理解(NaturalLanguageUnderstanding,NLU)和自然语言生成(NaturalLanguageGeneration,NLG)两部分。自然语言理解是指对自然语言的内容和意图的深层把握。在人工智能领域中,自然语言理解特指计算机对自然语言的内容和意图的深层①[基金项目]本文得到国家科技支撑计划项目(2006BAH03B00)、国家973项目(2007CB512601)、教育部人文社科项目(06JC870001)、山东省中医药科技专项项目(2003-14)的支持。[作者简介]刘耀,男,1972年生,副研究员,北京大学信息管理系管理学博士,北京大学计算语言学研究所出站博士后,主要从事知识工程与中文信息处理方向研究;段慧明,女,1957年生,北京大学计算语言学研究所高级工程师,主要从事计算语言学方向研究;王惠临,男,1948年生,研究员,北京大学信息管理系博士生导师,主要从事自然语言处理方向研究。-2-把握。自然语言生成是指从非自然语言输入到自然语言输出的处理。自然语言理解与自然语言生成互为逆过程。如何将自然语言技术引入到中医药古文献的处理中来,是我们多年从事的研究课题之一。1研究背景中医学理论体系带有浓厚的自然哲学色彩,表现为长期的、非常稳定的形态,形成了以《内经》、《伤寒杂病论》为主体的相对封闭的框架。现代中医基础学科的分化,基本上是从原著派生出来的,因此,难以超越原著所固有的架构体系。中医基础学科奠基于《内经》学术体系,临床课程则与当时的中医医疗分科相对应。作为学科建设的主要标志,是各科教材的编写。特别是一版教材,扎扎实实地从文献研究人手,在前人的理论建树和实践基础上梳理出已经分化明显的学科,正如二版教材“前言”所说,是“把祖国医学系统地画了一个前所未能画出的轮廓,对提高教学质量起到了积极的作用”,[1]使中医学理论向规范化迈进了一大步。在短时间内,从浩瀚的文献中由博返约,提纲挈领地构筑起了现代中医药学的基本框架,满足了当时高等中医药教育的需要。[2]但是,在上述规范化过程中,受到近代科学思想,特别是近代西方医学的影响,同时也受当时教育模式的制约,在学科学术体系的架构过程中,许多重要的、有价值的理论与方法被忽略了。[3]例如中医“证”的规范化是多年来的重点研究课题。但是,由于文献的覆盖面有限,大量证型被遗漏。在未能对全部古代文献进行梳理,并对“证”的文献做出系统分析和归纳的情况下,简单的或者人为的分型有可能掩盖疾病的复杂性、多变性,引导医者的思维趋向单一和片面,即病-证-方的线性模式,并妨碍中医临床疗效的提高,以至于中医药界在建国五十多年内无重大发展。究其原因,中医学固有的理论与思想体系由于近代科学与教育模式等原因而被忽视;当代中医工作者文献研究不足,未能进一步深入挖掘古代文献中的学说、思想与理论,对中医基础学科群的理论框架与学科体系进行充实、完善。另一方面,中医古籍文献整理研究,是必不可缺的,并且人们企盼着能从古籍文献整理研究入手,起到保持中医学术特色的作用,认为这是按着中医学固有规律向前发展的昀佳选择。因此,如何利用现代化手段,对中医药古文献进行深入加工,从而为智能检索和知识挖掘打开方便之门,也就成为当前中医药古文献的研究前沿问题,也是中医药信息化迫切需要解决的重要问题。经过多年的研究,作者认为建立针对中医药古文献的语言知识库,可以有效地解决这一难题。2中医药古文献语料库的构建意义语言知识库(如:语料库、机器词典、句法规则库等)是自然语言处理系统不可或缺的组成部分,语言知识库的规模和质量在很大程度上决定了自然语言处理系统的成败。这已经是计算语言学研究者和自然语言处理系统开发者的共识[4]。特别是中文信息处理尤其需要重视知识库的建设。这其中更以语料库与词典的建设为重中之重。基于语料库的研究具有以下特点:(1)基于语料库的研究是实证性的,能够用来分析自然环境下的实际模式;(2)能以大量收集起来的自然文本作为语料库研究的基础;-3-(3)能大量使用计算机作为分析工具;(4)能同时使用定性和定量分析手段。我国古代医家善于从前人的文献出发研究医理,探索规律。他们往往通过博览群书,凭借笔记与大脑记忆来搜集资料和积累经验。这种实证的经验主义方法在计算机技术出现之后得到了强化,日益发展的计算机技术既增强了个人搜集医学资料的能力,又提供了处理资料的强大工具。建立中医古籍语料库的目的,就是要运用计算机技术通过语料库来研究古代医学文献。与传统的医家相比,用语料库来研究古代医学文献主要有两个特点:一是突破了材料的限制,计算机强大的搜索能力使古代文献研究从过去的重在材料的搜集转变为重在对材料的处理和对医学规律的总结;二是突破了个人的因素,穷尽式的搜索保证了医学资料的完整性,能够昀大限度地避免由片面的材料得出片面的结论,增强了研究结论的普遍性和科学性。语料库是贮存和处理语言材料的仓库,但它并不是语言材料的简单堆积;由于中医药古籍的特殊性,古籍语料库跟其他的语料库又有所不同。在对语料库进行规划时,必须根据中医药古籍语料自身的特点来确立建库原则。3语料库设计思想与原理一般而言,一个计算机语料库的功能主要和下面三种因素密切相关,即语料库的规模、语料的分布和语料的加工深度。因为语料库容量的大小直接影响到统计结果的可靠性,语料分布的考虑则关系到统计结果的适用范围,而加工深度则决定了该语料库能为自然语言处理提供什么样的知识。在建立语料库之前,首先必须要弄清楚建立该语料库的目的和组建原理。目前的语料库主要是针对语言学研究而建立的,包括:方言研究语料库、对比研究语料库、平行语料库、多语言语料库等。针对专业知识进行语料库的建设,目前鲜有人尝试,因此,中医药古文献语料库的建立的原理也就成了我们首要解决的问题。中医药古文献语料库的建设和研究对中医药术语规范化研究,词的切分和属性研究,术语语义研究,字频、词频统计和词典编篡等方面具有重要的意义。在中医药语料自动标注生成的整个过程中,分析其过程就显得极为重要。从分析过程看,首先是词类分析,其次是语料的标注,语法信息分析及专业属性的层次越深,则语料标注就会越准确,其中语法信息包括词类信息、子类信息、语义信息、格助词添加等信息,专业属性又包括专业分类体系与知识结构,语料中每个词条的语法信息及专业属性需要同语法规则和相应的子类相结合,以实现由词项来自动标注,这是中医药语料库建设的核心技术之一。由于中医药古籍的数量有限,所以,我们希望穷尽中医药古文献,另外,由于采取是自动标注,必须进行机器学习,建库之初,应注意文献题材的多样性。另外,词汇经过语义标记之后,需要建立符合医学知识结构及医学知识体系的知识架构,建立知识连结的轨迹,使全文检索从“索引式”提升为“思维联系式”的检索,进而实现对中医药文献所包涵的医理进行分析与研究的目的,因此,我们首先对词类的标注信息进行了深入研究。-4-4词类信息的分类与标记词语的分类既是任何一个自然语言处理系统的基础也是语法信息词典开发的基础。因为语法词典既要描述每类词都有的共同的语法属性,又要分别描述各类词特有的语法属性,只有这样,语法信息才会充分、完备,而又不致过于冗余。4.1通用词语的分类在通用词汇方面,我们采用了北京大学计算语言学研究所俞士汶教授的《现代汉语语法信息词典》[5]的分类体系,该语法词典的词类体系是在朱德熙先生的语法理论指导下,依据词的语法功能建立的。该词性标注使用的是小标记集[6]。它除了《现代汉语语法信息词典》中的26个词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加了以下3类标记:①专有名词的分类标记,即人名nr,地名ns,机关团体单位名称nt,其他专有名词nz;②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时间语素Tg,副语素Dg等;③动词和形容词的名词用法标记vn,an和副词用法标记vd,ad。合计约40个左右。同汉语信息处理学界的某些研究相比,这是一个小标记集。尽管使用的是小标记集,但由于规范及据此加工的语料库同《现代汉语语法信息词典》是紧密联系的,当这些基础研究成果同应用研究(中文信息检索、中文信