--------------------------------------------------------------------------------------------------基于文本挖掘的中医学文献主题自动标引1周雪忠1崔蒙2吴朝晖11.浙江大学计算机科学与技术学院2.中国中医研究院中医药信息研究所摘要:本文对中医药文献内容关系及文献主题标引任务进行系统性分析的基础上,提出了一种新颖的基于文本抽取和分类技术的文献主题自动标引方法及系统方案。关键词:主题自动标引,文本挖掘,信息抽取(IE)一.引言由于计算机、数据仓库及网格技术的发展,大量数字化科技文献的Internet共享和知识挖掘需求越来越迫切,如何采用计算机技术自动或半自动的完成文献的编辑包括文摘、标引、关键字的提取等,以减少在文献编辑中人为的不确定性和错误,同时降低人力物力的需求,从而提高文献分类、检索的效率和质量,已经变得异常突出和重要。在中医领域,由于文献资源具有很高的临床价值和理论价值,大量的人员在从事文献的原始的手工编辑任务。而在实际使用中的《中医药学主题词表》、《英汉对照医学主题词标引树状结构表》、《医学主题词标引》等词库和规则知识为中医文献自动标引提供了基础资源条件,同时中医学语言是一种次语言(sublanguage),基于次语言的语言处理技术能对中医文本进行相当深度的理解式分析和知识抽取。本文将根据文献标引人员的实践经验,面向文献的题名和文摘(文摘可自动生成,考虑到准确性,本文的系统目前仍基于手工编辑的文摘),采用基于机器学习的信息抽取及文本分类等文本挖掘方法研究中医文献主题词的自动标引,并简单介绍我们正在实现的中医文献主题自动标引系统框架。本文的第二节介绍文本处理技术如信息抽取,文本挖掘及文献主题标引等内容;第三节分析本文采用的机器学习方法;第四节介绍主题标引的难点及解决方法:模糊词识别和概念语义组配等;第五节提供本文的IE-based主题标引系统结构及其各部分功能简要分析;第六节是结论。二.文本挖掘和文献主题自动标引文本挖掘技术文本知识发现(KnowledgeDiscoveryinTexts)就是从文本集(TextS)中发现和挖掘归纳性的知识如有用的模式、模型、趋势、规则等知识(和KDD中的知识概念一样)[15],这种文本知识发现技术也即文本挖掘技术,是人工智能、机器学习、自然语言处理、数据挖掘及相关自动文本处理如信息抽取、信息检索、文本分类等理论和技术相结合的产物,它得到了越来越多的研究人员的关注[16]。由于大量文本数据库(TextDatabases)的存在,文本挖掘成为KDD(KnowledgeDiscoveryinDatabases)领域的一个热点研究方向。信息抽取(InformationExtraction)从自然语言文本中定位目标数据单元,把非结构化的自由文本转化成符合应用要求的结构化数据,即抽取自由文本的数据填充预先定义的结构化模板。信息抽取是一种浅层文本理解技术,它涉及计算语言学和自然语言处理,具有广泛的应用如会议公告、工作招聘和住房出租广告及公司客户email分析等,Califf[5]主张在信息抽取中采用机器学习来实现其自适应性和一定程度的领域无关性,DayneFreitag和AndrewMcCallum采用隐马尔科夫模型(HMM)于文本信息的建模和1本文的研究工作获得科技部2001年度科技基础性工作专项资金项目(2001DEA30039)的支持--------------------------------------------------------------------------------------------------自动抽取,同时为了减少学习样本文本的手工标识的劳动量,EllenRiloff(1996)等人学习从未经标识的文本中自动抽取和发现信息模式。由于信息抽取的特点使得基于规则学习的系统成为主流。对自然语言的理解程度和领域知识结合紧密程度决定了信息抽取的能力。文本分类(TextClassification)以文本归档(TextCategorization)为目标,文本分类(归档)就是把大量的文献集映射到预先定义好的文本属性类中。由于大量文献或全文信息检索和利用的需要以及Web数据的激增和Web搜索引擎的发展,文献、Web页面内容的分析和归档技术研究成为热点。传统机器学习方法如神经网络、BayesNetwork、决策树、k-最近领域(k-nearestneighbor)及最新的统计学习方法支持向量机(SupportVectorMachine)等被用于文本分类和归档[10],从而大大提高了文本分类的效率和准确度。特征选取及其建模是文本分类及其它各种自动文本处理的关键技术之一[11],基于概念向量而不是一般的词袋法(bag-of-words)能解决一定的语义分类和归档问题。文献主题词自动标引文献标引在文献检索和文献资料的研究开发中具有重要的作用,为此,我国研究人员在1996年研究完成了《中国分类主题词表》,它是分类与主题、先组式检索语言与后组式检索语言相结合的一体化检索语言体系。使用该表不仅可以使分类标引、主题标引在经过同一主题分析、采用同一标引工具的构成中一次完成,而且能够降低主题标引的难度,提高标引的一致性。同时,由于分类号与主题词之间建立了对应联系,有利于在检索系统中实现分类号与主题词之间的相互转换,从而提高检索效率。主题词是科技文献的重要内容特征和属性,而主题标引是文献标引的一个重要内容和目标,主题标引根据文献具有检索意义的内容特征,赋予相应词语标识的过程,它具有专指、直接、灵活的优点,可将杂乱无序的文献资源转变为规范有序的文献检索体系。对中文科技文献主题词标引问题,国家在1999年制定了主题标引规则[12],同时许多研究人员对手工标引的相关方法和技术的难点作了深入地分析如主题词的专指性、组配、隐含主题词或特征词等[13],同时鉴于手工主题词标引的费时费力,也提出了一些相当有效的自动标引系统。中文文献主题自动标引首先要对标引文本自动分词,它的一种统计实现方法是在分词的基础上,再对词语在文献中出现的次数进行词频统计,结合词语在文章出现的位置进行加权统计得出拟标引词,再以标引词与文献主题的相关程度、检索要求的相关程度进行加权统计,以此作为依据,对文献进行较精确的关键词标引,并结合以同义词、相关词、上位词等后控词表进行扩检和缩检,以达到能被灵活检索的目的。医学文献特别是中医学文献具有重要的科学研究价值。中国中医研究院信息所是我国中医领域文献收藏和开发利用的研究机构,由于中医文献检索和再利用的需要,信息所制定了《中医药学主题词表》。该主题词表和Mesh表为中医药文献的主题自动标引提供了必要的条件,在此基础上,相应的《中医药入口词主题词对应表》也在收集和制定之中,同时基于深度理解的主题词自动标引需要,我们将建立部分的同义词库和语义概念层次树结构表,并基于规则和实例的学习方法不断增加和更新同义词库和语义概念层次树。本文研究的中医文献自动标引方法的标引源数据是文献的文题和文摘,目前文摘由专业人员手工编辑而成,具有很高的知识含量。我们把主题标引源限制在文题和文摘,是因为中医文献的题名具有高度和概括性和知识性,手工编辑的文摘内容也具有很高的质量。据标引人员的经验,基于文题和文摘的主题标引具有高效、实用和准确的特点。--------------------------------------------------------------------------------------------------三.主题标引的机器学习方法本文的主题自动标引的原理是根据中医文献的文题和文摘内容,采用基于规则和实例的机器学习的方法及统计学习分类方法(如SVM)实现主副题词的自动抽取和组配。文献的文题和文摘是自然语言的汉语字符串,所以学习机器的任务之一就是完成从初始自然语言文本到定向性的语义概念文本表示模型的信息抽取。所以定向性的语义概念文本表示模型也就是面向主题词抽取的语义文本表示,这种文本表示的目的就是方便主题词的抽取和组配,是初始文本字符串和主题词字符串映射关系之间的中间信息表示,其关系如下图Figure1所示:Figure1主题自动标引数据映射变换模型现举一文献主题标引例子来说明三个不同阶段的信息表达模式:原始(初始)文本:语义概念文本表示:文献文题及文摘字符串语义概念文本表示主题词串信息抽取主题词抽取和组配题名:针灸治疗头痛对脑组织血氧变化的影响疾病:{头痛}治疗方法:{针灸}治疗效应:{血氧变化、脑组织}相关技术:{血氧检测仪、检测}{药物:无药物效应:无}文题:针灸治疗头痛对脑组织血氧变化的影响文摘::61例瘀血型、肝阳上亢型、外感型和肾虚型头痛患者,经近红外光谱组织血氧监测仪检测,脑组织普遍缺血、缺氧,肾虚型尤为突出,瘀血型缺血程度较轻。经针灸辨治后,肾虚型患者的脑血氧量与健康人比较仍有显著差异,瘀血型患者脑血量与治疗前比较无显著意义,肝阳上亢与外感型患者,脑供氧改善明显能达到健康人水平。--------------------------------------------------------------------------------------------------主题词及其组配串:文献题名的深度理解式信息抽取(Conceptrule-basedlearning)本文对文献题名和文摘采用不同程度的信息抽取方法,由于题名具有很高的知识信息(特指用于主题标引的知识)含量,我们对文献的题名采用近似于Soderland,S.G.对X光片的基于规则的深度理解式抽取方法[6]。规则的学习和运用在第四节的主题词模糊识别中所提及。在文题主题词抽取的基础上,结合启发式规则,我们采用一般的搜索式方法从文摘中抽取额外主题词。如中文题名:蒙药六味安消胶囊中蒽醌类成分含量测定;文摘:目的:测定蒙药六味安消胶囊中总蒽醌及游离蒽醌的含量。方法:采用分光光度法。结果:游离蒽醌回收率为(99.3067±1.6058)%,CV%=1.62;总蒽酯回收率为(102.32±0.1308)%,CV%=0.13。独立测定5次,变异系数分别为CV%=1.28,CV%=3.28。结论:该方法选择性好,准确度高,可有效控制本品质量。经文献题名深度信息抽取所得主题词:蒙药、中成药、蒽醌类及中医语义概念:六味安消胶囊、成分、含量测定。根据启发式规则:药物分析若没有在题名中找到分析方法,则搜索文摘的方法和目的段,由此发现主题词:分光光度法。最后得主体标引结果为蒙药;蒽醌类/分析;中成药/化学;分光光度法(这里没有讲解如何组配的过程)。基于SVM(SupportVectorMachine)的副题词抽取及组配(SVMClassifier)在文本分类和归档研究中,多种方法如神经网络(NeuralNetwork)、最近邻域(Nearest-NeighborClassifier)、贝叶斯分类器(BayesClassifier)、决策树等被采用来实现分类目的。而最近基于统计学习的支持向量机(SupportVectorMachine)能很好的应用于模式识别、分类的目的,与其它机器学习分类方法相比具有更好的性能和分类能力[7]。在本文的研究中我们将对文本进行语义概念向量建模基础上采用SVM分类方法。支持向量机(SVM)是统计学习的最新研究热点。SVM的基本实现思想是:通过某种事先选择的非线性影射把输入向量x映射到一个高维特征空间Z,在这个空间中构造最优分类超平面。也就是SVM采用输入向量的非线性变换;在特征空间中,在线性决策规则集合上按照正规超平面权值的模构造一个结构;然后选择结构中最好的元素和这个元素中最好的函数,以达到最小化错误率的界目标等步骤,实现了结构风险最小化归纳原则。SVM能有效的应用于模式识别[8]、特征选取[9]、自动文本处理如文本归档[10][11]等任务。经分析和统计发现中医文献的研究内容基本上是如Figure2所示的