中医药同异名中医药同异名中医药同异名中医药同异名现象现象现象现象及及及及语义关联语义关联语义关联语义关联研究研究研究研究何前锋1尹爱宁刘静摘要摘要摘要摘要本文归纳了以往研究中医药同异名现象在实际工作中造成的问题以及同异名的相关研究方法,设计实现了中医药同异名关联查询系统,形式化定义了中医药同异名研究的问题,分析了同异名的可替代性,为中医药同异名标准化的工作提供思路。AbstractBasedonthereviewofthehistoricalresearchesandreportsonTraditionalChineseMedical(TCM)termsynonyms,thispaperdesignsaTCMsynonymssearchtool;andfurthermore,putsforwardsomeprinciplesofreplacementofinformaltermsfortheTCMtermstandardizationwiththehelpofimplementedTCMsynonymssearchtool.关键词关键词关键词关键词中医药同异名标准化TCMSynonymsStandardization千百年来,受中国哲学、传统文化、民间医学、少数民族医学、外来医学尤其是西方近现代医学的渗透和影响,一词多义、多词同义现象在中医学名词术语中屡见不鲜;加之不同地域、不同方言、不同医学人文背景以及不同医学流派的存在[1],给实际的工作带来主要的问题有:1、就中药部分来说,中药大量同异名的存在,使得中药的品种与质量在生产中带来难以区分、标识,在购销中难以突破地区的限制,从而以假乱真、以劣充优的情况时有发生;在使用中因同名异物、同物异名,同一药物的品种、产地、采收季节、贮存条件及炮制加工等,均可影响药物的疗效,发生中毒事件也屡见报道;[3,4,5]2、在学术中,同名异义使得分类模糊,交流继承困难,标准建设困难重重。同异名带来的问题在信息化发展迅速的今天,已经严重影响人们的日常生活及中医药信息化的进一步发展,因此需要对同异名的现象进行必要的研究,辅助同异名的规范化和标准化的工作。研究研究研究研究背景背景背景背景中医药同异名的中医药同异名的中医药同异名的中医药同异名的考证研究考证研究考证研究考证研究中医药同异名的研究从目前的文献调研来看主要在个别名称及某一类别的概述上,方法主要是文献考证与实地调研,研究的结论归结为同异名现象存在的原因,指出同异名现象存在问题的严重性。如:《浅析中药虎杖同物异名现象》[6],发现中药虎杖的异名多达170个。该文通过采用文献查阅和实地调查的方法分析虎杖异名成因,归纳为中药异名的文献源、地域性和民族用名等几种因素,并分析了同物异名交互出现的同名异物复杂情况可能导致的用药混淆,提示规范中药名称和严格使用正名的重要意义。又如《重名、异名、无名中药方剂整理困难重重》,对方剂的同异名情况进行了分析,指出了方剂同异名的现象:“同名异方,1本文由国家科技部——中医药学科学数据中心基础性工作支助项目编号:2005DKA32405何前锋中国中医科学院中医药信息研究所franklinheqf@gmail.com010-64014411-2545一方多名以及无名方的存在,指出无论重名、异名都不可能硬性规定哪一个处方命名是排他的、专属的、独一无二的。其他重名、异名方既不可能重新命名,也不可能作废不用。大量的‘无名方’、‘又方’重新命名更不现实。但继续保持这种状态又不利于中医药的继承、发展,也不利于中医药走向世界”[7]。中医药语言系统的建立中医药语言系统的建立中医药语言系统的建立中医药语言系统的建立中医药语言系统是中国医药学检索语言集成系统和机读信息资源指南系统,是与UMLS(一体化医学语言系统(美国))功能相似的中文版的中医药学及其与该学科相关的语言系统平台[2]。中国中医科学院中医药信息研究所自从2002年开始投入中医药语言系统的研究与开发,已经取得了很大的进展。中医药语言系统的建立,为中医药同异名现象在宏观层面上的研究提供了数据分析的研究条件。本文研究的本文研究的本文研究的本文研究的内容内容内容内容与方法与方法与方法与方法本文在广泛收集现有的同异名词汇基础上,通过名称之间的重合性与名称的异名信息建立关联,使用名称查询以及名称的超级链接导航方式展现目前所能搜集到的中医药词的同异名术语的特征,并对研究的问题进行形式化定义,采用所实现的同异名查询软件系统对同异名现象进行考察,为中医药信息标准化的工作提供参考。中医药信息标准化的实质问题是自动化处理中医药信息过程中的人与人、人与机、机与机交互的一致无歧义性问题。围绕这个问题,在中医药同异名信息处理方面本文提出两个问题:问题问题问题问题1::::在术语的标准化中,为了信息的一致性自动化处理,是否可以采用同异名词表将所有的异名词替换成为正名词?问题问题问题问题2::::同异名信息标准化应该遵循什么样的规则?为了回答这两个问题,我们首先进行同异名查询系统的设计与实现,在系统的查询数据分析的基础上来考察相关的答案。同异名同异名同异名同异名检索检索检索检索的的的的设计设计设计设计与使用与使用与使用与使用如图1-a,b,c所示,同异名的检索有四个个部分组成,图1-a名称空间图1-b名称检索图1-c同异名显示与导航1、名称空间名称空间名称空间名称空间::::图1-a显示的是同异名的名称空间即词典。为了便于在同类词之间比较,将可能出现比较集中的同异名词在相应的名称空间中进行组织,中医疾病、症状、中药、针灸等不同的类别名称空间下的相互同名现象也存在,可以通过合并各个名称空间来分析。2、名称检索名称检索名称检索名称检索::::图1-b显示的是在选定名称空间后(图中选定了中药基础的名称空间),在此名称空间下输入“大黄”,显示了所有以“大黄”开头的中药名称,这里的检索采用逐字精化检索的方式。3、同异名显示同异名显示同异名显示同异名显示::::图1-c是在图1-b中选择“大黄”之后显示的同异名情况,分成两个部分显示:上边部分显示异名为“大黄”的所有可能正名词,下边部分显示了“大黄”的所有可能异名词。4、同异名导航同异名导航同异名导航同异名导航::::对于每一个词都加上了超级链接,可以以该词条为入口检索词,导航到该词条的正异名信息。中医药同异名检索系统可以通过地址使用。同异名现象分析同异名现象分析同异名现象分析同异名现象分析为了便于研究同异名的各种形式以及上文所提出来的问题,对同异名的关系进行如下的定义,定义定义定义定义::::1、集合C={cf,ca,cfa,c},其中cf表示一个名称的正名,ca表示一个名称的异名,cfa表示一个名称既可以表示成正名,又可以表示成异名,c表示一个名称不确定是正名还是异名,大写C是一个名称的正、异名表示集合;2、a-f表示名称a是名称f的异名,a表示异名,f表示正名;3、a+表示取得名称a的正名运算,F=a+,F是a的正名的集合;4、f*表示取得名称f的异名运算,I=a*,I是f的异名的集合;5、a~b,表示名称a与名称b在意义上的相似性,称为可替代或可互换;6、N为名称空间。有了如上的定义,我们清晰的表达同异名的几种形式,中医药正异名的几种中医药正异名的几种中医药正异名的几种中医药正异名的几种表现表现表现表现形式形式形式形式::::一一一一名独名独名独名独正正正正::::一个正名没有异名。即不存在任何名称a,使得a-f成立。如:柴首等正名多异正名多异正名多异正名多异::::一个正名有一个或者多个异名。即a0-f,a1-f,…an-f,其中n=1。比如柴胡,有柴草、茹草、山菜、茈胡、地熏等异名。一异一一异一一异一一异一正正正正::::一个异名只属于一个正名。即a-f,且没有任何其它名称fn,使得a-fn成立。比如玉延只能是山药的异名。同异多正同异多正同异多正同异多正::::一个异名同属于多个正名。即a-f0,并且a-fn,其中n=2。比如将军,既是大黄的异名,又是蟋蟀的异名;又如龙虎草,可以是泽漆,又可以是大戟的异名。正异正异正异正异同名同名同名同名::::一个名称既是正名又是异名。即f-a,且b-f。比如f为大黄:既是水黄的异名,又是川军的正名。以上定义的几种形式与我们通常认为的一词多义,多词一义还是不一样的,正异名的表现形式是纯粹从正名,异名之间的对应关系来定义的,而通常的一词多义,多词一义是从语义与词的对应关系来表述的。不过,正名多异,同异多正与正异同名是由于一词多义,多词一义引起的。问题问题问题问题::::有a,b,f∈N,a≠b,如果a-f,b-f,那么是否a~b~f?分析分析分析分析::::我们看实例:f是大黄,a是川军,b是锦纹,川军、锦文、大黄是否可互换,如果b是生军、将军呢?经过查询,我们发现,如果B={ba},那么这种异名词是可互换而不产生歧义的。也即川军、锦纹,生军都是只表示异名词的,而且只能是大黄的异名词,因此这类词表示大黄的异名唯一,那么这类词之间可以互换。而将军却不能够与其它词互换,因为将军还是蟋蟀的异名。由此可得结论,结论结论结论结论::::如果两个不同的词同是另一词的异名词,并且这两个词都只能表示同一正名的异名词,那么这两个词与正名词之间具有互换性。形式化表达为:如果有a,b∈N,a≠b,且a-f,b-f,如果A={aa},B={ba},那么a~b~f。结论的意义结论的意义结论的意义结论的意义:1、如果一个名词有很多异名词,而这些异名词本身不会产生歧义,那么这样的异名词在信息处理中,完全可以使用相关的正名词来代替异名词而不会产生任何歧义,这为中医药信息的基于概念的扩展检索,中医药不同信息系统的信息可交换提供理论依据。2、在中医药术语规范化工作中,对于符合上述结论的异名词,可以用各种策略来推荐使用正名词,逐渐的淘汰一些不常用的异名词。3、为中药寻求替代药品,中药的质量控制等提供参考。问题问题问题问题::::有a,b,c∈N,如果a-b,b-c,那么是否a-c或者a~c?分析分析分析分析::::这个问题是形式化的可传递性问题。a是川军,b是大黄,c是水黄,是否可以说川军也是水黄的异名呢?如果c是小大黄呢?经过查询发现,水黄还有其它的别名葛叶大黄,小大黄不仅是正名而且还可以是沙七,红牛尾七等的异名。因此可以说,如果C={cf},那么a~c强,而a-c的关系不一定存在;如果C={cfa},那么a~c弱。这个问题不一定具有强的现实意义,但从形式化的定义以及运算看,给出了一个有趣的现象,这种现象是否存在还需要进一步研究。结论结论结论结论根据上文的分析,我们来看本文开头提出的问题,首先第一个问题,我们有了明确的答案,那就是在现阶段,中医药同异名的术语规范化不能够直接使用同异名词表来做相互的替换,原因是同异多正,正异同名的存在。问题二,中医药信息标准化的一个重要规则是尽量消除同异多正,正异同名的词条,或者增加除词条本身外的其它信息来限定这样词条的歧义,因为这样的词条的存在是产生歧义的根源,使得中医药信息的处理不能够自动进行。这比把名称规范化工作的困难问题简单归结为一词多义,一义多词的存在更加准确一些。本文本文本文本文局限性局限性局限性局限性与与与与未来工作未来工作未来工作未来工作本文的工作基础是中医药语言系统的词汇数据,因此本文所阐述的相关概念以及问题都是在现有语言系统的数据整理基础上所提出来的,因此语言系统数据的准确性以及收录的全面性是本文的结论可靠性以及研究意义的重要前提。本文研究的是术语标准规范化的工作,根据中医药同异名的现象提出了5种形式,但由于数据的准确性不能够得到保障,因此对于这5种形式的具体数据分布统计以及各种形式数据的展示没有开展。此外,本文的方法是对整个中医药术语数据进行关联,因此这几种形式是宏观表现的,某个词的具体文献或者实际的调研新的发现都将可能改变每种形式数据的情