医学一体化语言系统(UMLS)中研信公司前言20世纪中叶是情报语言学研究中人工语言发展的鼎盛时期,20世纪末叶是人工语言与自然语言相结合的新兴阶段。自然语言由于存在词汇的同义、多义现象,词汇的模糊性和不确定性,词汇量的巨大,词间关系不明晰等问题,不可能单纯使用它进行检索,所以需要用一种受控检索语言对检索和标引所用的词汇进行控制,把用户的语言和标引人员的语言统一起来。由于信息量的扩充,给人工语言的处理带来了很大的困难。(1)工作量大。因为其工作繁难,国外的信息检索系统中有75%的运行费用要用于人工标引。(2)效率低。标引员要正确标引一篇文献,往往要耗时一个半小时以上。(3)一致性差。美国的Cleverton曾做过一些试验,他指出:两组人为同一主题编出的叙词表,其中词的同一率仅60%。两位有经验的标引员用同一叙词表对同一篇文献进行标引,其标引词的同一率仅有30%左右。两个在同一库中用同一检索系统检索同一问题的人,检索出的结果的同一率仅有40%。两位科研人员根据同一提问判断一组指定文献的相关性,其同一率不会超过60%。(4)词表的不完备性影响了标引的质量。词表的更新赶不上时代发展的步伐。庞大的词表,使标引速度大大地降低。(5)标引员与检索员都必需熟悉词表才能工作,使用非常不便。因此,必须发展使用电脑来进行自动标引。早在1956年,美国的H.P.Luhn就开始了文献自动标引的试验;60年代初,美国的G.Salton教授在自动标引方面取得了令世界瞩目的成就。中医药文献数据库在多年的建库过程中,深刻体会到标引工作的复杂性与耗时、人、财量。为实现自动标引与自由检索,以及数据库的深层次加工与数据挖掘。现行方法有二个方面。数据库结构的拆分与细化。语言处理。美国国立医学图书馆研制了统一的医学语言系统(UnifiedMedicalLanguageSystem,UMLS),其目的在于克服计算机生物医学信息检索中相同的概念具有不同的表达方式,有用的信息分散在不同的数据库系统中。一、UMLS的建立与发展过程建立目的:旨在建立一个计算机化的可持续发展的生物医学检索语言集成系统和机读情报资源指南系统,其目的在于提高计算机程序“理解”用户提问中生物医学词汇语义的能力,并利用这种理解帮助用户检索和获取相关的机读情报。UMLS是计算机化的情报检索语言集成系统,它不仅是语言翻译、自然语言处理及语言规范化的工具,而且是实现跨数据库检索的词汇转换系统,它可以帮助用户在联接情报源,包括计算机化的病案记录、书目数据库、事实数据库以及专家系统的过程中对其中的电子式生物医学情报作一体化检索。是使医疗卫生专业人员和研究工作者能够通过多种交互检索程序,克服由于不同系统语言差异性和不同数据库相关情报的分散性所造成的诸多情报检索问题,帮助用户从电子病案系统、书目数据库、图像数据库、事实数据库、专家系统等各种联机情报源中检索和获取综合性或特定性的情报信息。主要解决:1)同一概念由于不同的人或在不同的数据库中可能会有不同的表达方式;2)数据库系统分散所造成的检索不完整的问题。发展过程1986-1988的第一阶段,其研究和开发的重点是调查用户需求、开发研究工具、确定UMLS的性能及其实施方案、界定系统组成等。在此阶段主要界定了UMLS的三个组成部分即超级叙词表、语义网络、情报源图谱,并且进行了包括Mesh、SNOMED、CMIT和PDQ词表在内的联接试验。1989-1991年为UMLS的发展阶段,其开发的重点是迅速研制和发行三个UMLS产品的试验版,同时继续开展用户调查和UMLS功能开发。92年至今为应用阶段,1996年UMLS新增了一个组成部分即“专家词典”。在此阶段,许多研究机构利用UMLS进行基于Internet的应用开发,如决策支持系统DXplain、文献检索系统Webmedicine、临床Web搜索系统Clinweb、医学世界检索Medicalworldsearch以及集成化的Medweaver等。同时进行了NLM/AHCPR大规模词汇测试。二、UMLS的组成超级叙词表(Metathesaurus)语义网络(SemanticNetwork)情报源图谱(InformationsourcesMapISM)专家词典(SpecialistLexicon)四个部分组成。这四部分紧密联系、不可分割,构成了一个有机的整体。(1)超级叙词表超级叙词表是生物医学概念、术语、词汇及其等级范畴的广泛集成。“Meta”意即超越、含盖。1997年第8版的超级叙词表收录了来源于30多种生物医学词表和分类表的能表达33万多个概念的739439个词汇,2001年12版收录了83万个概念,190万个词。到2002年,第13版超级叙词表收录了776940个概念共210万个词。来源:这些概念和词来自60多个生物医学受控词表、术语表、分类表、专家系统中的词汇、词典及工具性词表等,如Mesh表及其葡萄牙语、西班牙语、法语、德语、俄语等各种译本、《医学系统化术语表》、《国际疾病分类》修订第10版及其他各版、《护理诊断分类》、麻省总医院研制开发的DXplain专家系统、《多兰氏图解医学辞典》、《校对词表》3.1版等。概念组织:叙词表是依据概念(concept)或涵义(meaning)组织起来的,其根本目的是将相同概念的交替名称和不同形式联系在一起,并识别不同概念之间的联系。因此,可以说概念是超级叙词表组织系统的中心。保留原有词表中概念与关系,同时增加了一个新的关联。整合成一个庞大的可控的知识库。对于同一概念的不同术语以及不同的变异形式,超级叙词表采用三级结构模式,即概念(I级)-术语(II级)-词串(III级),将一个概念的多种不同术语连同多个变异词串有序地组织在一起。对于不同的概念,超级叙词表采用多种“关系”概念如相关概念、组配概念、共现概念等来描述不同概念之间的关系。表达相同概念的不同形式款目关联表达相同概念的语词串接起来,并在不同概念间建立关系,便于主题相关性的判断。在Meta中的每一个概念都会被指定一个概念识别码(uniqueconceptidentifier,简称CUI)。CUI本身不具意义,只用作连结的指针。而每一个表达概念含意的字符串(nameorstring),不管是大小写的分别或语文上拼字的不同,凡是有差异者均视为一个独立的字符串,而分别赋予不同的字符串识别码(uniquestringidentifier,简称SUI)。由于Meta实际上是由英文款目所构成的,所以不同词型间表达相同概念的语词要能连结在一起,就必须依赖一般形式识别码术语码(commontermidentifier,简称LUI)的指引。Concept(CUI)Terms(LUIs)Strings(SUIs)C0004238AtrialFibrillation(preferred)AtrialFibrillationsAuricularFibrillationAuricularFibrillationsL0004238AtrialFibrillation(preferred)AtrialFibrillationsS0016668AtrialFibrillation(preferred)S0016669AtrialFibrillationsL0004327(synonym)AuricularFibrillationAuricularFibrillationsS0016899AuricularFibrillation(preferred)S0016900(pluralvariant)AuricularFibrillations表1:字符串“AtrialFibrillation”(心房纤维颤动)和字符串“AtrialFibrillations”在系统中被视为不同的字符串,故分别给予不同的SUI编码。然此二字符串实际上仅是单复数形上的差别,所以会被指引到相同的Termidentifier(LUIs);同理“AuricularFibrillation”和“AuricularFibrillations”也会同样被指引到另一个termidentifier(LUIs)。而当系统检视termidentifier时会发现“ArtialFibrillation”和“AuricularFibrillation”在意义上是一致的,所以二个LUIs会被指引到相同的conceptidentifier(CUIs)。如此循序建立四个不同形式但表达相同概念之语词间的关系。不同语词间关系建立之后,会牵涉到选择用语的问题,如:概念的标准用语、参照互见及缩写形式等。为了节省在选择选用语时所花费的心力,Meta的处理程序是建立索引表间的优先级。以UMLS现有的策略而言,MeSH是Meta所涵盖索引词中,拥有最高优先权的索引系统,所以MeSH中出现的概念词均视为选用词(preferredterm),而其它索引表中若有出现表达相同概念而形式不同的语词时,则视为参照款目。同理,若在MeSH中未涵盖的概念,则依第二顺位的索引表来决定选用词的形式,依此类推。Meta利用LUIs来串接SUIs及CUIs。但是这种处理方式有可能导致一个字符串若含有多种意义时,可能会被错误指引。尤其是Meta中包含多个索引表系统,此类状况当然可能发生。举例:字符串Cold的含义可能指温度上的冷,也可能是指一般感冒,因此在SUIs中将其分别定义为cold(1)、cold(2),在String部份就会产生四个与cold近似的字。因cold、cold(1)、cold(2)在拼字上仅有些许差异,故被指引到同一个LUI,相对的CommonCold则被指定为另一个LUI。而检视Termidentifier时,根据语词含义,再分别指引到所属含义的CUIs,其中Cold因语义模糊,所以被指引到二个Conceptidentifier,系统以此方式解决同一字符串不同内涵会被错误指引的问题。然而在以后的版本中,有关处理同形异义的问题,可能会采用限定词的方式,如“cold(temperature)”,“cold(disease)”等。FIGURE2.Concepts(CUIs)Terms(LUIs)Strings(SUIs)C0009264coldtemperatureL0215040coldtemperatureS0288775coldtemperatureL0009264Cold1ColdS0007170Cold1S0026353ColdC0009443CommonColdL0009443CommonColdS0026747CommonColdL0009264Cold2ColdS0007171Cold2S0026353Cold不同概念间关联的建立在Meta中展示了不同概念间的各种关系,而这些关系的建立,有些是取自原有的索引表架构,有些则是在建构Meta时所赋与的。例如“AtrialFibrillation”(心房纤维颤动)和“Arrhythmia”(心律失常)在MeSH中是以层级架构来展示二词间的隶属关系。但“AtrialFibrillation”在本质上也是一种“Arrhythmia”在MeSH中却没有被展现,此即Meta在建构时所新添的关系。另外,有时也会有来自其它索引典所建立起来的概念关系应用到Meta上。例如概念词“ParoxysmalAtrialFibrillation”(阵发性心房纤维颤动)在Meta中被指引为“AtrialFibrillation”的下位词(Narrowedterm),即是取自MeSH,ICD-9,SNOMED等索引表中所建立的架构。SNOMED(SystemizedNomenclatureofMedicine)是UMLS的重要子集:文献选用Mesh,而临床术语多选自本系统。SNOMED已经发展了超过20年,它包括解剖学、形态学、正常与非正常的功能、症状及疾病体症、化学制品、药品、酶及其它体蛋白、活有机体、物理因素、空间关系