生物医学文本挖掘前沿-新发现WLFrontiersofbiomedicaltextmining:currentprogressCompanyname2发表期刊&作者简介BriefBioinform.2007September;8(5):358–375.PierreZweigenbaum法国LIMSI/CNRS的高级研究员(机械和工程科学的语言,信息和代理集团计算机科学实验室/法国国家科学研究中心)他致力于自然语言处理和其在生物医学领域的应用。DinaDemner-FushmanNLM国家生物医学通讯中心通信工程部常任科学家她利用信息检索的NLP和生物医学领域信息检索研究临床决策支持、临床问答系统。HongYu威斯康星密尔沃基大学计算机科学和卫生科学系助理教授,她的研究多关注于多媒体信息检索,话语分析和问答系统。KevinB.Cohen科罗拉多大学医学中心校区,领导计算药理学方面生物医学文本挖掘团队。Companyname3文本挖掘的主要技术和应用IRNERIE问答系统非文本数据处理知识发现Companyname4文本挖掘(TM)在不同程度上,大部分生物医学TM研究依赖自然语言处理方法和工具。“BioNLP”TM有广义和狭义之分:狭义:TM系统必须返回文章中没有明确表明的知识。广义:任何从文章中抽取信息的系统,或者具有抽取信息所必需先决条件功能的系统。包括一系列的应用类型,从命名实体识别到基于文献的知识发现,以及介于两者之间的许多过程。Companyname5结构框架文本抽取事实IE—初始工序有注释文本集&大规模评价关系抽取识别生物实体的模块或文章中的概念检测出生物实体之间的关系超信息抽取摘要技术处理非文本材料问答系统知识发现简明确定和表明文献最重要方面,节省阅读时间含有丰富信息的非文本信息如表格和图片为形成的问题提供精确的答案真正的TM不仅给出文章中存在的直接事实,还有助于揭示生物学实体间的间接关系狭义TM评价&面向用户系统理解用户需求NER(TM的最重要的必要条件)对系统和结果质量的评价有助于评估产生数据的可信度对用户需求的实际掌握可引领技术发展Companyname6超信息抽取——BIE该技术超出IE领域,满足最严格的文本挖掘定义,本质上是处理文本以外数据类型的系统。IE系统的输入——单一句型BIE系统的输入——全文本:至少是摘要,有时是全文期刊论文,很少情况是文献集(如后面讨论的多文档摘要)。BIE系统的输出——不限制实体间关系的简单的语句。Companyname7超信息抽取1摘要技术2处理非文本材料3问答系统4知识发现Companyname8摘要技术传统的‘一般’摘要对摘要的预期用途不作任何假设自动文本摘要技术的目的:确定一个或多个文献最重要的方面和简洁连贯地展现这些方面。自动文本摘要技术区分指示摘要(帮助读者决定他们是否应阅读感兴趣的摘要文档)和详细摘要(从摘要文档中为读者实际提供资料)定向/聚焦的摘要旨在满足独特信息需求,往往以查询方式表现“黄金信息”Companyname9摘要技术4321刻画基因六个方面结合标记抽取信息评价Ling等人:生物学文献的特征结构性摘要1:六个方面:(i)基因产物,(ii)表达的位置,(iii)序列信息,(iv)野生型功能和表型信息,(v)突变表型和(vi)遗传相互作用。2:检索相关MEDLINE摘要和抽取包含与靶基因某一特定方面有关信息的句子3:为了结合治疗结果有关,最能提供信息的句子中的证据,评分句型将种类相关性,文献相关性和摘要中句子的位置结合标记。4:这一抽取方法使确定10个随机选择基因的测试集的上述六个方面查准率达到50%-70%。填充摘要结构Companyname10摘要技术Lu等人:摘要技术与GO注释结合2003年文本信息检索会议(TREC,TextREtrievalConference)基因组领域包括GeneRIFs[基因导入功能参考(GeneRIF用于Entre数据库中描述的基因)]预测的任务。Lu等人提出完成这项任务采用摘要技术与GO(基因本体,geneontology)注释结合,GO注释与现有的Entrez基因条目有关。作者将这一方法进一步发展到现实任务摘要技术的创新应用:测定低质量和过时的GeneRIFs摘要修订方法,这一任务准确率达到89%,召回率达到79%,并且在质量上比其他方法产生有效的GeneRIFs。Companyname11摘要技术Baumgartner等人:句型选择子任务将摘要方法应用于蛋白-蛋白间相互作用的BioCreative2006句型选择子任务。该查找描述蛋白-蛋白相互作用最好的句型的抽取摘要方法达到了19%的准确率,是这一挑战中表现最好的;位于第二的系统的分数为6%。Companyname12摘要技术Névéol等人:自动生成的建议性主题词与摘要相关的任务:描述采用Mesh主题词的文本的主要主题,通过人工索引medline数据库完成的。Névéol等人通过改进自动生成的建议性主题词来推动这一手工处理过程;NLM索引者在索引过程中采用此方法。这一工作的重点是将Mesh叙词(descriptors)和限定词(qualifiers)的组合分配给一篇引文,而不只是分配单一的Mesh主标目。Companyname13摘要技术文献摘要的分类摘要技术的另一个应用:将文献分类到一系列预先确定的分类(例如GO编码)中。Stoica和Hearst成功为基因分配GO编码,他们通过从生物医学文本中查找分配给靶基因的同源类似物的GO编码来分配GO术语。Fyshe和Szafron针对蛋白质的亚细胞定位对文献摘要进行分类,利用GO作为一个附加的信息资源。文献摘要的分类也是Höglund等人的预测亚细胞位置方法一个组成部分。Companyname14摘要技术——展望生物学文本摘要技术的研究是稳定的持续进行的应用于现实需要更多的任务驱动性摘要的研究更多的一致性多文档生成的摘要技术研究Companyname15超信息抽取1摘要技术2处理非文本材料3问答系统4知识发现Companyname16处理非文本材料(Processingnon-textualmaterial)目前现状:大多数关于BM语言处理系统仅应用在文本信息方面,而不提供其他重要数据,如图像(例如,图表)。新兴研究:应用图像处理以及NLP的方法来分析图形图像及与其关联的文本,或考虑特殊形式的文本,如化学化合物。Companyname17处理非文本材料第一个面向BM文献中图像的系统:亚细胞定位图像搜索(SLIF)系统SLIF提取并分析特定类型的图像,即来自BM全文文章的荧光显微镜图像。利用几何力矩,文字的处理和形态学图像处理提取BM全文期刊文章的所有图形图像,识别这些描绘荧光显微镜图像,然后确定捕捉亚细胞位置数字特征(即,计算SLF6特征和将输出结果转换为单一的分数)。Companyname18处理非文本材料——各个方法的评价图像标题提取法的准确率/召回率是98/77%。通过寻找水平和垂直的空白部分来进行递归细分,从而把图像分解成网格。分解法的准确率为83%,召回率为60%。利用以灰度柱状图的为特点的k-近邻分类算法来识别荧光显微镜图,这一方法查准率达到97%,查全率为92%。多细胞图像分割成单细胞图像。由此产生的二进制图像包含的对象为相对应的细胞。此算法查准率/查全率达到了62/32%。所有的方法都证明了它们在实验的准备,细胞类型和显微镜方法中产生差异以及出版时图像交替的稳健性。Companyname19处理非文本材料Rafkind等人:自动分类图形图像入5类定义了在BM全文文章出现的5个类别的图像,并采用监督的机器学习算法的支持向量机(SVMs)自动分类图形图像进入这些类别。对于给定的554张附注释的图形图像:当只应用图像特征(亮度和基于边缘特征)时,分类器的F-值达到50.74%,当应用文本特征(标题中的词袋和多元语法)时,F-值达到68.54%。当融合图像特征和文字特征时,结合分类算法的F-值达到73.66%。Companyname20处理非文本材料Shatkay等人:层次图像分类方案共有1600有注释的图形图像,利用SVM分类器来区分图形型和实验型图像,准确率达到95%;而能够区分三种类型的实验型图像的准确性为93%。46个图像特征(如柱状图和边缘方向柱状图)用于分类任务。他们发现,在文本分类任务可以受益于将这些图像的特征的综合。图形图像图形型:条形图,线形图和其他图表实验型:凝胶电泳,荧光显微镜和其他显微镜其他类型Companyname21处理非文本材料Yu:摘要句子概括图像内容图像提供重要证据,但不参照相关文本常无法理解。为此,Yu审查了三种相关文字:图片标题,摘要中出现的相关句子和全文主体中出现的相关的句子得出结论认为,摘要中的句子可以用来概括图像内容,其他相关的文本描述通常只描述实验程序而不包括实验的指征和结论。Companyname22处理非文本材料Yu和Lee:面向用户的BioEx该系统将图像和摘要句子的关系可视化。BioEx可以通过相关的摘要句子来获得图像。他们邀请那些对文章进行图像注释的119为科学家来评价BioEx界面,与其他两个无法通过摘要句子来获得图像基础界面进行比较。87.8%的科学家更倾向于BioEx用户界面。图像和摘要句子的关系通过基于摘要句子和图像标题单词等级相似性的层次聚类算法实现的。准确率达到72%,相应的召回率为33%。Companyname23处理非文本材料Rhodes等人:分子相似性搜索引擎化合物与图像相关的描述是非线性性质的。Rhodes等人开发了分子相似性搜索引擎,以区分专利语料库中类似的化合物。该系统首先在文本中识别化学名称,将这些名称转换为相应的复合结构,然后为每个结构分配一个IUPAC(国际理论和应用化学联合会)的国际化学标识符(InChI)代码。从InChI代码和基于文本的向量空间模型中抽取特征,然后应用到索引和检索相关的化合物。评价发现,相似性搜索优于基于文本的搜索。Companyname24处理非文本材料生物学领域以外的图像处理系统主要开发从数据库中检索医学图像的系统。ImageCLEFmed:医学图像检索IPAL(ImageProcessingandApplicationLaboratory,图像应用和处理实验室,Image&PervasiveAccessLab):自动医学检索达到了最高平均准确率(MAP:0.3095)。IPAL融合了UMLS作为知识基础,并发现它增强了以文本为基础和可视化检索。Companyname25超信息抽取1摘要技术2处理非文本材料3问答系统4知识发现Companyname26问答系统(Questionanswering,QA)问答系统:高精度的信息检索,而不是从庞大的全文资料库中得到一个文献列表,QA试图对问题提供一个简短的,具体的答案,并且通过提供支持信息和链接原始资料文献把他们放入到上下文中。QA近来主要应用在一些限定的领域中。临床领域中较早出现并相对活跃,而基因组学只是最近才解决的。问答系统一般包含问题分析,查询制定,信息检索,答案提取,摘要和显示。Companyname27问答系统—相关研究Demner-Fushman和Lin:随后识别并提炼PICO文本来回答临床问题;他们发现具有领域特异性的知识能够增强信息检索对于BM领域中的QA:Zweigenbaum是最易获得的Huang等人:映射出基于问题/病人,治疗,比较治疗,治疗结果(PICO)的临床问题Yu等人实现了医疗问答系统,并比较问答系统与信息检索系统的实用性Jacquemart和Zweigenbaum:在法国进行了一项临床问答系统的可行性研究Companyname28问答系统基因组学领域的问答系统TREC/GenomicsTrack(基因组追踪)已经成为基因组学领域的问答系统的驱动力量。基因组追踪单任务注重于为生物学问题检索出特定的短文(两三个短句)(例如:PrnP在疯牛病中的作用?)。31个团队参与了基因组追踪并得到以下平均准确度:文献检索