一、Entrez检索系统的简介Entrez检索系统是储存和分析关于分子生物学、生物化学和遗传学知识的自动化系统,是美国国家生物技术信息中心(NationalCenterforBiotechnologyInformation,NCBI)网站建立的最受欢迎的检索系统之一,它允许用户从NCBI整合的多个数据库中同时检索文献题录和分子生物学数据。Entrez系统中的数据库均有同样的检索界面,遵循相同的检索规则。这些数据库包含:PubMed:生物医学文献数据库Nucleotide:核酸序列数据库,包括GenBank,RefSeq,和PDB中的序列数据Proteinsequencedatabase:蛋白质序列数据库,包括来自SwissProt,PIR,PRF,PDB,以及自GenBankandRefSeq解码转译的数据Structure:大分子三维结构数据库Genome:完整的基因组数据,包括已经完成基因组测序和正在进行基因组测序的800多种生物体;PopSet:人口研究数据集,指已搜集到的分析人类进化关联的DNA序列集OMIM:人类孟德尔遗传数据库Taxonomy:GenBank中的物种分类学数据库Books:在线生物医学图书ProbeSet:基因表达和微阵列数据集3DDomains:EntrezStructure中特定功能域的三维结构UniSTS:标记物和遗传学图谱数据(mappingdata)SNP:单核苷酸多肽性数据库1.Entrez系统的检索1.1Entrez检索的基本原理PubMed用查询词自动映射(AutomaticTermMapping)功能将检索词与主题词转换表(MesHTranslationTable)、期刊刊名转换表、短语表、作者索引表进行对照、匹配和转换.检索词被作为主题词和文本词分别检索,并自动形成相应的检索式。1.1.1基本检索:是文献检索查全率的基本方法自由词检索:进人PubMed检索主页面.检索字段为所有字段,在检索框内键人一个或多个检索词语,按Enter或点击co按钮。截词检索:也是在所有字段检索的方便方法,它只适用于单词,检索格式是“X*”,X表示一个词的开始部分。如:immunoglob*”就会检索出immunoglobulin,immunoglobulins,immunoglobin,andimmunoglobins等。1.1.2高级检索:主要用于提高文献的查准率逻辑组配检索:逻辑组配使用大写的布尔逻辑运算符AND,OR,NOT将检索词连接形成检索式进行检索。预览/索引检索:在预览/索引页面的文本框进行多个词语的添加,再点击运算符,就可组配检索。点击预览/索引的预览选择历史记录将显示最新连续检索的三个结果,提供观察检索策略的相互影响。限定检索如果检索结果过多,可采用限定检索范围。Entrez的不同数据库因记录内容不同,各限定检索的条件也将随之而变。PubMed的限定(Limits)检索页面中,提供了字段、文献类型、年龄、出版年份、语种、物质名称、人或动物、性别、子库及分类数据库等多种限定方向的检索形式。常用的字段主要有文章题目[T1]、主题词[MeSH]、[MH]、副主题词[SH]、文本词语[TW]、作者姓名[AU]、期刊号[IP]、期刊名称[TA]、出版卷号[VI]、页码[PG]、出版日期[DP]、出版类型[PT].在默认状态下为所有字段[ALL]。字段英文简称大小1.2Entrez系统的基本检索用户可通过直接访问Entrez系统或登录NCBI网站主页的”Entrez”按钮进入Entrez系统。Entrez允许两种检索方式,一种是指定的识别号(uniqueidentifier,UID),一种是按自由词(textterm)检索。也支持通过e-mail进行检索,如检索MEDLINE,获得关于“angiostatin”的文献,显示20条记录,若前面path设置了e-mail,结果可以自动发送到邮箱中。1.3特征栏介绍在检索框下提供了四项选择:Limits,Preview/Index,History,Clipboard。①Limits(条件限定):允许用户根据不同的数据库,进行特定字段的检索。②Preview/Index(预览/索引):提供用户预览检索结果和索引检索、修改检索式的方便;③History(检索史):点击History可浏览检索史,并能进行组配检索;④Clipboard(剪贴版):因为Entrez系统检索结果输出时只输出显示界面的结果,因此,可将多次检索结果分别粘贴到Clipboard,一并打印或存盘;Clipboard中允许存放的检索结果最多是500条;如果不用,1小时后就自动清除。因此应及时存盘或打印。1.4结果输出Entrez系统提供了三种输出途径,即显示(display),存盘(save)和打印(print)。(1)显示(Display)①Show在检索结果的display下,选择限定每屏显示的记录数,从每屏5条到500条。因为系统默认的存盘或打印均以每屏为单位,因此以设定500为宜。②Clipboard因为Entrez系统检索结果输出时只输出显示界面的结果,因此,可将检索结果粘贴到Clipboard,一并打印或存盘;另外,Clipboard还允许将不同检索式中获得的检索结果,一起放在Clipboard中,存盘或打印。Clipboard存放的检索结果最多是500条,如果不用,1小时后就自动清除。③Sort(排序)系统可将PubMed的检出结果,按作者姓名、杂志名称或出版日期排序,方便阅读。④Text(文本)点击“Display”框右侧的“text”按钮,则显示全文。(2)存盘(save)点击save存盘,存盘记录与设定的显示记录格式相同。(3)打印(print)通过浏览器的print功能,可以打印页面显示的检索结果,也可以打印存放在“Clipboard”中的记录。二、SRS检索系统简介SRS(SequenceRetrievalSystem)由位于英国的欧洲生物信息学研究所开发,是目前生物信息学领域中最常用的数据库检索系统之一。该研究所的SRS系统建于1997年,目前共整合了100多个各类数据库。核酸序列数据库EMBL和蛋白质三维结构数据库PDB进行每日同步更新。连接方式:华工主页——网格计算——华南理工大学生物信息网格平台——特色服务——SRS——点击进入或者登陆网站实用功能:具多种数据库,提供关键词查询序列信息可以通过检索号码为索引提供分析应用程序(BLAST,FASTA)整合EMBOSS(2003)1.SRS系统的检索QuickSearches:可进行核算序列或蛋白序列的快速搜索,或根据已有的序列搜索相类似或者是同源的序列SelectDatabanks:确定搜索的数据库。Tools:提供序列比对(AlignmentTools)、显示(DisplayTools)、编辑(EditTools)、进化分析(PhylogenyTools)等工具。Result:有显示搜索历史记录、显示搜索结果排列方式、删除或保存搜索结果、限制搜索条件等功能。三、DBGET/LinkDB检索工具DBGET/LinkDB检索工具是日本京都大学化学研究所建立的GenomeNet数据库服务主页(),包括KEGG(京都基因和基因组百科全书)和DBGET/DB()两套主要系统。前者注重代谢途径(metabolicandregulatorypathway),后者处理数据库检索。而且,该服务器提供了对有关资源进行整合后的综合信息检索界面,包括:核酸序列、蛋白质序列、三维结构、序列motif、酶和复合物、蛋白质-蛋白质相互作用、通路和复合体、基因分类、种属、遗传病、蛋白质突变、氨基酸索引、蛋白质/肽的文献、生物医学文献等。DBGET与Entrez、SRS相区别的一大特征在于关键字不是在数据库安装或更新时建立的,而是根据关键字将数据储存在特定区域。这样对于在数据库中快速查找是有利的,但是并不精细。