一步一步教你使用NCBI数据库资源

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

一步一步教你使用NCBI数据库资源随着ncbi数据库各种资源的涌现,NCBI已经成为科研工作者必不可少的资料查找,数据分析的工具。那么NCBI数据如何使用,新手入门一步一步教你认识和使用NCBI数据库。一综合数据库NCBI数据库集美国国立生物技术信息中心(NationalCenterforBiotechnologyInformation),即我们所熟知的NCBI是由美国国立卫生研究院(NIH)于1988年创办。创办NCBI的初衷是为了给分子生物学家提供一个信息储存和处理的系统。除了建有GenBank核酸序列数据库(该数据库的数据资源来自全球几大DNA数据库,其中包括日本DNA数据库DDBJ、欧洲分子生物学实验室数据库EMBL以及其它几个知名科研机构)之外,NCBI还可以提供众多功能强大的数据检索与分析工具。目前,NCBI提供的资源有Entrez、EntrezProgrammingUtilities、MyNCBI、PubMed、PubMedCentral、EntrezGene、NCBITaxonomyBrowser、BLAST、BLASTLink(BLink)、ElectronicPCR等共计36种功能,而且都可以在NCBI的主页上找到相应链接,其中多半是由BLAST功能发展而来的。1NCBI最新进展1.1PubMed搜索功能的增强去年,NCBI对PubMed进行了几项改进工作,改动最大的是搜索界面和摘要浏览界面。其中,搜索界面中新增了“AdvancedSearch”选项(这实际上是对以往“Limits”和“Preview/Index”功能的整合),并且增加了一个新的窗口,用户可以在此窗口下通过“论文作者名”、“论文所属杂志名称”、“论文出版日期”等限定条件进行搜索。而且,“论文作者名”和“论文所属杂志名称”还设有文本框自动填充功能。现在,在PubMed数据库中进行文本搜索的同时还可以立即通过两个“内容传感器(contentsensors)”进行分析。一个“内容传感器”是根据作者姓名、所属杂志名称或杂志名缩写、出版日期、卷号或刊号等信息进行分析,然后将符合条件的搜索结果排列到结果列表的顶端。另一个“内容传感器”是根据文章是否与用户给出的条件,例如是否与某种药物相关,在NCBI的新增数据库PubMedClinicalQ&A中进行搜索,然后给出搜索结果。1.2新增primer-BLAST分析工具2008年,NCBI新增了设计、分析PCR引物的工具——Primer-BLAST。Primer-BLAST的引物设计功能是基于NCBI现有的Primer3程序发展而来的,Primer3程序可以为一段DNA模板序列设计PCR引物。Primer-BLAST在设计出引物之后还在某些相应数据库中进行BLAST搜索,因此可以得到特异性引物,扩增出目的片段。用户在给出DNA模板的同时还可以限定正向引物或反向引物,这样,NCBI就只会给出另一条引物。如果用户给出了模板DNA和两条引物序列,Primer-BLAST就只会运行BLAST程序,帮助用户对引物进行分析。用户也可以只给出两条引物而不给出模板序列,这时Primer-BLAST会通过BLAST程序分析出与这对引物最匹配的模板序列。Primer-BLAST进行BLAST搜索的数据库包括RefSeqmRNA、BLASTnr和12种模式生物基因组数据库。1.3BLAST的改进及更新NCBI对BLAST进行了全新的改版,推出了最新的webBLASTreport。在最新的BLAST比对结果页面中,“图形化概要(GraphicSummary)”、“具体描述(Descriptions)”以及“序列比对(Alignments)”等部分页面都可以展开和收起。此外,网页上还提供了“结果输出格式选项(Formatting)”和“结果下载选项(download)”,在下载选项中还新增了CSV格式下载。这样,读者可以轻松地将BLAST的比对结果输入到表格处理软件中去。另外,BLAST比对结果页面上的“Alignments”部分还提供了每一条命中序列在EntrezGENE中的相关信息,这些信息包括基因名称、来源物种以及在PubMed数据库中与该基因有关条目的数目等。“BLASTtree”结果输出模式可以测量不同序列间的距离,自动收起亚类信息等。现在,可以以Newick格式或Nexus格式下载BLASTtree结果,也可以在进化树图中选择任一节点重新构树。最后还要向读者介绍ncbiblast的一个新网址:URL:blast.ncbi.nlm.nih.gov。NCBI建议读者都使用这个网址登陆NCBIBLAST,因为该BLAST使用更多的计算机进行分析,也具有更强的系统容错能力。1.4EntrezGene改进及更新基因组注释工作当中有一项重要的工作就是定位基因重叠群序列(contigsequences),即在染色体中找出某个基因的定位。实际上基因组测序工作就是将许多基因重叠序列彼此拼接,最后拼出“完整(中间会有一些缝隙)”的基因组图谱。这项工作可以直接将某个基因与某段基因重叠群序列对应起来,但不能直接将该基因与染色体联系起来,而这恰恰是生物学家最感兴趣的地方。因此,为了能让用户在搜索基因的同时,也能了解到一些该基因在染色体中的定位情况,EntrezGene推出了新的“Limits”服务,用户可以使用该服务在基因组范围内进行基因搜索。用户可以在某个物种染色体的某个区域里进行基因搜索。EntrezGene会按以下三种顺序对搜索出的基因进行排序:1.按照基因名排序。2.按照相关性排序,即按照结果与用户搜索所使用的关键词,例如基因名称等的匹配程度排序。3.按照基因重要性排序,即按照该基因在PubMed、Homologene、ProteinClusters、OnlineMendelianInheritanceinMan(OMIM)或Bookshelf中文献数量的多少进行排序。2ENTREZ搜索系统2.1EntrezEntrez数据库是一个整合了多个数据库的综合检索系统,它包含了35个不同数据库的信息,共收录有超过350,000,000条记录(表1)。Entrez数据库支持使用简单的布尔查询(Booleanqueries)方式进行文本搜索,可以下载不同格式的数据资料,还可以按照生物学关系提供与其它相关记录的链接。这些链接给出的都是最简要的信息,例如会给出一条序列和报道该序列的论文摘要,或者会给出一条蛋白质序列的编码DNA序列或该蛋白质的3D结构图。这种通过计算机运算,即基于比较序列相似性或PubMed中摘要的相似性,所给出的相关链接信息可以以最快的速度提供给用户大量的相关信息。还有一种叫做“LinkOut”的功能将这种链接功能扩展到了与外部数据库,例如各物种基因组数据库之间的链接。Entrez中搜索到的数据可以以多种格式输出,也可以打包下载或逐个下载。2.2MyNCBIMyNCBI功能是为了方便用户储存个人配置信息,例如搜索条件、LinkOut参数或文件出处等而设的。用户登陆自己的MyNCBI帐户后,就可以进行保存搜索设置、管理邮件等操作了。MyNCBI中有一种称作“Collections”的功能可以让用户储存搜索结果和文献结果。BLAST中也设有类似的功能,这样用户就可以使用同一条件进行多次比对了。2.3Entrezprogrammingutilities(E-Utilities)E-Utilities(Entrez应用程序)由8种服务器程序组成,借助E-Utilities可以设置一套标准参数进行搜索、链接和下载数据(表2)。用户可以到NCBI主页上的‘EntrezTools’链接中了解更多有关E-Utilities的信息。2.4TaxonomyNCBITaxonomy(分类)数据库在Entrez生物学数据库中起到了组织中心的作用。该数据库为每一个分类学上的节点,从超界节点(superkingdoms)到亚种节点(subspecies),提供数据链接服务。分类数据库以每月增加2200个新分类单位的速度在增长,共收录有将近300,000种物种信息,这些信息为“属(genus)”级别,或者虽然未达到“属(genus)”级别,但在Entrez至少收录有一条该物种的核酸序列或蛋白质序列信息。使用Taxonomy网页可以了解该物种在分类学上的地位,也可以在某一物种范围内对Entrez数据库进行搜索。3BLAST序列相似性搜索程序BLAST程序是一种进行序列相似性搜索的程序,它可以对核酸序列或蛋白质序列进行分析。经过BLAST程序比对之后会得到各种序列结果,例如转录体序列(UniGene)信息、基因序列(Gene)信息、3D结构信息(MMDB)或芯片信息(GEO)等。用户也可以使用MyNCBI功能保留BLAST中设定的搜索题目、近期搜索结果和搜索参数等信息。还有一种BLAST程序——BLAST2Sequences程序,它可以对两条DNA序列或蛋白质序列进行比对,并获得一个点对点的比对结果。BLAST程序也可以作为一个独立的程序下载到本地计算机上使用,用户可以到ftp.ncbi.nih.gov/blast/executables/LATEST/下载(表3)。3.1BLASTBLAST默认的比对信息数据库包括NCBI中的人类基因组数据库和人类RefSeq数据库。比对之后,BLAST会按照评分高低、序列相似度对结果进行排序,另外BLAST还可以对小鼠数据库以及其它数据库进行比对。蛋白质序列的默认数据库包括GenBank非冗余数据库、RefSeq、Swiss-Prot、PDB、PIR和PRF等。此外,还包括这些数据库下的子数据库以及其它一些专利数据库和诸如核酸数据库等环境样品数据库(environmentalsamples)。3.2BLASToutputformats标准的BLAST输出格式包括默认的配对比对格式(defaultpairwisealignment)、搜索定位的多序列比对格式(query-anchoredmultiplesequencealignmentformats)、简单的可解析的HitTable格式以及按照分类学给出的报告格式等。一种叫做“按照同一性进行配对(Pairwisewithidentities)”的格式能更好地突出目标序列与检索序列之间的差别。而WebBLAST中提供的树状浏览格式则会按照搜索出的目标序列与检索序列之间的距离不同将这些目标序列进行聚类,形成一幅树状图来显示结果。BLAST比对之后给出的每一种格式的比对结果都会有一个分值和E值。用户也可以设定一个E值的阈值来筛选比对结果。3.3MegaBLASTMegaBLAST也是一种BLAST程序,不过它主要是用来在非常相似的序列之间(来自同一物种)比对同源性的。使用者通过网页使用MegaBLAST进行批量比对操作,这比使用标准的BLAST程序要快10倍。MegaBLAST在NCBI基因组BLAST页面下是默认的搜索工具,借助它能对增长迅速的TraceArchives数据库和标准BLAST使用的数据库进行快速检索。NCBI还为跨物种核酸序列快速搜索提供了DiscontiguousMegaBLAST,它使用非重叠群字段匹配算法(noncontiguouswordmatch)来进行核酸比对。DiscontiguousMegaBLAST比blastx等翻译后比对要快得多,同时它在比较编码区时也具有相当高的敏感度。3.4GenomicBLASTNCBI在MapViewer中还为100多个物种设有GenomicBLAST。通过默认的GenomicBLAST既能对某个物种的基因组序列进行搜索,也能对其它的数据库进行搜索,比如RefSeqs数据库、EST数据库等。4文献资源4.1PubMed数据库目前,PubMed数据库中收录有自1860年以来20,400种生命科学类杂志、刊物刊登过的超过1800万条的文献记录。这些文献中有980万

1 / 34
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功