ncbi使用基础手册专业资料

ddcubo
0 ℃
2022-01-01

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

NCBI资源简介本文目录：NCBI(美国国立生物技术信息中心)简介NCBI站点地图NCBI癌症基因组研究NCBI－CoffeeBreakNCBI－基因和疾病NCBI－UniGeneClusterofOrthologousGroupsofproteins（COG）简介GeneExpressionOmnibus（GEO）简介LocusLink简介关于RefSeq：NCBI参照序列NCBI(美国国立生物技术信息中心)简介简介理解自然无声但精妙关于生命细胞语言是当代分子生物学规定。通过只有四个字母来代表DNA化学亚基字母表，浮现了生命过程语法，其最复杂形式就是人类。阐明和使用这些字母来构成新“单词和短语”是分子生物学领域中心焦点。数目巨大分子数据和这些数据隐秘而精细模式使得计算机化数据库和分析办法成为绝对必要。挑战在于发现新手段去解决这些数据容量和复杂性，并且为研究人员提供更好便利来获得分析和计算工具，以便推动对咱们遗传之物和其在健康和疾病中角色理解。国立中心建立日后参议员ClaudePepper意识到信息计算机化过程办法对指引生物医学研究重要性，发起了在1988年11月4日建立国立生物技术信息中心（NCBI）立法。NCBI是在NIH国立医学图书馆（NLM）一种分支。NLM是由于它在创立和维护生物信息学数据库方面经验被选取，并且这可以建立一种内部关于计算分子生物学研究筹划。NCBI任务是发展新信息学技术来协助对那些控制健康和疾病基本分子和遗传过程理解。它使命涉及四项任务：建立关于分子生物学，生物化学，和遗传学知识存储和分析自动系统实行关于用于分析生物学重要分子和复合物构造和功能基于计算机信息解决，先进办法研究加速生物技术研究者和医药治疗人员对数据库和软件使用。全世界范畴内生物技术信息收集合伙努力。NCBI通过下面筹划来实现它四项目：基本研究NCBI有一种多学科研究小组涉及计算机科学家，分子生物学家，数学家，生物化学家，实验物理学家，和构造生物学家，集中于计算分子生物学基本和应用研究。这些研究者不但仅在基本科学上做出重要贡献，并且往往成为应用研究活动产生新办法源泉。她们一起用数学和计算办法研究在分子水平上基本生物医学问题。这些问题涉及基因组织，序列分析，和构造预测。当前研究筹划某些代表是：检测和分析基因组织，重复序列形式，蛋白domain和构造单元，建立人类基因组基因图谱，HIV感染动力学数学模型，数据库搜索中序列错误影响分析，开发新数据库搜索和多重序列对齐算法，建立非冗余序列数据库，序列相似性记录明显性评估数学模型，和文本检索矢量模型。此外，NCBI研究者还坚持推动与NIH内部其她研究所及许多科学院和政府研究实验室合伙。数据库和软件在1992年10月，NCBI承担起对GenBankDNA序列数据库责任。NCBI受过度子生物学高档训练工作人员通过来自各个实验室递交序列和同国际核酸序列数据库（EMBL和DDBJ）互换数据建立起数据库。同美国专利和商标局安排使得专利序列信息也被整合。GenBank是NIH遗传序列数据库，一种所有可以公开获得DNA序列注释过收集。GenBank同日本和欧洲分子生物学实验室DNA数据库共同构成了国际核酸序列数据库合伙。这三个组织每天互换数据。GenBank以指数形式增长，核酸碱基数目大概每14个月就翻一种倍。近来，GenBank拥有来自47,000个物种30亿个碱基。孟德尔人类遗传（OMIM），三维蛋白质构造分子模型数据库（MMDB），唯一人类基因序列集合（UniGene），人类基因组基因图谱，分类学浏览器，同国立癌症研究所合伙癌症基因组剖析筹划（CGAP）。Entrez是NCBI为顾客提供整合访问序列，定位，分类，和构造数据搜索和检索系统。Entrez同步也提供序列和染色体图谱图形视图。Entrez是一种用以整合NCBI数据库中信息搜寻和检索工具。这些数据库涉及核酸序列，蛋白序列，大分子构造，全基因组，和通过PubMed检索MEDLINE。Entrez一种强大和独特特点是检索有关序列，构造，和参照文献能力。杂志文献通过PubMed获得，PubMed是一种网络搜索界面，可以提供对在MEDLINE上九百万杂志引用访问，包括了链接到参加出版商网络站点全文文章。BLAST是一种NCBI开发序列相似搜索程序，还可作为鉴别基因和遗传特点手段。BLAST可以在不大于15秒时间内对整个DNA数据库执行序列搜索。NCBI提供附加软件工具备：开放阅读框寻觅器（ORFFinder），电子PCR，和序列提交工具，Sequin和BankIt。所有NCBI数据库和软件工具可以从来获得。NCBI尚有E-mail服务器，提供用文本搜索或序列相似搜索访问数据库一种可选办法。教诲和训练NCBI通过赞助会议，研讨会，和系列演讲来培养在应用于分子生物学和遗传学计算机领域科学交流。一种科学访问学者项目已经成立，来培养同外部科学家合伙。作为NIH内部某些研究项目，也提供博士后工作位置。NCBI站点地图---关于Database普通简介GenBankOverview基本信息什么是GenBank？GenBank是一种有来自于70,000各种生物核苷酸序列数据库。每条纪录均有编码区（CDS）特性注释，还涉及氨基酸翻译。GenBank属于一种序列数据库国际合伙组织，涉及EMBL和DDBJ。纪录样本-关于GenBank各个字段详细描述，以及同Entrez搜索字段交叉索引。访问GenBank-通过EntrezNucleotides来查询。用accessionnumber，作者姓名，物种，基因/蛋白名字，尚有许多其她文本术语来查询。关于Entrez更多信息请看下文。用BLAST来在GenBank和其她数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。此外一种选取是可以用FTP下载整个GenBank和更新数据。增长记录-参见发布告知2.2.6（每个分类记录），2.2.7（每个物种记录），2.2.8（GenBank增长）小节。发布告知，最新-近来和即将有变化，GenBank分类，数据增长记录，GenBank引用。发布告知，旧-同上相似，是过去发布记录。遗传密码-15个遗传密码概要。用来保证GenBank中纪录编码序列被对的翻译。（向）GenBank提交（数据）关于提交序列数据，收到accessionnumber，和对纪录作更新普通信息。BankIt-用于一条或者少数条提交基于提交工具软件。（请在提交前用VecScreen去除载体）Sequin-提交软件程序，用于一条或者诸多条提交，长序列，完整基因组，alignments，人群/种系/突变研究提交。可以独立使用，或者用基于TCP/IP“networkaware模”式，可以链接到其她NCBI资源和软件例如Entrez和PowerBLAST。（请在提交前用VecScreen去除载体）ESTs-表达序列标签，短、单次（测序）阅读cDNA序列。也涉及来自于差别显示和RACE实验cDNA序列。GSSs-基因组调查序列，短、单次（测序）阅读cDNA序列，exontrap获得序列，cosmid/BAC/YAC末端，及其她。HTGs-来自于大规模测序中心高通量基因组序列，未完毕（阶段0，1，2）和完毕（阶段3）序列。（注意：完毕人类HTG序列可以同步在GenBank和HumanGenomeSequencing页面上访问。）STSs-序列标签位点。短在基因组上可以被唯一操作序列，用于产生作图位点。注：SNPs-人类和其她物种遗传变异数据可以提交到NCBI数据库单核苷酸多态性库中（dbSNP）。国际核苷酸序列数据库合伙组织GenBank，DDBJ，EMBL-合伙筹划概述，并链接到相应主页。GenBank，DDBJ（DNADataBankofJapan），andEMBL（EuropeanMolecularBiologyLaboratory）数据库共享数据是每天都互换，因而她们是相等。数据纪录格式和搜索方式也许会不同样，但是accessionnumber，序列数据和注解都是一模同样。即，你可以用accessionnumberU12345在GenBank，DDBJ或EMBL中查找相应纪录，得到成果是完全同样序列数据，参照内容等等。DDBJ/EMBJ/GenBank特性表—特性表格式和原则被合伙数据库用在序列记录注释上，使得数据共享成为也许，涉及详细描述生物特性和特性限定语附录，以及IUPAC规定核苷酸和氨基酸代号。FTPGenBankandDailyUpdatesGenBank普通文献格式—参见GenBank记录样本和在GenBank发布告知中详细描述，下载大多数近来完全公示和寻常积累或非积累更新数据。ASN.1格式—摘要句法记号1，国际原则组织（ISO）数据表达格式，下载大多数近来完全公示和寻常积累或非积累更新数据。FASTA格式—定义行号后只跟随序列数据（示例），参见描述数据库readme文献，涉及nt.Z（每天更新非冗余BLAST核酸数据库，涉及GenBank+EMBL+DDBJ+PDB序列，但是不涉及EST，STS，GSS，orHTGS序列），nr.Z（每日更新非冗余蛋白质），est.Z，gss.Z，htg.Z，sts.Z,和其他文献。核酸序列Entrez核酸—用accessionnumber,作者姓名，物种，基因/蛋白名字，以及诸多其他文本术语来搜索核酸序列记录（在GenBank+PDB中）。更多关于Entrez信息见下。如果要检索大量数据，也可使用BatchEntrez（批量Entrez）。RefSeq—NCBI数据库参照序列。校正，非冗余集合，涉及基因组DNAcontigs，已知基因mRNAs和蛋白，在将来，整个染色体。Accessionnumbers用NT_xxxxxx，NM_xxxxxx，NP_xxxxxx，和NC_xxxxxx形式来表达。dbEST—表达序列标签数据库，短、单次（测序）阅读cDNA序列。也涉及来自于差别显示和RACE实验cDNA序列。dbGSS—基因组调查序列数据库，短、单次（测序）阅读cDNA序列，exontrap获得序列，cosmid/BAC/YAC末端，及其她。dbSTS—序列标签位点数据库，短在基因组上可以被唯一操作序列，用于产生作图位点。dbSNP—单核苷酸多态性数据库，涉及SNPs，小范畴插入/缺失，多态重复单元，和微卫星变异。完整基因组参见下面Genome和Maps某些，涉及各种物种资源，人，小鼠，大鼠，酵母，线虫，疟原虫，细菌，病毒，viroids，质粒。UniGene—被整顿成簇EST和全长mRNA序列，每一种代表一种特定已知或假设人类基因，有定位图和表达信息以及同其他资源交叉参照。序列数据可以以cluster形式在Unigene网页下载，完整数据可以从FTP站点repository/UniGene目录下下载。人类UniGene小鼠UniGene大鼠UniGene斑马鱼UniGeneBLAST—将你序列同核酸库中序列比较，检索相似序列。（更详细信息见下面Tools/Sequence相似搜索某些）蛋白序列Entrez蛋白—用accessionnumber,作者姓名，物种，基因/蛋白名字，以及诸多其他文本术语来搜索蛋白序列记录（在GenPept+Swiss-Prot+PIR+RPF+PDB中）。更多关于Entrez信息见下。如果要检索大量数据，也可使用BatchEntrez（批量Entrez）。RefSeq—NCBI数据库参照序列。Curated，非冗余集合涉及基因组DNAcontigs,已知基因mRNAs和蛋白，在将来，整个染色体。Accessionnumbers用NT_xxxxxx，NM_xxxxxx，NP_xxxxxx，和NC_xxxxxx形式来表达。FTPGenPept—下载“genpept.fsa.Z”文献，这个文献包括了从GenBank/EMBL/DDBJ记录中翻译过来FASTA格式氨基酸序