NCBI生物信息学数据库核酸序列数据库蛋白质序列数据库蛋白质结构数据库基因组数据库生物信息学数据库的分类NCBI生物信息学数据库欧洲分子生物学实验室的EMBL日本国立遗传研究所的DDBJ核酸序列数据库NCBIGenBank数据库结构作用:了解序列数据库的格式,有助于更好地提高数据库检索的效率和准确性。DDBJ数据库的内容和格式与GenBank相同,此处不作详细介绍。分别介绍EMBL和GenBank的数据库结构NCBIGenBank数据库数据注释()GenBank库包含所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。NCBI可提供广泛的数据查询、序列相似性搜索以及其它分析服务。数据库•序列文件:注释内容——文章•索引文件:检索目录——文摘NCBIGenBank数据库结构完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库数据格式为FastA。NCBIGenBank数据库结构GenBank中最常用的是序列文件。序列文件的基本单位:是序列条目,包括核苷酸碱基排列顺序和注释两部分。生物信息资源中心通过计算机网络提供该数据库文件。注释条目:文章的格式(查找页面NCBID31716描述部分NCBICDsarerecurringunitsinpolypeptidechains(sequenceandstructuremotifs),theextentsofwhichcanbedeterminedbycomparativeanalysis.Molecularevolutionusessuchdomainsasbuildingblocksandthesemayberecombinedindifferentarrangementstomakedifferentproteinswithdifferentfunctions.CDs编码序列,含终止密码子polyA_signal多聚A信号NCBID31716特性表序列本身关键字CDsarerecurringunitsinpolypeptidechainsNCBID31716序列本身NCBINCBI序列结束4859bpNCBID31716NCBIGenBank数据记录NCBIGenBank数据记录NCBIGenBank数据库结构GenBank序列文件由单个的序列条目组成。序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。字段分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记NCBIGenBank数据库结构序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个字段可占一行,也可以占若干行。若一行中写不下时,继续行以空格开始NCBIGenBank数据库物种:GenBank库里的数据按来源于大约100,000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)记录:每条GenBank数据记录包含对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,及序列本身NCBIGenBank数据库序列特征表:包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等分类:所有数据记录被划分为如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被分成若干文件NCBI注释内容序列条目关键字:•LOCUS(代码),•DEFINITION(说明),•ACCESSION(编号),•NID符(核酸标识),•KEYWORDS(关键词),•SOURCE(数据来源),•REFERENCE(文献),•FEATURES(特性表),•BASECOUNT(碱基组成)•ORIGIN(碱基排列顺序)。新版的核酸序列数据库将引入新的关键词SV(序列版本号),用“编号.版本号”表示,并取代关键词NIDNCBILOCUSLOCUS(代码):是该序列条目的标记,或者说标识符,•蕴涵这个序列的功能:如HUMCYCLOX表示人的环氧化酶。•序列长度•类型•种属来源•录入日期等说明字段是有关这一序列的简单描述NCBIACCESSIONACCESSION(编号):具有唯一性和永久性,在文献中引用这个序列时,应该以此编号为准。NCBIKEYWORDSKEYWORDS(关键词)字段:由该序列的提交者提供,包括•该序列的基因产物•其它相关信息NCBISOURCESOURCE(数据来源)字段:说明该序列是从什么生物体、什么组织得到的次关键字ORGANISM(种属):指出该生物体的分类学地位NCBIREFERENCEREFERENCE(文献)字段:说明该序列中的相关文献,包括•AUTHORS(作者),•TITLE(题目)及•JOURNAL(杂志名)等,以次关键词列出。MEDLINE的代码:该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。一个序列可有多篇文献,以不同序号表示,并给出该序列中哪一部分与文献有关。NCBIFEATURESFEATURES(特性表):具有特定的格式,用来详细描述序列特性。特性表中带有‘/db-xref/’标志的字符可以连接到其它数据库,如分类数据库(taxon9606),以及蛋白质序列数据库(PID:g181254)。序列中各部分的位置都在表中标明,5’非编码区,编码区,3’非编码区,多聚腺苷酸重复区域等。翻译所得信号肽以及最终蛋白质产物碱基含量字段,给出序列中的碱组成NCBIORIGINORIGIN行是序列的引导行下面便是碱基序列以双斜杠行“//”结束。NCBIGenBank数据库—数据库格式FASTA格式gi|1293613|gb|U49845.1|SCU49845SaccharomycescerevisiaeTCP1-betagene,partialcds;andAxl2p(AXL2)andRev7p(REV7)genes,completecdsGATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATAATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCT……(该序列没有完全列出)NCBIGenBank数据库—数据库格式(1)FASTA格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。大于号()表示一个新文件的开始结束用(//)FASTA格式并没有什么特殊的要求。NCBIFASTA格式序列的提交NCBIGenBank数据库—数据库格式(1)FASTA格式特点:•只存储了最少量的信息•它将所存储的信息转化为简单的字符串•人和计算机对其存储的信息都具有极大的可读性FASTA格式在许多分子生物学软件包中得到广泛应用。NCBIGenBank数据库—数据库格式(2)GenBank纯文本文件格式(GenBankflatfile,GBFF):GenBank、EMBL、DDBJ每天都相互同步更新各自的数据库,它们是怎样交换数据的呢?NCBIGBFF文件格式GBFF是GenBank数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一。NCBI头部中部尾部GENBANK纯文本文件格式LOCUSSCU498455028bpDNAPLN21-JUN-1999DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(REV7)genes,completecds.ACCESSIONU49845VERSIONU49845.1GI:1293613KEYWORDS.SOURCEbaker'syeast.ORGANISMSaccharomycescerevisiaeEukaryota;Fungi;Ascomycota;Hemiascomycetes;Saccharomycetales;Saccharomycetaceae;Saccharomyces.REFERENCE1(bases1to5028)AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.TITLECloningandsequenceofREV7,agenewhosefunctionisrequiredforDNAdamage-inducedmutagenesisinSaccharomycescerevisiaeJOURNALYeast10(11),1503-1509(1994)MEDLINE95176709REFERENCE2(bases1to5028)AUTHORSRoemer,T.,Madden,K.,Chang,J.andSnyder,M.TITLESelectionofaxialgrowthsitesinyeastrequiresAxl2p,anovelplasmamembraneglycoproteinJOURNALGenesDev.10(7),777-793(1996)MEDLINE96194260REFERENCE3(bases1to5028)AUTHORSRoemer,T.TITLEDirectSubmissionJOURNALSubmitted(22-FEB-1996)TerryRoemer,Biology,YaleUniversity,NewHaven,CT,USAFEATURESLocation/Qualifierssource1..5028/organism=Saccharomycescerevisiae/db_xref=taxon:4932/chromosome=IX/map=9CDS1..206/codon_start=3/product=TCP1-beta/protein_id=AAA98665.1/db_xref=GI:1293614/translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEAAEVLLRVDNIIRARPRTANRQHMgene687..3158/gene=AXL2CDS687..3158/gene=AXL2/note=plasmamembraneglyco