NCBI:获取核酸和蛋白质序列数据本课程主要学习的内容1、获取文献信息和序列数据2、序列比对基础与BLAST入门3、核酸序列分析4、蛋白质序列分析及结构模拟5、系统发育分析6、基因组分析NCBI:获取核酸和蛋白质序列数据要想在NCBI中获取核酸和蛋白质的序列有多种路径(殊途同归)。本次课通过一个示例(RBP4)主要介绍一种方法。NCBI:获取核酸和蛋白质序列数据获取序列信息的途径何谓参考序列GenBank序列格式的读解示例假定我们对人类视黄醇结合蛋白4(retinol-bindingprotein4,RBP4)感兴趣,我们可能关心以下几个问题:想获取编码RBP4的mRNA(cDNA)序列获取RBP4核酸序列想获取RBP4这个蛋白质的氨基酸序列获取RBP4蛋白质序列想获取编码RBP4的基因信息获取RBP4基因(DNA)DNAmRNACentraldogmaofmolecularbiology复制转录翻译proteincDNARBP4路径1:直接通过NCBI主页的Search下拉条2、输入查询内容1、选择数据库GeneNucleotideProteinNucleotide数据库包括了……路径2:搜索所有数据库显示结果会是什么呢?NCBI的Entrez检索系统在所有数据库中搜索含有Rbp4的记录通过EntrezGene获取人类RBP4的参考序列(RefSeq)使用Limits功能限定种属为人类人类Rbp4基因HGNC人类基因命名委员会HPRD人类蛋白质参考库1.概要2.基因区域图3.基因定位图mRNAlinksDNAlinksProteinlinks4.NCBI参考序列RBP4蛋白质参考序列的链接RBP4mRNA参考序列的链接NCBI:获取核酸和蛋白质序列数据获取序列信息的途径何谓参考序列GenBank序列格式的读解RefSeq(ReferenceSequences,参考序列)GenBank中对应于某个基因(DNA)、mRNA(cDNA)或蛋白质的序列可能有上百个,但相应的RefSeq记录只有一个。RefSeq是NCBI将GenBank的序列再做详细整理的非冗余(non-redundent)序列。RefSeq对应于最稳定、最被人们承认因而也是最具代表性的序列。当存在可变剪切的情况下,一个基因的表达产物就会对应不止一个RefSeq记录。例如:humanmyoglobin(人类肌红蛋白)有3个RefSeq记录:RefSeq(ReferenceSequences,参考序列)NM_005368NM_203377NM_203378NP_005359NP_976311NP_976312当不同的基因编码的蛋白具有相同的氨基酸序列时,这些蛋白质具有各自不同的RefSeq标识符,例如:人类alpha-1globin和alpha-2globin基因编码的蛋白质其氨基酸序列相同,但分别具有各自的RefSeq标识符:NP_000549和NP_000508。RefSeq(ReferenceSequences,参考序列)4.NCBI参考序列点击RBP4mRNA参考序列的链接获取序列信息以GenBank序列格式显示RBP4mRNA序列的详细信息NCBI:获取核酸和蛋白质序列数据获取序列信息的途径何谓参考序列GenBank序列格式的读解以rbp4的mRNA(cDNA)参考序列为例GenBank序列格式(教材Page13~18)GenBank数据库采用的GenBank序列格式已经成为序列标准格式的一种。GenBank序列格式中对序列信息分不同的字段进行详细的标注,如序列的名称、性质、种属来源、相应的参考文献等。LOCUS:该字段所包含的内容从左至右依次为Locus名称:NM_006744序列长度:941bp分子类型:mRNA(cDNA)linear(线性)GenBank数据分类:PRI(灵长类序列)序列最后修改日期:01-MAR-2009GenBank数据分类(教材Page13~14,表2-3)GenBank将数据库分成18个部分:1.PRI–primatesequences灵长类序列2.ROD–rodentsequences啮齿类序列3.MAM–othermammaliansequences其他哺乳类序列GenBank数据分类4.VRT–othervertebratesequences其他脊椎动物序列5.INV–invertebratesequences无脊椎动物序列6.PLN–plant,fungal,andalgalsequences植物、真菌和藻类序列GenBank数据分类7.BCT–bacterialsequences细菌序列8.VRL–viralsequences病毒序列9.PHG–bacteriophagesequences噬菌体序列GenBank数据分类10.SYN–syntheticsequences人工合成的序列11.UNA–unannotatedsequences未经注释的序列12.EST–ESTsequences(expressedsequencetags)EST序列(表达序列标签)GenBank数据分类13.PAT–patentsequences专利序列14.STS–STSsequences(sequence-taggedsites)STS序列(序列标签位点)15.GSS–GSSsequences(genomesurveysequences)GSS序列(基因组调查序列)GenBank数据分类16.HTG–HTGSsequences(highthroughputgenomicsequences)HTGS序列(高通量基因组序列)17.HTC–HTCsequences(highthroughputcDNAsequences)HTC序列(高通量cDNA序列)18.ENV–environmentalsamplingsequences环境采样序列DEFINITION:简短的序列描述Homosapiensretinolbindingprotein4,plasma(RBP4),mRNA.ACCESSION:Accessionnumber(索引号)NM_006744序列记录的唯一识别码,通常为1个字母后跟5个数字(如U12345),或2个字母后跟6个数字(如AF123456)RefSeq(参考序列)的索引号比较特别索引号(AccessionNumbers)在数据库中,为了检索方便,DNA和蛋白质序列都被打上了索引号码作为标签。索引号码是一段由4~12个数字和/或字符组成的编码。除序列外,索引号码也可用作其他数据记录的标签,如蛋白质结构、基因表达实验的结果等。不同的数据库,索引号码的记录格式不同。TypesofAccessionNumbersTypesofAccessionNumbersRefSeq的索引号RefSeq记录的索引号通常由2个字母跟一下划线后再加6个或更多数字组成例如:NC_123456完整的基因组NT_123456基因组重叠群(contig)NM_123456mRNA(cDNA)NP_123456蛋白质TheRefSeqaccessionnumberformatandmoleculetypesTheRefSeqaccessionnumberformatandmoleculetypesVERSION:序列版本号及GI号NM_006744.3GI:55743121如果序列有任何改变,则版本号会增加,但前面的索引号不变。GI是“GeninfoIdentifier”的缩写,序列的任何改变都会被分配一个新的GI号。SOURCE:种属来源,学名(或俗名)Homosapiens(human)ORGANISM:种属的科学命名Homosapiens链接到NCBI的TaxonomyDatabaseREFERENCE:参考文献AUTHORS:作者TITLE:文献标题JOURNAL:发表的杂志名PUBMED:PMIDREMARK:注释链接到PubMedCOMMENT:评论FEATURES:序列信息表(序列特征表)有关基因和基因产物的信息,以及序列中具有生物学意义的区域,其中包含序列中生成蛋白质和RNA分子的密码区域和一些其他特征。FEATURES:序列信息表(序列特征表)source:每一条记录必须标注的序列特征,一般包括序列长度、序列来源、序列分子类型、物种分类进化树的位置及染色体定位等。gene:一段被确认为是基因的区域并且已经命名,内容主要有基因位置、基因名称以及到其他相关数据库的链接。*国际人类基因命名委员会(HomosapiensOfficialGeneSymbolandName,HGNC)链接到Gene外显子CDS:编码区(codingsequence),即在核酸序列中能翻译成蛋白质氨基酸序列的部分(有起始密码子和终止密码子)Protein_id=NP_006735.2编码蛋白的索引号信号肽成熟肽外显子ORIGIN:序列开始标志(该行为空行)//:序列结束标志选择FASTA格式(教材p11)FASTA格式示例至此,我们从寻找人类RBP4(视黄醇结合蛋白)的基因,顺藤摸瓜获得了它的mRNA(cDNA)序列,并同时获取了与该序列相关的诸多信息。现在,我们顺便也想获取RBP4的蛋白质序列,甚至蛋白质的三级结构,那么我们是否需要重新检索呢?蛋白质序列链接核酸序列页面Links链接核酸序列页面蛋白质序列链接核酸序列页面蛋白质序列页面蛋白质序列页面蛋白质结构链接示例至此,我们从寻找RBP4(人类视黄醇结合蛋白)的基因,顺藤摸瓜获得了它的mRNA(cDNA)序列,并同时获取了与该序列相关的诸多信息。进一步,我们通过相关链接顺便获取了RBP4的蛋白质序列,以及相关的蛋白质高级结构。Halfdayontheweb,halfmonthinthelab.savesyou-AlanBleasby