生物信息学-02序列查询和提交

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第二章序列查询和提交一、序列信息的查询1.Acessionnumbers2.获取序列的四种方法二、序列信息的提交一、序列信息的查询Themesthroughoutthecourse:gene/proteinfamiliesWewilluseretinol-bindingprotein4(RBP4,视黄醇结合蛋白)asamodelgene/proteinthroughoutthecourse.RBP4isamemberofthelipocalinfamily(脂质运载蛋白).Itisasmall,abundantcarrierprotein.Wewillstudyitinavarietyofcontextsincluding--sequencealignment--geneexpression--proteinstructureWewillalsouseotherexamples,suchastheglobinsandthepolproteinofHIV-1AccessionnumbersarelabelsforsequencesNCBIincludesdatabases(suchasGenBank)thatcontaininformationonDNA,RNA,orproteinsequences.Youmaywanttoacquireinformationbeginningwithaquerysuchasthenameofaproteinofinterest,ortherawnucleotidescomprisingaDNAsequenceofinterest.DNAsequencesandothermoleculardataaretaggedwithaccessionnumbersthatareusedtoidentifyasequenceorotherrecordrelevanttomoleculardata.Whatisanaccessionnumber?Anaccessionnumberislabelthatusedtoidentifyasequence.Itisastringoflettersand/ornumbersthatcorrespondstoamolecularsequence.Examples(allforretinol-bindingprotein,RBP4):X02775GenBankgenomicDNAsequenceNT_030059GenomiccontigRs7079946dbSNP(singlenucleotidepolymorphism)N91759.1Anexpressedsequencetag(1of170)NM_006744RefSeqDNAsequence(fromatranscript)NP_006735RefSeqproteinAAC02945GenBankproteinQ28369SwissProtprotein1KT7ProteinDataBankstructurerecordproteinDNARNARs7079946NP_006735[1]EntrezGenewithRefSeq:用于提取序列信息,很好的查询、提取和显示系统[2]UniGene:给出基因序列、以及图谱信息、同源基因、表达信息【NCBI】[3]EuropeanBioinformaticsInstitute(EBI)andEnsembl(separatefromNCBI)[4]ExPASySequenceRetrievalSystem(separatefromNCBI)获得获得DNADNA和蛋白质序列的几种途径和蛋白质序列的几种途径[1]EntrezGenewithRefSeq:用于提取序列信息,很好的查询、提取和显示系统【NCBI】Entrez—对GenBank,EMBL,DDBJ,PIR-International,PRF,Swiss-Prot,andPDB数据库中的核酸和蛋白,包括了来自〉70000个物种的序列数据提供整合的访问,同时提供对3D蛋白结构,基因组图谱信息和PubMedMEDLINE的访问。Entrez包含了对每个数据库记录的预先计算好的相似搜索,产生一个相关序列,结构,和MEDLINE记录的表。Entrez可以用很广泛的文本方式来搜索,比如作者名字,杂志名字,基因或蛋白名字,物种,唯一的标号(如:accessionnumber,序列ID,PubMedID,MEDLINEUID),和其他的术语,根据被搜索的数据库来确定。使用新的Linkout服务,外部资源可以被链接到Entrez纪录。获得获得DNADNA和蛋白质序列的几种途径和蛋白质序列的几种途径TheReferenceSequence(TheReferenceSequence(RefSeqRefSeq))参考序列(refseq)旨在提供一个全面,综合的,非冗余的一套序列,其中包括基因组DNA,mRNA及蛋白质的序列。refseq是医学,功能性,多样性研究的基石,他们为基因组注释,基因识别和表征,突变及多态性分析,表达的研究以及比较分析提供一个可靠的参考。(MouseandHumanGenomes)NC_123455Chromosome(MicrobialGenomes)NCBIDerivativeSequenceDatabases:RefSeqNCBIDerivativeSequenceDatabases:RefSeq(topofpage)NotethatlinkstomanyotherRBP4databaseentriesareavailableEntrezGene(middleofpage)EntrezGene(bottomofpage)添加学术术语PreviewIndex[1]EntrezGenewithRefSeq[2]UniGene:给出基因序列、以及图谱信息、同源基因、表达信息【NCBI】[3]EuropeanBioinformaticsInstitute(EBI)andEnsembl(separatefromNCBI)[4]ExPASySequenceRetrievalSystem(separatefromNCBI)获得获得DNADNA和蛋白质序列的几种途径和蛋白质序列的几种途径DNARNAcomplementaryDNA(cDNA)proteinUniGeneUniGene:uniquegenesviaESTsUniGeneclusterscontainmanyexpressedsequencetags(ESTs,表达序列标签),whichareDNAsequences(typically500basepairsinlength)correspondingtothemRNAfromanexpressedgene.ESTsaresequencedfromacomplementaryDNA(cDNA)library.UniGenedatacomefrommanycDNAlibraries.Thus,whenyoulookupageneinUniGeneyougetinformationonitsabundanceanditsregionaldistribution.(Human)ClustersizeNumberofclusters1≈8,100238,2003-423,3005-812,0009-165,60017-323,700≈500-10001,050≈2000-4000100≈8000-16,00012≈16,000-30,0002UniGene:uniquegenesviaESTsConclusion:UniGeneisausefultooltolookupinformationaboutexpressedgenes.UniGenedisplaysinformationabouttheabundanceofatranscript(expressedgene),aswellasitsregionaldistributionofexpression(e.g.brainvs.liver).[1]EntrezGenewithRefSeq[2]UniGene[3]EuropeanBioinformaticsInstitute(EBI)andEnsembl(separatefromNCBI)[4]ExPASySequenceRetrievalSystem(separatefromNCBI)获得获得DNADNA和蛋白质序列的几种途径和蛋白质序列的几种途径EnsembltoaccessproteinandDNAsequences条记录[1]EntrezGenewithRefSeq[2]UniGene[3]EuropeanBioinformaticsInstitute(EBI)andEnsembl(separatefromNCBI)[4]ExPASySequenceRetrievalSystem(separatefromNCBI)获得获得DNADNA和蛋白质序列的几种途径和蛋白质序列的几种途径ExPASytoaccessproteinandDNAsequences(ExPASy=ExpertProteinAnalysisSystem)http://

1 / 62
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功