序列比对基础与BLAST入门

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

序列比对基础与BLAST入门序列比对基础与BLAST入门教材Page68,第五章本次课重点讲BLAST的使用下次理论课对本次课的内容进行总结、补充和深化Yourtruevaluedependsentirelyonwhatyouarecomparedwith.—BobWells问题什么是序列比对?概念、目的、比对形式、基本原理序列比对有何用?应用怎样进行序列比对?算法、程序一、序列比对(alignment)的概念、目的比对(联配)将两条或多条(核苷酸或氨基酸)序列排列在一起,通过一定的算法找出序列之间最大相似性匹配的过程。ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT一、序列比对(alignment)的概念、目的序列比对的主要目的在于阐明序列之间的同源性关系,以及从已知序列预测新序列的结构和功能。多序列比对还可以确定一群分子之间共享的结构域(domain)或模体(motif)。序列比对基于一种生物学推断(进化论):相似性同源性相似的结构和功能(问题:相似性等于同源性吗?)相似性与同源性的关系相似性(similarity)是指两个序列之间的相关程度。比如说,A序列和B序列的相似性是85%。这是个量化的关系。同源性(homology):是指两个序列具有共同的祖先,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为85%则是不科学的。相似性与同源性的关系注意:序列相似不一定同源(相似可能是偶然的)序列不相似不一定不同源(高级结构相似)例如:肌红蛋白与β球蛋白是同源蛋白,两者的三维结构非常相似,但氨基酸序列的相似性不到40%。肌红蛋白β球蛋白相似性与同源性的关系总结:一般来说序列间的相似性越高的话,它们是同源序列的可能性就越大,所以经常可以通过序列的相似性来推测序列是否同源(统计学推断)。根据经验法则,序列长度大于100(bp或aa)时,蛋白质序列相似性程度需大于25%,核酸序列相似性程度需大于70%,才能判断同源性。同源序列的两种形式直系同源(Orthologs):在物种形成、分化过程中,由共同祖先基因衍生而来的同源基因(或蛋白)。直系同源物存在于不同物种间,如:人和鼠的肌红蛋白。旁系同源(Paralogs):在同一物种内,由于基因复制而产生的同源基因(或蛋白)。如:人类的α1球蛋白和α2球蛋白,人类的α球蛋白和β球蛋白。旁系同源直系同源同源序列的两种形式人α球蛋白与人β球蛋白?人α球蛋白与鼠α球蛋白?人α球蛋白与鼠β球蛋白?同源序列的两种形式代表了两个不同的进化事件。用于分子进化分析的序列必须是直系同源的,才能真实反映进化过程。Agroupofmyoglobinorthologs(直系同源)二、序列比对的形式双序列比对(pairwisealignment)简单的双序列比对序列对库的双序列比对多重序列的比对(Multiplesequencealignment)3条或3条以上的序列进行比对。主要用于构建系统发育树和蛋白质结构域研究等。BLAST三、序列比对的基本原理提出比对要考虑的问题专业算法(构建打分矩阵)数学编程计算机搜索数据库计算机给出比对结果(比对分数、显著性检验)打分序列比对要考虑的问题11、如何排列比较?(寻求序列之间最大相似性匹配!)我们不能够简单的将两个序列头尾对应的排比,而是对各种可能的排比方式都进行比较以找出最佳的比对结果。ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||||||||||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCATATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT序列比对要考虑的问题22、是否存在插入和缺失?(gap,空位罚分的问题教材Page71)连字号(-)标记插入或缺失的事件。----AT--GCAT--GCATGC--ATGCATATATATATAT----ATATAT----GCATGCATGCATGCATGC|||||||||||||||||||||||||||||||||||||||||||CGATCG--ATCG--AT--CG--------ATATATATATATGCATATATATGCATGCATGCATGCATATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT序列比对要考虑的问题33、是否存在氨基酸的保守性替换?(相似性打分的问题)通常在某些位点上有一些氨基酸被另外一些理化特性相似的氨基酸所代替,这种突变可称为保守性替换。保守性替换一般不会影响蛋白质的结构和功能。与核苷酸序列比对不同,氨基酸序列比对不仅要考虑残基是否相同,还要考虑残基是否相似以及相似的不同程度。LAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPE||.|:|||||:ALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD1.极性中性氨基酸2.碱性氨基酸氨基酸分类glycine甘氨酸GlyGalanine丙氨酸AlaAvaline缬氨酸ValVleucine亮氨酸LeuLisoleucine异亮氨酸IleIphenylalanine苯丙氨酸PheFproline脯氨酸ProPtryptophan色氨酸TrpWserine丝氨酸SerStyrosine酪氨酸TyrYcysteine半胱氨酸CysCmethionine甲硫氨酸MetMasparagine天冬酰氨AsnNglutarmine谷氨酰胺GlnQthreonine苏氨酸ThrTasparticacid天冬氨酸AspDglutarmicacid谷氨酸GluEarginine精氨酸ArgRhistidine组氨酸HisHlysine赖氨酸LysK非极性疏水性氨基酸极性中性氨基酸酸性氨基酸碱性氨基酸(芳香族氨基酸F、W、Y)(含硫氨基酸C、M)序列比对要考虑的问题44、全局比对还是局部比对?全局比对(globalalignment)对两条核苷酸或氨基酸序列的全长进行比对。局部比对(localalignment)对两条核苷酸或氨基酸序列的一部分进行比对。TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHRVQENFDVNKYLGTWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTVLPKLAGTWHSMAVNKYLGTWYEIE局部比对通常比全局比对更有意义因为它能发现序列中的保守区域序列比对要考虑的问题综上所述,序列比对并非简单的事情,比对之前需考虑诸多问题。这些问题的解决依赖于数学及计算机科学的帮助。三、序列比对的基本原理提出比对要考虑的问题专业算法(构建打分矩阵)数学编程计算机搜索数据库计算机给出比对结果(比对分数、显著性检验)打分问题什么是序列比对?概念、目的、比对形式、基本原理序列比对有何用?应用怎样进行序列比对?算法、程序四、序列比对(alignment)的应用序列比对的主要目的在于阐明序列之间的同源性关系,以及从已知序列预测新序列的结构和功能。评价实验结果,为实验提供新思路指导进一步的实验设计(鉴定一条序列的身份,预测其功能)寻找和鉴定新基因的重要手段蛋白质结构预测和分子设计的基础(同源建模)研究生物进化和种属分类的基本方法(系统发生分析)比较基因组分析问题什么是序列比对?概念、目的、比对形式、基本原理序列比对有何用?应用怎样进行序列比对?算法、程序五、局部序列比对的工具FASTABLAST1.简单的双序列比对2.序列对库的双序列比对今天你BLAST了吗?一般认为,BLAST运行速度快,对蛋白质序列的搜寻更为有效,FASTA速度较慢,对核酸序列更为敏感。NCBI-BLASTBasicLocalAlignmentSearchTool基本局部比对搜索工具(1990)TheBLASTalgorithmisfast,accurate,andweb-accessible.(教材Page74)一、BLAST搜索的基本步骤1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库4.选择可选参数PopularResources(常用资源)Step1:选择一个BLAST搜索类型Step1:选择一个BLAST搜索类型Step1:选择一个BLAST搜索类型NucleotideBLAST(blastn)1、确认一条DNA序列的身份2、寻找与查询序列相似的DNA序列1、Step1:选择一个BLAST搜索类型ProteinBLAST(blastp)1、确认一条蛋白质序列的身份2、寻找与查询序列相似的蛋白质序列2、Step1:选择一个BLAST搜索类型Translatednucleotidequeryvs.proteindatabase(blastx)查询一条DNA序列是否可能编码某种蛋白质3、Step1:选择一个BLAST搜索类型Proteinqueryvs.translatednucleotidedatabase(tblastn)查询一个DNA数据库中是否存在某些DNA序列,它们编码与查询序列相同或相似的蛋白。4、Step1:选择一个BLAST搜索类型Translatednucleotidequeryvs.translatednucleotidedatabase(tblastx)查询一个DNA数据库中是否存在某些DNA序列,它们与查询序列编码相同或相似的蛋白。5、Step1:选择一个BLAST搜索类型Step1:选择一个BLAST搜索类型Aligntwosequences(bl2seq)简单的两条序列的比对6、Step1:选择一个BLAST搜索类型blastn(Nucleotide-nucleotideBLAST)blastp(Protein-proteinBLAST)blastx(Translatedqueryvs.proteindatabase)tblastn(Proteinqueryvs.translateddatabase)tblastx(Translatedqueryvs.translateddatabase)bl2seq(Aligntwosequences)Step1:选择一个BLAST搜索类型ProgramInputDatabase1blastnDNADNA1blastpproteinprotein6blastxDNAprotein6tblastnproteinDNA36tblastxDNADNADNA可能编码六种蛋白质5’CATCAA…5’ATCAAC…5’TCAACT…5’GTGGGT…5’TGGGTA…5’GGGTAG…5’CATCAACTACAA...AAACCTACCCAC3’3’GTAGTTGATGTT...TTTGGATGGGTG5’Step1:选择一个BLAST搜索类型问题:为什么要将DNA序列翻译成蛋白质序列后进行比对?蛋白质序列比对能提供更多的信息,较之DNA序列比对,更能发现序列间的同源关系。1.密码子的简并性决定了蛋白质序列比对更符合实际情况;2.氨基酸的打分系统比碱基的复杂,因此其比对

1 / 116
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功