单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式1/77序列比对序列比对基本概念、打分矩阵与算法单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式2/77•序列比对的根本任务是:•发现序列之间的相似性•辨别序列之间的差异•目的:相似序列相似的结构,相似的功能判别序列之间的同源性推测序列之间的进化关系•••单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式3/77主要内容•一、概述•1、生物序列之间的关系•2、序列比对的概念•3、序列比对的意义•二、序列比对的得分系统•1、核酸的得分矩阵•2、蛋白质的得分矩阵•3、空位罚分体系•三、序列比对的算法单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式4/771、生物序列之间的关系•序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经序列内残基或者序列片段的替换、插入、缺失等遗传编译过程分别演化而来。•相似性高并不一定来自同一祖先。单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式5/77原序列:ACGTTAGCGCTAGCTGCTAGCTAG替换:ACGCTAGCGCTAGCTGCTAGCTAG插入:ACGCTAGCGCTAGCTAGCTAGCTAG缺失:ACGCTAGCGCAGCTGCTAGCTG单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式6/77同源性(homology)•同源性:两条序列有一个共同的进化祖先,那么它们是同源的。•相似性(similarity):序列间相似性的量度。•同源性是序列同源或者不同源的一种论断,而相似性或者一致性是二个序列相关性的量化,是两个不同的概念。两序列有90%的相似性两序列有90%的同源性单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式7/77•直系同源(orthology):不同物种内的同源序列。•旁系同源(paralogy):同一物种内的同源序列。单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式8/77人类与模式生物——小鼠因为他们各自的kit基因都存在缺陷单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式9/77基本概念:•序列:由一些字母组成的字符串,包括核酸和蛋白质序列。•字母表(alphabet),核酸序列(DNA序列)的字母表为ATGC,再加一个gap(-)。•gap空位。•字符串长度:AT-GGCC的长度为7。•子序列【可以非连续】或子串(subsequence):原序列中任意连续的一段序列,包括0长度和全长的序列。•随机序列:每个位置出现ATGC中任何一个字符的概率都是1/4。也就没有什么生物学方面的意义。非随机序列也就是有生物学意义的序列。•距离:两序列之间差异程度的一个量化数字,如两个序列完全相同则距离为0。2、序列比对的概念单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式10/77•序列比对(alignment),是根据特定的计分规则,将两个或多个符号序列按位置比较排列后,得到最具相似性的排列的过程。ACGCTAGCGCTAGCTGCTAGCTAGACGTTAGCGCTAGCTGCTAGCTAGACGCTAGCGCTAGCTGCTAGCTAGACGCTAGCGCAAGCTGCTAGCTG-ACGCTAGCGCAAGCTGCTAGCT-G单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式11/77Query:181catcaactacaactccaaagacacccttacacccactaggatatcaacaaacctacccac240|||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct:189catcaactgcaaccccaaagccacccct-cacccactaggatatcaacaaacctacccac247比对的三种情况匹配不匹配空位单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式12/77•序列比对(alignment),是根据特定的计分规则,将两个或多个符号序列按位置比较排列后,得到最具相似性的排列的过程。•计分规则:序列相似性的计算规则•规定匹配、不匹配、空位各自的得分•如:匹配:1不匹配:0空格:0ACGCTAGCGCTAGCTGCTAGCTAGACGCTAGCGCAAGCTGCTAGCTG-21ACGCTAGCGCTAGCTGCTAGCTAGACGCTAGCGCAAGCTGCTAGCT-G22单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式13/77•记分矩阵(scoringmatrix),即记分规则。•RawScore和Bitscore:比对得分。•记分矩阵不同,可能得到不同的结果。ATCG-A10000T01000C00100G00010-0000╳单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式14/77•全局比对:序列全长进行比对,寻找一个最佳的配对。•局部比对:子序列比对,只需要寻找局部的最佳匹配。•比对的统计显著性E值。•Algorithm算法。AATCTATAAAGATA单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式15/77序列比对的关键问题:记分矩阵算法单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式16/773、序列比对的意义•序列比对(alignment)是序列分析的基础,其他一切都建立在序列比对的基础上。•根据相似性推导可能的演化过程,确定亲缘关系,构建进化书。•最常见的是蛋白质序列之间或者核酸序列之间的两两比对。通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。•将多个序列同时比对,寻找这些有进化关系的序列之间共同的保守区域、位点和profile(概型),从而探索导致它们产生共同功能的序列模式(motif)。•把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架。•把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。•比对还是数据库搜索算法的基础。可以通过查询序列与整个数据库所有序列进行比对,从数据库中获得与其相似序列的已有数据,对于进一步分析其结构和功能会有很大的帮助。单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式17/77•确定特定的蛋白质或者核酸序列有哪些直系同源或旁系同源序列。【搜索整个数据库】•确定哪些蛋白质和基因在特定的物种中出现。•确定一个DNA或蛋白质序列身份。•发现新基因。•确定一个特定基因或者蛋白质有哪些已经被发现了的变种。•研究可能存在多种剪接方式的表达序列标签。•寻找对于一个蛋白质的功能和/或结构域起关键作用的氨基酸残基。单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式18/77二、序列比对的得分系统1、核酸的得分矩阵(WeightMatrices)•核酸打分矩阵设DNA序列所用的字母表为={A,C,G,T}Query:181catcaactacaactccaaagacacccttacacccactaggatatcaacaaacctacccac240|||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct:189catcaactgcaaccccaaagccacccct-cacccactaggatatcaacaaacctacccac247比对需要一个量化的分数。单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式19/771、核酸的得分矩阵(WeightMatrices)a.等价矩阵ATCGA1000T0100C0010G0001AGTCGAAATCGT4单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式20/771、核酸的得分矩阵(WeightMatrices)b.BLAST矩阵ATCGA5-4-4-4T-45-4-4C-4-45-4G-4-4-45AGTCGAAATCGT?12单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式21/771、核酸的得分矩阵(WeightMatrices)c.转换颠换矩阵(transition,transversion)(嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T)ATCGA1-5-5-1T-51-1-5C-5-11-5G-1-5-51AGTCGAAATCGT?-2单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式22/772、蛋白质打分矩阵•(i)等价矩阵•(ii)遗传密码矩阵GCM•(iii)疏水矩阵•(iv)PAM矩阵(PointAcceptedMutation)•(v)BLOSUM矩阵(BlocksAminoAcidSubstitutionMatrices)jijiRij01其中Rij代表打分矩阵元素i、j分别代表字母表第i和第j个字符。单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式23/77遗传密码矩阵通过计算一个氨基酸残基转变到另外一个氨基酸残基所需的碱基变化的最小数目而得到。单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式24/77疏水矩阵是根据氨基酸残基替换前后疏水性的变化而得到的矩阵。若一次氨基酸替换,疏水性不发生太大的变化,则这种替换得分高,否则替换得分低。蛋白质疏水矩阵单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式25/77PAM矩阵(PointAcceptedMutation)•基于进化的点突变模型,通过统计相似序列比对中的各种氨基酸替换发生率而得到该矩阵。•如果两种特定的氨基酸之间替换发生得比较频繁,那么这一对氨基酸在得分矩阵中的互换得分就比较高。•该记分矩阵科学,用得多。单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式26/77矩阵集合-----PAM-N如,PAM60矩阵用于比较相距60个PAM单位的序列。单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式27/77cstp单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式28/77针对不同的进化距离采用不同的PAM矩阵序列相似度=40%50%60%|||打分矩阵=PAM120PAM80PAM60PAM250→14%-27%单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式29/77BLOSUM62模块氨基酸替换矩阵单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式30/77BLOSUM90PAM30高相似度小鼠和大鼠RBPBLOSUM45PAM240低相似度小鼠和细菌的lipocali