第三章序列相似性搜索一、序列相似性搜索的任务和目的1.序列相似性搜索的任务2.序列相似性搜索的目的二、同源和相似等相关慨念三、序列的BLAST分析四、专门的BLAST服务器五、序列的FASTA分析1.序列比较的任务:发现序列之间的相似性辨别序列之间的差异2.目的:相似序列→相似的结构,相似的功能判别序列之间的同源性推测序列之间的进化关系一、序列相似性搜索的任务和目的¾相似性(similarity):是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量。比如说,A序列和B序列的相似性是80%,或者4/5。这是个量化的关系。当然可进行自身局部比较。二、同源和相似等相关慨念¾同源性(homology):指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80%都是不科学的。相似性和同源性关系序列的相似性和序列的同源性有一定的关系,一般来说序列间的相似性越高的话,它们是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。一般认为,蛋白质序列间至少有80个氨基酸左右的区域有25%或更高的相似性;DNA序列具有75%以上的相似性有潜在的生物学意义。正因为存在这样的关系,很多时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80%一说。序列相似性比较和序列相似性比较和序列同源性分析序列同源性分析序列相似性比较:序列相似性比较:就是将待研究序列与就是将待研究序列与DNADNA或蛋白质序列库进行比较,或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有比较算法。常用的程序包有BLASTBLAST、、FASTAFASTA等;等;序列同源性分析:序列同源性分析:是将待研究序列加入到一组与之同源,但来自不同物是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性。这是理论分析方法中最关键的一步。序列间的同源性。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包完成这一工作必须使用多序列比较算法。常用的程序包有有CLUSTALCLUSTAL等;等;三、序列的BLAST分析1.1.相似序列搜索相似序列搜索的一般步骤的一般步骤BLAST(BasicLocalAlignmentSearchTool)allowsrapidsequencecomparisonofaquerysequenceagainstadatabase.BLASTBLAST是由美国国立生物技术信息中心(是由美国国立生物技术信息中心(NCBINCBI))开发的一个基于开发的一个基于序列相似性序列相似性的数据库搜索程序。是的数据库搜索程序。是一种一种基本局域联配搜寻工具。TheBLASTalgorithmisfast,accurate,andweb-accessible.2.BLASTWebsiteofBLAST(BLAST2.0)(WU-Blast2)(WU-Blast2)2.1Blast2.1Blast的算法基础的算法基础¾¾BLASTBLAST算法本身很简单,它的基本要点是算法本身很简单,它的基本要点是序列序列片段对(片段对(segmentpairsegmentpair))的概念。所谓序列的概念。所谓序列片段对是指两个给定序列中的一对子序列,片段对是指两个给定序列中的一对子序列,它们的长度相等,且可以形成无空位的完全它们的长度相等,且可以形成无空位的完全匹配(匹配(blast2.0blast2.0引入了允许插入引入了允许插入gapgap的算的算法)。法)。¾¾BLASTBLAST算法首先找出代查序列和目标序列间所算法首先找出代查序列和目标序列间所有匹配程度超过一定阈值的序列片段对,然有匹配程度超过一定阈值的序列片段对,然后对具有一定长度的片段对根据给定的相似后对具有一定长度的片段对根据给定的相似性阈值延伸,得到一定长度的相似性片段,性阈值延伸,得到一定长度的相似性片段,称高分值片段对(称高分值片段对(highhigh--scoringpairs,scoringpairs,HSPsHSPs)。)。BlastBlast的算法流程的算法流程要对两个序列进行排比,必须首先打出其相似性要对两个序列进行排比,必须首先打出其相似性的定量分值的定量分值,,于是需要一个打分矩阵。于是需要一个打分矩阵。打分矩阵打分矩阵(ScoringMatrices):(ScoringMatrices):给不同的氨基酸配对定义的一系列相似性分值。而一给不同的氨基酸配对定义的一系列相似性分值。而一个突变打分方案个突变打分方案(mutationdatamatrix)(mutationdatamatrix)则是根据排比则是根据排比时序列中点突变的情况设计出的打分方案。时序列中点突变的情况设计出的打分方案。对氨基对氨基酸配对相似性的尺度衡量,例如苯丙氨酸和异亮氨酸配对相似性的尺度衡量,例如苯丙氨酸和异亮氨酸相似性的定量标准,可以以多种方式来定义。因酸相似性的定量标准,可以以多种方式来定义。因此,设计一个打分矩阵,首先必须确定用什么算法此,设计一个打分矩阵,首先必须确定用什么算法模型。在序列排比分析中,打分矩阵只是某个算法模型。在序列排比分析中,打分矩阵只是某个算法模型的量化表现,排比的结果只在该算法模型所划模型的量化表现,排比的结果只在该算法模型所划定的范围内有意义。定的范围内有意义。2.2SubstitutionMatrix简单打分矩阵简单打分矩阵:单一打分矩阵和遗传密码:单一打分矩阵和遗传密码打分矩阵。打分矩阵。目前使用昀简单的打分矩阵就是目前使用昀简单的打分矩阵就是匹配打分矩阵匹配打分矩阵(identitymetric)(identitymetric)。如果两个氨基。如果两个氨基酸相同,就打一个分值,不同就打另一个分酸相同,就打一个分值,不同就打另一个分值,不管替换的情况。例如,相同就打一值,不管替换的情况。例如,相同就打一分,不同就打分,不同就打00分,这就是昀简单常用的分,这就是昀简单常用的单一单一打分矩阵。打分矩阵。当然,也可以相同打当然,也可以相同打+6+6分,不同分,不同打打--11分。分。Asubstitutionmatrixcontainsvaluesproportionaltotheprobabilitythataminoacidimutatesintoaminoacidjforallpairsofaminoacids.Substitutionmatricesareconstructedbyassemblingalargeanddiversesampleofverifiedpairwisealignments(ormultiplesequencealignments)ofaminoacids.Substitutionmatricesshouldreflectthetrueprobabilitiesofmutationsoccurringthroughaperiodofevolution.ThetwomajortypesofsubstitutionmatricesarePAMandBLOSUM.2.2SubstitutionMatrix2.2.1PAM2.2.1PAMDayhoffDayhoff及其同事引入了一个概念及其同事引入了一个概念““被接受的被接受的点突变点突变””(acceptedpointmutation)(acceptedpointmutation)来表示来表示进化过程中被稳定到基因库进化过程中被稳定到基因库(genepool)(genepool)中中的突变。据此可以定义两个序列进化距离的的突变。据此可以定义两个序列进化距离的尺度:尺度:PAMPAM(Percentacceptedmutation)(Percentacceptedmutation)突变接受率。一个突变接受率。一个PAMPAM就是在比较的序列里就是在比较的序列里每一百个氨基酸残基中有一个被接受的点突每一百个氨基酸残基中有一个被接受的点突变。变。OtherPAMmatricesareextrapolatedfromPAM1.ForPAM250,250changeshaveoccurredfortwoproteinsoveralengthof100aminoacids.为了找出序列中被接受的点突变,一个包括所为了找出序列中被接受的点突变,一个包括所有祖先序列的进化树必须先勾画出来。为了避有祖先序列的进化树必须先勾画出来。为了避免有太大的不确定值,免有太大的不确定值,DayhoffDayhoff及同事将他们的及同事将他们的分析限制在有分析限制在有85%85%同一性的序列。因为在这些高同一性的序列。因为在这些高度同源的蛋白质序列之间进化距离比较小,因度同源的蛋白质序列之间进化距离比较小,因此勾画进化树时就不会有太多复杂的假设。此勾画进化树时就不会有太多复杂的假设。ComparingtwoproteinswithaPAM1matrixgivescompletelydifferentresultsthanPAM250!Considertwodistantlyrelatedproteins.APAM40matrixisnotforgivingofmismatches,andpenalizesthemseverely.Usingthismatrixyoucanfindalmostnomatch.APAM250matrixisverytolerantofmismatches.hsrbp,136CRLLNLDGTCbtlact,3CLLLALALTC******24.7%identityin81residuesoverlap;Score:77.0;Gapfrequency:3.7%rbp426RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDVbtlact21QTMKGLDIQKVAGTWYSLAMAASD-ISLLDAQSAPLRVYVEELKPTPEGDLEILLQKWEN************rbp486--CADMVGTFTDTEDPAKFKMbtlact80GECAQKKIIAEKTKIPAVFKI*******WhichPAMmatrixshouldoneuseforaproteindatabaseWhichPAMmatrixshouldoneuseforaproteindatabasesearch?search?¾¾如果只打算用一种矩阵,如果只打算用一种矩阵,PAM120PAM120矩阵是昀常用的。如想结果矩阵是昀常用的。如想结果更全面更有效则应该使用多个矩阵。用三个矩阵:更全面更有效则应该使用多个矩阵。用三个矩阵:PAM40PAM40、、PAM120PAM120、、PAM250PAM250,可得出全面覆盖的结果。只用,可得出全面覆盖的结果。只用PAM80PAM80和和PAM200PAM200两个矩阵也可达到较好的覆盖面。两个矩阵也可达到较好的覆盖面。¾¾如果兴趣不在数据库查找而想做两个已知是相关的序列的比如果兴趣不在数据库查找而想做两个已知是相关的序列的比较,多用几个不同的较,多用几个不同的PAMPAM矩阵会得到较好的结果。如果只做单矩阵会得到较好的结果。如果只做单一个