Blast使用入门于浩生物信息学第7/8讲1988年.PubmedlanlNCBIGenBankNIHNLMDOEGenomeBlastEntrae象风暴一样有力Pam250blosum62Fasta算法Blast算法DayhoffNeelleman-Wunsch算法HenikoffSmith-Waterman算法得分矩阵比对算法Pam矩阵blosum矩阵全局比对局部比对建立评分矩阵执行比对(动态规划算法)确定最佳途径Pam250blosum62Needleman-WunschSmith-Waterman当面向数据之海的时候,该怎么办?生物信息学:努力在数据的海洋里畅游BLAST(BasicLocalAlignmentSearchTool)isasetofsimilaritysearchprogramsthatexplorealloftheavailablesequencedatabasesforproteinorDNA.BLAST(基本局部相似性比对搜索工具)是一套用来探索可供使用的序列数据库中所有DNA或者蛋白质的相似性搜索程序Local:局部研究对象:DNA或者蛋白质搜多对象:数据库BLASTApplicationBLASTTheoryBLASTPracticeDatabaseSearching•Identifysimilaritiesbetweennovelquerysequenceswhosestructuresandfunctionsareunknownanduncharacterizedandsequencesin(public)databaseswhosestructuresandfunctionshavebeenelucidated•鉴定结构和功能未知或者特征未知新奇咨询序列与公共数据库中已经阐明了结构和功能的序列之间的相似性。DatabaseSearching•Thequerysequenceiscompared/alignedwitheverysequenceinthedatabase.•High-scoringdatabasesequencesareassumedtobeevolutionaryrelatedtothequerysequence.•Ifsequencesarerelatedbydivergencefromacommonancestor,therearesaidtobehomologous.•咨询序列与数据库中所有序列进行比对•得分高的序列被认为与咨询序列存在进化相关•如果序列都是从同一先祖趋异分化而来,那么它们是同源的(PhD,M.I.T.,1987)isaSeniorInvestigatorwithComputationalBiologyBranchoftheNCBI.TheprincipalauthorofBLAST,PSI-BLASTandPHI-BLASTDr.Altschul'scontributiontobioinformatics,evolutionarybiologyandcomputationalbiologyisalmostimmeasurable.Todaymorethan100,000BLASTsearchesareperformedeachdayonNCBIservers.Indeed,theoriginal1990BLASTpaperwasfarandawaythemostcitedscientificpaperofthelastdecade.Overthepastdecade,Dr.Altschulhasplayedacriticalroleindevelopingrobuststatisticalmethodsforassessingsequencesimilarity.Thesecontributions,whichwerekeytothedevelopmentofBLAST,notonlyenhancedthespeedwithsequencesearchingcouldbeperformed,butalsogreatlyimprovedthesensitivityofsequencesearches.WiththeintroductionofPSI-BLASTin1997,Dr.Altschulandco-workersonceagaindemonstratedhowthesmartuseofstatisticscanmakesequencesearchingatrulyawesomescientifictool.Altschul博士(1987年在MIT获得Phd)是NCBI计算生物学部门的高级研究员,是BLAST,PSI-BLAST和PHI-BLAST原理的创造者.Altschul博士对于生物信息学、进化生物学、计算生物学的贡献是不可估量的,时至今日,每天有超过100,000名的BLAST搜索者在使用NCBI的服务器,实际上,在过去的十年中,1990年的BLAST的原文献是被引用次数最多的科学文献.在过去的十年中,Altschul博士在发展评估序列相似性更有效的统计方法方面起到了重要作用,无论是提高搜索速度,还是加大相似序列间的敏感性上,这些贡献对于BLAST的发展是至关重要的,随着1997年PSI-BLAST的采用,Altschul博士和他的合作伙伴再一次展示了聪明地使用统计学是如何使得序列搜索变成了一个真实地、令人生畏的科学工具。QuerysequenceBlastDatabaseSubjectsequenceSubjectsequenceSubjectsequenceSubjectsequence……1.兼顾搜寻的速度以及搜寻结果的精确度2.BLAST使用启发式搜索代替动态规划算法来找出相关的序列,在速度上比完全只使用动态规划大约快上50倍左右引用次数:35799引用次数:36501引用次数:4179引用次数:12894Queryword移除Query序列中之低复杂度以及有串接重复现象的区域将长序列转换成短序列KNTMYVIIILTWNLTMTNDMKNHRCHSTTRTLMTNIRKTHKNTMYVIIILTWNLTMTNDMKNHRCHSTTRTLMTNIRKTHKNTMYVIIILTWNLTMTNDMKNHRCHSTTRTLMTNIRKTHKNTMYVIIILTWNLTMTNDMKNHRCHSTTRTLMTNIRKTHW=1W=4W=10W=40KNTMYVIIILTWNLTMTNDMKNHRCHSTTRTLMTNIRKTH需要一个类似Dayhoff矩阵的打分表将每一组字符看出一个字符,确立打分值ABCDEFGHIJ将Query序列中每k个字的组合做成一个表Blosum62打分矩阵•BLAST和FASTA之间很重要的一点不同处。FASTA关心所有在第二步中所找出的字组表上的每一个字组,它会去搜寻数据库中的序列,看看这些序列是否含有这些字组;然而,BLAST只对高分的一些字组有兴趣,而字组的分数是由依序比较字组间的每个字,再配合得分矩阵(substitutionmatrix或scoringmatrix)所产生的。因此,对于每一个字组而言,可能有20^3个BLAST可能关心的字组,当然这些字组经过一个门槛分数的筛选后,只有少数的字组会留下,而这些就是BLAST真正所关心的字组。举例来说,若以BLOSUM62为得分矩阵,则PQG分别和PEG以及PQA比较所得的分数是15以及12分,若门槛值是13,则PEG会留下来并被用于之后的步骤,而PQA则不被考虑。旧版的BLAST会从这个匹配的位置,分别向左右去扩展,直到比对出来的分数开始变小为止。•为了要维持搜寻的灵敏度,BLAST2使用比较低的门槛值以留下较多的高分字组,因此第3步的高分字组表会变的比较长。接着,如果在图3中以X代表的匹配字组是在同一个从左下往右上的对角线上,而且它们的距离是小于一个门槛值A,则这两个匹配的位置会被结合成一个更长的区域。最后,这个新的区域会用旧版BLAST向左右扩展的方式来延伸成HSP,而这个HSP的分数一样也是用得分矩阵来评分每一个比对的情形,并将这些分数加总起来,就跟之前找高分字组的方法一样为了更有效率,新版的BLAST被开发出来,叫做BLAST2或是GappedBLAST。核酸打分矩阵等价矩阵是最简单的一种打分矩阵,其中,相同核苷酸匹配的得分为“1”,而不同核苷酸的替换得分为“0”(没有得分)。BLAST是目前最流行的核酸序列比较程序,其打分矩阵是一个非常简单的矩阵,如果被比的两个核苷酸相同,则得分为“+5”,反之得分为“-4”。核酸打分矩阵BLAST矩阵核酸的碱基按照环结构分为两类,一类是嘌呤(腺嘌呤A,鸟嘌呤G),它们有两个环;另一类是嘧啶(胞嘧啶C,胸腺嘧啶T),它们的碱基只有一个环。如果DNA碱基的变化(碱基替换)保持环数不变,则称为转换(transition),如AG,CT;如果环数发生变化,则称为颠换(transversion),如AC,AT等。在进化过程中,转换发生的频率远比颠换高,转换-颠换矩阵正好反映了这种情况,其中转换的得分为“-1”,而颠换的得分为“-5”。核酸打分矩阵转换-颠换矩阵程序名查询序列数据库搜索方法Blastn核酸核酸核酸序列搜索逐一核酸数据库中的序列Blastp蛋白质蛋白质蛋白质序列搜索逐一蛋白质数据库中的序列Blastx核酸蛋白质核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。Tblastn蛋白质核酸蛋白质序列和核酸数据库中的核酸序列6框翻译后的蛋白质序列逐一比对。TBlastx核酸核酸核酸序列6框翻译成蛋白质序列,再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐一进行比对。BLAST能解决的1.确定特定的蛋白质和核酸序列有那些直系同源和旁系同源序列。2.确定哪些蛋白质和基因在特定的物种中出现。3.确定一个基因或者蛋白质的身份。4.发现新基因。5.确定一个特定基因有那些已经发现的变种。6.研究可能存在的多种剪切方式的表达序列标签。7.寻找对于一个蛋白质的功能和结构起关键作用的氨基酸残基。确定特定的蛋白质和核酸序列有那些直系同源和旁系同源序列•新发现的基因位于中央神经系统,它可以产生“胃泌素释放蛋白受体”(GRPR)。许多科学家都试图研究GRPR基因与疼痛知觉的相关性,并没有人将它与瘙痒联系起来。•在最新的研究中,由美国华盛顿大学医学院的华人遗传学家Zhou-FengChen领导的小组对GRPR基因进行了深入的研究。他们发现,GRPR仅存在于一些脊髓神经元中,而这些神经细胞能够将痛和痒的信号传递给大脑。进一步的研究表明,肌体产生疼痛知觉并不一定需要GRPR蛋白受体——失去GRPR基因的小鼠仍然能够对热量、炎症和机械伤害产生疼痛反应。•研究人员随后对GRPR基因突变的小鼠注射了组胺等痒诱导物质,从而确定了GRPR与痒知觉的相关性。他们发现,突变小鼠不会像正常小鼠一样到处乱挠。而当正常小鼠被注射仿GRPR蛋白功能的物质时,它们抓狂地更厉害了。•许多疾病,包括皮肤病和肿瘤都会引起慢性瘙痒,这是一项顽疾,而新的发现无疑将为瘙痒患者带来希望。脊柱内的GRPR蛋白(红色)。不同寻常的分子标靶寻找GRPR的同源基因GrprRattusnorvegicusGrprMusmusculusGRPRHomosapiensNMBRHomosapiensNmbrMusmusculusNmbrRattusnorvegicusBB4BombinaorientalisBRS3OvisariesBRS3CaviaporcellusBRS3HomosapiensBRS3Ma