05_1技术

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

生物信息学第五讲:序列比较II2013.3.27数据库中的序列相似性搜索在麻将连连看中,你需要用眼睛从一推麻将牌中找出一对相同的麻将牌。序列相似性搜索数据库中的序列相似性搜索对于一个蛋白质或DNA序列,你需要从序列数据库中找到与它相同或相似的序列。不可能再用眼睛去比较每一对序列,因为数据库中有太多序列,甚至用眼睛比较一对序列都是不可能做到的。……100,000BLAST序列相似性搜索BLAST(BasicLocalAlignmentSearchTool,基本局部比对搜索工具)是目前最常用的数据库搜索程序。国际上各著名的生物信息数据库网站都提供基于web的BLAST在线服务。BLAST基本原理很简单,它的要点是片段对的概念。所谓片段对是指两个给定序列中的一对子序列,它们的长度相等,且可以形成无空位的完全匹配。KSDFGETSIVATGGSTE|||||||||NEFGETSLIATGGNPABLAST首先找出探测序列和目标序列间所有的匹配程度超过一定阈值的序列片段对,然后对片段对根据给定的相似性阈值进行延伸,得到一定长度的相似性片段,最后给出高分值片段对(high-scoringpairs,HSPs)。改进后的BLAST允许空位的插入。KSDFGETSIVATGGSTE::|||||::||||:NEFGETSLIATGGNPA高分值片段对BLAST搜索BLAST实际上是综合在一起的一组程序的统称,它不仅可用于直接对蛋白质序列数据库和核酸序列数据库进行搜索,而且可以将探测序列翻译成蛋白质后再进行搜索,或反之,以提高搜索效率。blastp:用蛋白质探测序列搜索蛋白质序列数据库blastn:用核酸探测序列搜索核酸序列数据库blastx:将核酸序列按6条链翻译成蛋白质序列后搜索蛋白质序列数据库tblastn:用蛋白质探测序列搜多核酸序列数据库,核酸序列按6条链翻译成蛋白质。tblastx:将核酸序列按6条链翻译成蛋白质序列后搜索由核酸序列数据库按6条链翻译成的蛋白质序列的数据库。BLAST搜索TheNCBIBLASTserver搜索TheNCBIBLASTserver:BLASTp搜索探测序列:blast.fastaTheNCBIBLASTserver:BLASTp多条序列TheNCBIBLASTserver:BLASTp搜索探测序列:blast.fasta选择备搜的数据库TheNCBIBLASTserver:BLASTp搜索把搜索范围限定在某一特定物种,比如:人。或者排除某一物种选择算法TheNCBIBLASTserver:BLASTp搜索第一部分:搜索任务描述TheNCBIBLASTserver:BLASTp搜索探测序列的蛋白质家族分类第二部分:图形化搜索结果……TheNCBIBLASTserver:BLASTp搜索所有搜索到的相似序列已不同颜色及长短的线列出第三部分:详细列表……点击查看探测序列和该目标序列的双序列比对点击进入数据库查看该条目的详细注释TheNCBIBLASTserver:BLASTp越接近零,说明探测序列与该目标序列为同一条序列的可能性越大第四部分:序列比对TheNCBIBLASTserver:BLASTp搜素还是不能满足需要。比如,你想通过一条蛋白质序列,搜罗出一个庞大的蛋白质家族。如果运行基本的BLAST搜素,你只能找到那些和探索序列十分相近的序列,而其他那些远亲就找不到了。换言之,你找到了你直接认识的朋友,而朋友的朋友都丢掉了。PSIBLAST(Position-SpecificIteratedBLAST,位点特异性迭代BLAST)升级的BLAST:PSI-BLASTPSI-BLAST的特色是每次用位置特异权重矩阵(Position-SpecificScoringMatrix,PSSM)搜索数据库后再利用搜索的结果重新构建PSSM,然后用新的PSSM再次搜索数据库,如此反复(iteration)直至没有新的结果产生为止。Seq1:ABCDSeq2:BBCDSeq3:ACCDSeq4:ABDD1234A75%000B25%75%00C025%75%0D0025%100%TheNCBIBLASTserver:PSI-BLAST探测序列:blast.fastaTheNCBIBLASTserver:PSI-BLAST第一轮搜索的结果和常规BLAST是一样的。TheNCBIBLASTserver:PSI-BLAST:sequencescoringbelowthresholdonperviousiterationTheNCBIBLASTserver:PSI-BLAST直接跳到第一条新找到的序列,即第一条黄色序列PHI-BLAST(Pattern-HitInitiatedBLAST,模式识别BLAST):能找到与查询序列相似的并符合某种模式(pattern)的蛋白质序列。符合模式:[LIVMF]-G-E-x-[GAS]-[LIVM]-x(3,7)Yes:VGEAAMPRINo:VGEAAYPRI模式序列可能代表是一个酶的活性位点,一个蛋白质家族的结构或者功能域的氨基酸序列。升级的BLAST:PHI-BLASTTheNCBIBLASTserver:PHI-BLAST探测序列:phi_blast.fastaBLASTPSI-BLASTPHI-BLASTQueryBLAST搜索BLASTServersaroundtheWorldLocationServerURLUSANCBI://web.expasy.org/blastEuropeEBI://blast.ddbj.nig.ac.jpWU-BLAST-WU代表WashingtonUniversity.比NCBI-BLAST更灵敏,在插入空位的算法上更灵活。SmithandWaterman(SSEARCH):有点儿慢,但是比BLAST更准确。FASTA:有点儿慢,但是对于DNA序列的比较比BLAST更准确。BLAT:用于比较小的序列(如cDNA等)对大基因组的比对。互联网上的免费搜索工具BLAST搜索序列标识图(SequenceLogos)序列标识图以图形的方式依次绘出序列比对中各个位置上出现的碱基/氨基酸,每个位置上碱基/氨基酸的累积可反应出该位置上碱基的一致性,每个碱基字母的大小与碱基/氨基酸在该位置上出现的频率成正比。但图形字符的大小并非直接代表频率百分比,而是经过简单统计计算后转化的结果。一款流行的创建序列标识图的软件:WebLogo寻找保守区域对于某一列来说:每个字母的高度Height=fi*R(i=1,…,20)(f是出现频率)R=log2(20)–(entropy+en)entropy=-∑fi*log2(fi)en=(20-1)/2*ln(2)*nentropy:熵en:小样本检验修正TRVGNYEMGRTLGEGSFAKVKYAKNTVTGDQAAIKTRVGNYEMGRTLGEGSFAKVKYAKNTVTGDQAAIKTRVGNYEMGRTLGEGSFAKVKYAKNTVTGDQAAIKKQTISYMAERVVGTGSFGIVFQAKCLETGESVAIKKQTISYMAERVVGTGSFGIVFQAKCLETGESVAIKVVGGKFKLGRKLGSGSFGEIFLGVNVQTGEEVAVKVIGGKFKLGRKIGSGSFGELYLGINVQTGEEVAVKVSKKYVPPLRPIGRGASGIVCAAWNSETGEEVAIKMGADDFELLTMIGKGAFGEVRVVREINTGHVFAMK寻找保守区域序列标识图(SequenceLogos)序列标识图:WebLogo序列标识图:WebLogo寻找保守区域序列标识图:WebLogo序列标识图:WebLogo寻找保守区域在真核生物和古细菌的转录启动子上,有一个特殊的DNA片段,叫做TATAbox.这段序列通常是5‘-TATAAT-3’或者略有变化。TATAbox是RNA聚合酶的结合位点。利用Weblogo,可以快速、直观地找到这一结合位点的位置。序列标识图:WebLogo寻找保守区域在核酸/蛋白质序列中存在有特定模式的序列片段,这些片段称为序列基序。序列基序与生物功能密切相关。例如,N-糖基化位点基序(N-glycosylationsitemotif)总是符合以下特定模式:以Asn开始,然后紧跟除了Pro之外的任何一个氨基酸,再紧跟Ser或者Thr,再紧跟除Pro外的任何一个氨基酸。这个特定模式可通过正则表达式(Regularexpression)来表述:N{P}[ST]{P}其中N=Asn,P=Pro,S=Ser,T=Thr;{X}代表除X外的任意氨基酸;[XY]代表X或者Y。序列基序(sequencemotif)寻找保守区域一款可以自动从一组相关的DNA或蛋白质序列中发现序列基序的软件:序列基序:MEME寻找保守区域meme.seqs序列基序:MEME寻找保守区域序列基序:MEME寻找保守区域序列基序:MEME寻找保守区域125序列基序:MEME寻找保守区域序列基序:MEME寻找保守区域BB-LoopBB-Loop–是该类蛋白质之间相互结合的重要位

1 / 40
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功