1实习三相似序列的数据库搜索BLAST/FASTA一、实习目的掌握BLAST和FASTA数据检索方法。二、实习内容BLAST和FASTA程序是目前最常用的基于局部相似性的数据库搜索程序,它们都基于查找完全匹配的短小序列片段,并将它们延伸得到较长的相似性匹配。它们的优势在于可以在普通的计算机系统上运行,而不必依赖计算机硬件系统而解决运行速度问题。(一)BLASTBLAST(BasicLocalAlignmentSearchTool)是NCBI提供的进行序列相似性搜索的工具。BLAST算法得基本思路是首先找出检测序列和目标序列之间相似性程度最高得片段,并作为内核向两端延伸,以找出尽可能长得相似序列片段。BLAST程序之所以使用广泛,主要因为其运行速度比FASTA等其它数据库搜索软件要快。与ENTREZ提供的文本搜索不同,BLAST以核酸或蛋白质序列作为搜索条件(query),搜索指定数据库中与query相似度较高,甚至同源的序列。(二)BLASTPPSI-Blast和PHI-Blast是在普通BLAST的基础上发展起来的两个新程序,是将双序列比对和多序列比对结合在一起的数据库搜索方法,可通过多次迭代搜索出蛋白质家族或超家族中序列相似性较低的成员,弥补了普通BLAST难于找到进化距离较远的同源序列的不足。PSI-Blast程序的主要思想是通过多次迭代找出最佳结果。第一次blast搜索后,利用结果中最相似的序列重新构建位点特异性打分矩阵(PSSM),然后再使用该矩阵进行第二轮blast搜索,再调整矩阵,搜索,如此迭代,直到找出最佳搜索结果。最终高度保守的区域就会得到比较高的分值,而不保守的区域则分数降低。这样可以提高blast搜索的灵敏度,从而有利于发现进化距离较为遥远的同源序列。三、作业在NCBI上搜索拟南芥(Arabidopsisthaliana)的ATPsulfurylase的核酸和蛋白质序列,用它尝试进行BLASTN和PSI-BLAST搜索,给出每一步搜索的参数设置及选择原因,分析搜索结果(找到的是其它物种中的ATPsulfurylase,还是执行其它相似功能的序列)。答:1、Arabidopsisthaliana的ATPsulfurylase的核酸序列的BLAST搜索具体步骤以及参数设置如下:a)首先在NCBI的Nucleotide数据库里搜索到Arabidopsisthaliana的ATPsulfurylase核酸序列,选择FASTA格式,并在FASTA格式下RunBLAST,如下图:点击此处可以将搜索到的核酸序列直接进行Blast处理2b)点击,进入比对参数设置页面,如下左图。在BLAST界面可以进行参数设置,使检索的结果更加准确,在本题中,将核酸序列比对范围限制在拟南芥、玉米还有水稻这三个物种中,当然其比对范围也可以不做限制,将核酸序列做全数据库比对。Arabidopsisthaliana的ATPsulfurylase核酸序列的比对范围限制在拟南芥、玉米还有水稻这三个物种中得到的比对结果如下右图。比对参数设置比对结果点击此处可以选择所要搜索的数据库范围,对于核酸学列一般用图中所选数据库。此处可以进行物种比对范围限制,这样可以加快比对速度,并且可以使比对具有针对性在搜索程序选择(ProgramSelection),megablast是用于寻找与query高度相似,却非一致的序列;blastn则用于寻找与query有一定相似度的序列。从敏感度(sensitivity)来说,Megablast最差,discontiguousmegablast居中,blastn最高。3c)结果分析:从比对的结果可以看出,在拟南芥同一个物种内,ATPsulfurylase的核酸序列的相似对很高,有的达到了100%,但是也有相似度较低的,原因可能就是不同的亚种,也就是基因突变进化的结果,进化距离不一样。同时也显示出水稻的ATPsulfurylase的核酸与拟南芥具匹配程度很高,说明水稻与拟南芥在此基因上具有同源性。2、Arabidopsisthaliana的ATPsulfurylase的蛋白质序列的PSI-BLAST搜索A.首先在NCBI里找到Arabidopsisthaliana的ATPsulfurylase的蛋白质序列然后在RunBLAST,和核酸序列方法一样。B.在进行参数设置,如下图C、比对结果通过对拟南芥的ATPsulfurylase核酸序列比对得到的分值,分值越大表示匹配程度越高,进化距离就越近此值越小,匹配程度就越高选择比对的数据库,选择一个好的数据库可以大大加快比对的速度和结果,一般选择没有冗余或者冗余很少的数据库,提高比对精度。PSI-Blast程序的主要思想是通过多次迭代找出最佳结果。第一次blast搜索后,利用结果中最相似的序列重新构建位点特异性打分矩阵(PSSM),然后再使用该矩阵进行第二轮blast搜索,再调整矩阵,搜索,如此迭代,直到找出最佳搜索结果。最终高度保守的区域就会得到比较高的分值,而不保守的区域则分数降低。这样可以提高blast搜索的灵敏度,从而有利于发现进化距离较为遥远的同源序列4图1第一次迭代图2,第一次比对结果具体的匹配情况图3,第一次比对结果图4第二次迭代图5第二次迭代具体实例图6第二次迭代比对结果5D、结果分析图3和图6中圈部分的Maxscore、Evalue表示的意思与核酸序列比对意思一样,不在赘述。而Querycoverage表示的事蛋白质序列匹配的程度,通过匹配程度可以看出Arabidopsisthaliana的ATPsulfurylase序列与数据库中序列之间的相似度,从而确定同源性。Querycoverage值越大即越接近100%,进化距离越近,同源关系明显。而图6中的序列前面标记,代表这条序列是在迭代过程中新搜索到的相似序列,前面标记,说明这条序列在此次迭代之前已经搜索到。