生物信息学实验课件邢晋祎生命科学学院Copyright实验三序列相似性方法搜索数据库实验目的1.理解数据库检索和数据库搜索的区别。2.学会使用BLAST搜索数据库,并对结果做简单分析。3.了解FASTA搜索数据库。实验原理•1.数据库搜索在分子生物信息学中有特定含义,它是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。因此,在生物信息学中,数据库搜索是专门针对核酸和蛋白质序列数据库而言,其搜索的对象,不是数据库的注释信息,而是序列信息。•Blast,fasta实验原理Blast结果会列出跟查询序列相似性比较高,符合限定要求的序列结果,根据这些结果可以获取以下一些信息。1.查询序列可能具有某种功能2.查询序列可能是来源于某个物种3.查询序列可能是某种功能基因的同源基因这些信息都可以应用到后续分析中。实验原理1.首先确定一个终止值S、步长参数w和一个阈值t。S值通常是基于统计学的原理指明一个预期的终止E值,然后软件会在考虑搜索背景性质的基础上计算出合适的S值。寻找打分超过阈值(T),而且一定步长(w)的单词。ProteinW=3,N.A.W=11。2.寻找与最初识别的单词匹配的扩展。直到打分从最高值跌到一定的数目,产生无空位联配。高分值局部联配被称为:高分值片段对(high-scoringsegmentpairs,HSPs)实验原理•依次比较(联配,比对)查询序列和数据库中每一条序列,然后将数据库中的序列排序,使得分最高的序列在最顶端。实验材料•计算机,网络。•PSI-blast•序列实验过程•1.BLAST搜索:•给定一个序列,通过数据库搜索,找出与该检测序列具有一定相似性的序列。•MALWMQCLPLVLVLFFSTPNTEALVNQHLCGSHLVEALYLVCGDRGFFYYPKVKRDMEQALVSGPQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCN具体步骤1.登陆blast主页根据数据类型,选择合适的程序3.填写表单信息4.提交任务5.查看和分析结果分析过程(一)1.登陆ncbi的blast主页2.选择程序,因为查询序列是蛋白序列可以选择blastp,点击进入也可以选择tblastn作为演示,我们这里选blastpBlast任务提交表单(一)1.序列信息部分填入查询(query)的序列序列范围(默认全部)选择搜索数据库如果接受其他参数默认设置,点击开始搜索Blast任务提交表单(二)设置搜索的范围,entrez关键词,或者选择特定物种2.设置各种参数部分一些过滤选项,包括简单重复序列,人类基因组中的重复序列等E值上限窗口大小如果你对blast的命令行选项熟悉的话,可以在这里加入更多的参数Blast任务提交表单(三)3.设置结果输出显示格式选择需要显示的选项以及显示的文件格式显示数目Alignment的显示方式筛选结果E值范围其他一些显示格式参数点击开始搜索提交任务返回查询号(requestid)可以修改显示结果格式修改完显示格式后点击进入结果界面结果页面(一)图形示意结果结果页面(二)目标序列描述部分带有genbank的链接,点击可以进入相应的genbank序列匹配情况,分值,e值结果页面(三)详细的比对上的序列的排列情况作业:•1.使用PSI-blast搜索以下序列,并且将三个结果页面保存于试验报告中(使用抓图)。•AKFVLIVEKDATFQRLLDDNFCNKLSPCIMITGKGVPDLNTRLLVKKLWDTFHVPVFTLVDADPHGIEIMCIYKYGSMSMSFEAHHLTVPAIRWLGLLPSDLKRLNVPKDSLIPLTKRDQMKLDSILRRPYVTCQPFWRKEMEIMADSKMKAEIQALTFLSSDYLSRVYLPNKLKFGGWI•注意:结果页面包括:图形示意页面,序列排序页面,单条序列比较页面。