第页1生物信息学实验讲义第页2目录实验1.计算机网上操作基本技能训练……………………………1实验2.常用分子生物学数据库类型、文件格式及数据库查询…2实验3.核酸序列分析………………………………………………3实验4.多重序列比对及系统发生树的构建………………………5实验5.PCR引物设计及评价………………………………………7实验6.蛋白质序列分析和结构预测………………………………9第页3实验一计算机网上操作基本技能训练【实验目的】1、熟练掌握上网操作基本方法及技能。2、掌握利用网络进行资料搜集的多种方法【实验内容】1、熟悉InternetExporer的基本使用方法及相关技巧,熟悉InternetExporer网络配置。2、掌握免费电子邮箱的申请方法并且能收发电子邮件。3、掌握网上软件下载及安装方法。4、用IE或netscape等浏览工具浏览、搜索各类信息5、运用FlashGet或网络蚂蚁等下载工具进行网络资料的下载以及运用各种上传工具上传资料到网络6、利用Winzip或Winrar等压缩工具进行文件的压缩与解压7、学习使用ftp8、在网上自主学习了解生物信息学知识【作业】1、在D盘建立一个以自己名字命名的文件夹。2、申请一个自已的免费电子邮箱,并发一封电子邮件到liushunhui@gdpu.edu.cn。3、从网络上下载任意一个软件,并安装到计算机上。4、用FTP获取一个蛋白质结构分析软件比如rasmol,下载后保存到你的文件夹中,以便以后运用其进行蛋白质结构分析。5、下载一个有关生物信息学的教程,并保存到你的文件夹中,进行参考学习。附表:相关软件及搜索工具网址搜索工具或软件名称参考网站地址Winrar://网络蚂蚁Netants://://ftp.dcs.ed.ac.ukGoogle搜索引擎新浪搜索引擎第页4实验二常用数据库类型、文件格式及数据库查询【实验目的】1、掌握序列检索的操作方法;2、熟悉GenBank数据库序列格式及其主要字段的含义;3、了解EBML数据库序列格式及其主要字段的含义;4、熟悉GenBank数据库序列格式的FASTA序列格式显示与保存;5、熟悉分子生物学软件的搜索与下载。【实验内容】1、使用Entrez信息查询系统检索核酸序列BC060830和NM_000230,连接提取该序列内容,阅读序列格式的解释,理解其含义;2、GenBank数据库序列格式的FASTA序列格式显示与保存;3、使用SRS信息查询系统检索核酸序列BC060830,连接提取该序列内容,阅读序列格式的解释,理解其含义;4、使用搜索引擎搜索并下载DNAClub和BioEdit软件。【作业】1、写出核酸序列BC060830在GenBank数据库的主要字段的含义;2、写出核酸序列NM_000230在EBML数据库的主要字段的含义第页5实验三核酸序列分析【实验目的】1、掌握已知或未知序列接受号的核酸序列检索的基本步骤;2、掌握使用BioEdit软件进行核酸序列的基本分析;3、熟悉基于核酸序列比对分析的真核基因结构分析(内含子/外显子分析);4、了解基因的电子表达谱分析。【实验原理】针对核酸序列的分析就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATABox等相匹配等。一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:对于真核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;选用预测程序时要注意程序的物种特异性;要弄清程序适用的是基因组序列还是cDNA序列;很多程序对序列长度也有要求,有的程序只适用于长序列,而对EST这类残缺的序列则不适用。1.重复序列分析对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索的程序。2.数据库搜索把未知核酸序列作为查询序列,在数据库里搜索与之相似的已有序列是序列分析预测的有效手段。在理论课中已经专门介绍了序列比对和搜索的原理和技术。但值得注意的是,由相似性分析作出的结论可能导致错误的流传;有一定比例的序列很难在数据库里找到合适的同源伙伴。对于EST序列而言,序列搜索将是非常有效的预测手段。3.编码区统计特性分析统计获得的经验说明,DNA中密码子的使用频率不是平均分布的,某些密码子会以较高的频率使用而另一些则较少出现。这样就使得编码区的序列呈现出可察觉的统计特异性,即所谓的“密码子偏好性”。利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。这一类技术包括:双密码子计数(统计连续两个密码子的出现频率);核苷酸周期性分析(分析同一个核苷酸在3,6,9,...位置上周期性出现的规律);均一/复杂性分析(长同聚物的统计计数);开放可读框架分析等。4.启动子分析启动子是基因表达所必需的重要序列信号,识别出启动子对于基因辨识十分重要。有一些程序根据实验获得的转录因子结合特性来描述启动子的序列特征,并依次作为启动子预测的依据,但实际的效果并不十分理想,遗漏和假阳性都比第页6较严重。总的来说,启动子仍是值得继续研究探索的难题。5.内含子/外显子剪接位点剪接位点一般具有较明显的序列特征,但是要注意可变剪接的问题。由于可变剪接在数据库里的注释非常不完整,因此很难评估剪接位点识别程序预测剪接位点的敏感性和精度。如果把剪接位点和两侧的编码特性结合起来分析则有助于提供剪接位点的识别效果。6.翻译起始位点对于真核生物,如果已知转录起始点,并且没有内含子打断5'非翻译区的话,“Kozak规则”可以在大多数情况下定位起始密码子。原核生物一般没有剪接过程,但在开放阅读框中找正确的起始密码子仍很困难。这时由于多顺反操纵子的存在,启动子定位不象在真核生物中起关键作用。对于原核生物,关键是核糖体结合点的定位,可以由多个程序提供解决方案。7.翻译终止信号PolyA和翻译终止信号不象起始信号那么重要,但也可以辅助划分基因的范围。8.其它综合基因预测工具除了上面提到的程序之外,还有许多用于基因预测的工具,它们大多把各个方面的分析综合起来,对基因进行整体的分析和预测。多种信息的综合分析有助于提高预测的可靠性,但也有一些局限:物种适用范围的局限;对多基因或部分基因,有的预测出的基因结构不可靠;预测的精度对许多新发现基因比较低;对序列中的错误很敏感;对可变剪接、重叠基因和启动子等复杂基因语法效果不佳。9.tRNA基因识别tRNA基因识别比编码蛋白质的基因识别简单,目前基本已经解决了用理论方法预测tRNA基因的问题。tRNAscan-SE工具中综合了多个识别和分析程序,通过分析启动子元件的保守序列模式、tRNA二级结构的分析、转录控制元件分析和除去绝大多数假阳性的筛选过程,据称能识别99%的真tRNA基因。【实验内容】1、使用Entrez或SRS信息查询系统检索人瘦素(leptin)的mRNA、基因组DNA、外显子和5’调控区(promoter)等核酸序列,连接提取该序列内容,阅读序列格式的解释,理解其含义;2、使用BioEdit软件对上述核酸序列进行分子质量、碱基组成、碱基分布、序列变换以及限制性酶切分析等基本分析,并从BioEdit软件的“help”栏了解该软件的其它功能;3、使用BioEdit软件对人瘦素(leptin)的mRNA序列进行可读框架分析;4、使用NCBI查询系统进行人瘦素(leptin)的基因组序列分析和基因的电子表达谱分析;5、使用Blast2进行人瘦素(leptin)mRNA序列与其外显子或基因组序列的比对分析。【实验方法】1、调用Internet浏览器,并在其地址栏输入Entrez网址:;2、在Search后的选择栏中选择nucleotide;3、在输入栏输入homosapiensleptin;4、点击go后显示序列接受号及序列名称等;第页75、查找人leptin(obesityhomolog,mouse)mRNA序列(提示:NM_000230),点击序列接受号后显示序列详细信息;6、将序列转为FASTA格式保存7、根据从NM_000230了解的基因定位信息查找人瘦素的基因组DNA(Contig)的序列接受号及序列识别号,点击序列接受号显示序列详细信息;8、在输入栏输入homosapiensleptinexon查找人瘦素外显子序列;9、在输入栏输入homosapiensleptinpromoter查找人瘦素5’调控区序列;10、按上述步骤用SRS信息查询系统检索人瘦素(leptin)的mRNA、基因组DNA、外显子和5’调控区(promoter)等核酸序列;11、将上述核酸序列输入BioEdit和DNAClub软件进行序列基本分析;12、打开BioEdit软件,点击“help”栏,阅读“contents”;13、将人瘦素(leptin)的mRNA序列输入BioEdit软件进行可读框架分析:打开BioEdit软件→将人瘦素(leptin)mRNA的FASTA格式序列输入分析框→点击左侧序列说明框中的序列说明→点击sequence栏→选择nucleicacid→点击findnextORF→查看起始密码位置和编码区范围(57→557);14、参照教材使用NCBI查询系统进行人瘦素(leptin)的基因组序列分析和基因的电子表达谱分析;15、人瘦素(leptin)mRNA序列与其外显子或基因组序列的比对分析:调用Internet浏览器并在其地址栏输入Blast2网址()→将人瘦素(leptin)mRNA和外显子的FASTA格式序列分别输入sequence2和sequence1分析框或将人瘦素(leptin)mRNA和基因组序列的GI版本号输入sequence2和sequence1的GI版本号框→点击Align后显示两序列比对的详细信息→查找mRNA序列上各外显子的位置。【作业】1、归纳对人瘦素(leptin)的核酸序列分析的结果,列出主要的分析结果;2、总结核酸序列分析的基本步骤,相互对比结果,指出应注意的事项。实验四多重序列比对及系统发生树的构建【实验目的】1、熟悉构建分子系统发生树的基本过程,获得使用不同建树方法、建树材料和建树参数对建树结果影响的正确认识;2、掌握使用Clustalx进行序列多重比对的操作方法;3、掌握使用Phylip软件构建系统发生树的操作方法。【实验原理】在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于我们了解生物进化的历史和进化机制。对于一个完整的进化树分析需要以下几个步骤:⑴要对所分析的多序列目标进行比对(ali