生物信息学上机练习1.生物序列的信息检索2.多序列比对及进化树的构建3.(选做)Phylip使用1,序列的数据库信息检索示例:待查询序列:CCCCTGCCTGGCAGCCCTTTCTCAAGGACCACCGCATCTCTACATTCAAGAACTGGCCCTTCTTGGAGGGCTGCGCCTGCACCCCGGAGCGGATGGCCGAGGCTGGCTTCATCCACTGCCCCACTGAGAACGAGCCAGACTTGGCCCAGTGTTTCTTCTGCTTCAAGGAGCTGGAAGGCTGGGAGCCAGATGACGACCCCATAGAGGAACATAAAAAGCATTCGTCCGGTTGCGCTTTCCTTTCTGTCAAGAAGCAGTTTGAAGAATTAACCCTTGGTGAATTTTTGAAACTGGACAGAGAAAGAGCCAAGAACAAAATTGCAAAGGAAACCAACAATAAGAAGAAAGAATTTGAGGAAACTGCGGAGAAAGTGCGCCGTGCCATCGAGCAGCTGGCTGCCATGGATTGAGGCCTCTGGC问题1,这是什么基因?基因的标识符是什么?在基因组上的定位是怎样的?2,编码的蛋白质多少个氨基酸?序列标识符为?序列是?3,该蛋白没有保守的功能结构域?4,该蛋白亚细胞定位是?它的功能是怎样的?5,该蛋白在真核生物中是否保守?6,该蛋白有没有三级结构信息?答案1.该基因为人的BIRC5基因;基因标识符:NM_001168.2;染色体定位:17号染色体,76210277..76221716;2.人的BIRC5蛋白质包含142个氨基酸,序列标识符为:NP_001159.2;序列为:MGAPTLPPAWQPFLKDHRISTFKNWPFLEGCACP…3.BIRC5具有保守的功能结构域BIR;4.BIRC5的细胞亚定位:胞质,核;其功能有:(1)在瘤形成过程中可能起一定作用;(2)阻碍G2/M期的细胞编程性凋亡;(3)Chromosomalpassengercomplex(CPC)的成员之一。等等。5.该基因在真核生物中最保守很可能是来自毛猩猩Pongoabelii的BIRC5蛋白:Q5RAH9;6.该蛋白的三级结构已知,在PDB中的标识符为1E31等。2,多序列比对及进化树构建构建CytochromeC1家族进化树1.在Uniprot数据库中搜索CytochromeC1在不同物种中的氨基酸序列,下载fasta文件2.使用MEGA软件对结果进行分析:1)多序列比对(MSAmultiplesequencealignment)2)构建进化树CytochromeC1家族序列获取•工具网站uniprot.org/•advancedsearch•customize调整结果显示格式选择想要显示的内容,例如显示列为–Entryname–Organism–Sequence–Proteinnamessave•以蛋白名称:CytochromeC1为关键词搜索搜索结果编辑Fasta序列文件•选择搜索结果中Entryname以“CY1_”开头的序列(选十几个物种序列,每一个种属只选一个序列,即entryname一样的只选择一个即可)•点retrieve编辑Fasta序列文件•DownloadFASTA格式的文件•直接下载下来的序列名称会很累赘,可以将该文件以文本形式打开,对序列名称进行编辑,让其看起来更加简洁明了Fasta文件格式以为开头,后接序列名称,重启一行,输入序列CY1_BOVINMAAAAATLRGAMVGPRG…CY1_YEASTMFSNLSKRWAQRTLSKS…CY1_HUMANMAAAAASLRGVVLGPRG……Fasta文件要求•序列名称中不含有‘=’字符•氨基酸序列可以分成多行,但内部不要有空格•每个序列的title仅保留蛋白/基因名称+种属来源,如:CY1_YEASTMEGA5软件使用•打开MEGA5,拉开Align菜单,选择Edit/BuildAlignmentMEGA5软件使用•CreatanewAlignment•选择ProteinMEGA5软件使用•在新弹出的窗口中,选择Data-Open-RetrieveSequencesfromFile,然后导入刚才保存的fasta文件多序列比对•Ctrl+A选择全部序列,Aligment-AlignbyClustalW多序列比对•可以修改各补偿值等参数,点OK多序列比对•多序列比对完成•Dateexportalignment,导出MEGEformat和Fastaformat两份结果,得到一个*.meg文件和一个*.fas文件进化树构建•关闭Alignment窗口,回到MEGA软件主窗口,File-OpenAFile/Session,打开之前保存的*.meg文件进化树构建•选择Phylogeny-Construct/TestNeighbor-JoiningTree•点yes进化树构建&bootstrap验证•点computeBootstrapmethod验证进化树,点开选择bootstrap调整树的形状及树枝长度去掉不可信的分支•从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列;•重复上面的过程,得到多组新的序列;•对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性。•一般Bootstrap的值70,则认为构建的进化树较为可靠。3,(选做)Phylip使用自展法-进化树的可靠性分析BootstrapMethod随机有放回的抽取原始数据的一列,直到列数和原始数据一样有放回意味着有些列被采到多次,有的列没有采到比较一致性,两种做法Phylib采用Phylip软件包介绍•由华盛顿大学遗传学系开发,免费的系统发育分析软件包。•几乎最广泛使用的系统发生分析程序,主要包括以下几个程序组:分子序列组,距离矩阵组,基因频率组,离散字符组,进化树绘制组。•访问及免费下载地址:evolution.genetics.washington.edu/phylip.htmlPhylip软件包介绍•Phylip包含了35个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包括了系统发生分析的所有方面。•多种不同平台的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。•Phylip软件包的文档是非常详细的,对于每个独立的程序,都有一个独立的文档,详细的介绍了该程序的使用及其说明。•outfile是一个记录文件,记录了分析的过程和结果,可以直接用文本编辑器(如写字板)打开。•outtree是分析结果的树文件,可以用phylip提供的绘树程序打开查看,也可以用其他的程序来打开,如treeview等。Phylip软件包的应用由于默认输出的名字是一样的,为了防止被覆盖,要把默认的输出名字改一下Windows版本的phylip软件包现有8段protein序列:P1MPRFAANLSMMFTEVPFIERFAAARKAGFDAVEFLFPYNYSTLQIQKQLEP2MPRFEANLSMMFTEVPFAERFADARKAGFDAVEFLFPYCYSDLQIQCQLEP3WPRFEANLSMMFTEVPFAERFADARKIGFDAEEFLFPYCYSDLQIQCQLEP4MPCFAANLSMMFTEVPFIERFAAARKAGFDAVEFLFPYNYSTLQIQKQLEP5MPRFEANLSMEFTAVPFIERFADARKAGFDAVEFLFPYCYSTLQIQKQLEP6MPRFEANLSMMFTEVPFAERFADARKAGFDAEEFLFPYCYSDLQIQCQLEP7MPRFEANLSMEFTEVPFIERFADARKAGFDAVEFLFPYCYSTLQIQKQLEP8WPRFEANLSMMFTEVPFAERFADARKAGFDAEEFLFPYCYSDLQIQCQLE示例:Phylip软件包构建进化树新建文本文件testSeq.fasta复制以下序列,注意最后是fasta格式•第一步:使用CLUSTALX多序列比对,File/LoadSequenes读入testSeq.fasta,输出格式File/SaveSequenesas为*.PHY这步的目的是完成格式转换,准备构建进化树的序列PHY的格式•输出的*.PHY文件:8和50分别表示8个序列和每个序列有50个氨基酸•第二步:双击打开SEQBOOT,按路径输入刚才生成的*.PHY文件;设定适当参数;输出outfile文件。注意输入正确的文件地址,可以把文件拷到当前目录随机数可以使用默认值,输入Y这步的目的是用Bootstrap的方法产生多个复本•重命名Outfile文本文件为Outfile1,打开如下:(包括了100个replicates)•第三步:打开PROTPARS(最大简约法),输入Outfile1文件后如下显示:•设定适当参数;运行输出outfile和treefile文件。目的是构建各个副本的进化树多组数据•重命名Outfile文本文件为Outfile2,重命名OutTree为OutTree2;打Outfile2开如右:(包括了100个replicates的结果)•第四步:打开CONSENSE程序,输入outtree2,运行输出outfile和treefile文件。分别重命名为outfile3和treefile3.tre该步骤目的是综合100个复本,构建一致的进化树•获得的结果文件中,文本文件outfile3显示如下:outfile•树文件outtree3.tre用TREEVIEW软件打开显示:outtree作业:•自主选择你所感兴趣的问题,利用生物信息学信息检索途径,回答你的问题。•格式:已知:…待查询问题:…解答途径:方法、数据库…结果:…–鼓励使用新途径解决新问题!本科已修生物信息课的同学可以不用上机,但需要完成此项作业。作业要求•发信至snttustc.edu•邮件名称:学号+姓名•答题内容使用文本文件(TXT),如无截图内容不要使用Word文件或其他格式。•文件名:学号+姓名.TXT