实验二:两条序列比对与多序列比对实验目的:学会使用MegAlign,ClustalX和MUSCLE进行两条序列和多条序列比对分析。实验内容:双序列比对是使两条序列产生最高相似性得分的序列排列方式和空格插入方式。两条序列比对是生物信息学最基础的研究手段。多序列比对是将多条序列同时比对,使尽可能多的相同(或相似)字符出现在同一列中。多序列比对的目标是发现多条序列的共性。如果说序列两两比对主要用于建立两条序列的同源关系,从而推测它们的结构和功能,那么,同时比对多条序列对于研究分子结构、功能及进化关系更为有用。多序列比对对于系统发育分析、蛋白质家族成员鉴定、蛋白质结构预测、保守模块的搜寻等具有非常重要的作用。我们这节课主要学习多条序列比对的软件-ClustalX,MUSCLE。一、MegAlign用dotplot方法能够直观地认识两条序列比对,但是dotplot仅仅是展示了两条序列中所有可能的配对,并不是真正意义上的序列比对。这里介绍由DNASTAR公司开发的一个比较全面的生物信息学软件包--Lasergene,它包含了7个模块,其中MegAlign可进行两条或多条序列比对分析。1.两条序列比对1.1安装程序解压DNASTARLasergene软件压缩包,双击Lasergene710WinInstall.exe文件,按照默认路径安装软件到自己电脑上。1.2载入序列a.点击开始-程序-Lasergene-MegAlign,打开软件。我们首先用演示序列(demosequence)学习软件的使用。演示序列所在位置:C:\Programfiles\DNASTAR\Lasergene\DemoMegalign\HistoneSequences\。b.点击主菜单File—Entersequence-选择序列所在文件夹,选择序列tethis21.seq和tethis22.seq,点击Add,这两条序列将出现在右侧selectedsequences框中(Figure2.3),选择完毕点击Done回到程序页面。Figure2.3载入序列此时程序窗口分为三部分,最左侧较窄的是sequencename,中间显示的是序列起始位置,最右侧显示序列末尾部分,可以通过拖动窗口底部滚动条,查看序列其它部分(Figure2.4)。若想改变字体显示方式,点击主菜单OPTIONS,选择Font改变字体,选择Size改变字号大小。若要移除序列,选中sequencename的序列名,右击,选clear。Figure2.4载入序列后(注意标注的绿色箭头,即为坐标位置)1.3进行两条序列比对按住Shift选择序列tethis21和tethis22,然后点击主菜单Align-Onepair,由于目前输入的是核酸序列,此时有三个选项,Wilbur-LipmanMethod、MartinerNWMethod和Dotplot。如果输入的是蛋白质序列,前两个选项将是灰色,只能用Lipman-PearsonMethod和Dotplot进行比对。Wilbur-LipmanMethod是一种以word为单位的(word-based)启发式局部比对方法;MartinerNWMethod是一种改进了的全局动态规划算法。Lipman-PearsonMethod是序列相似度搜索软件Fasta的比对算法,也是一种以word为单位的快速启发式算法。选择其中一个,出现比对参数设定窗口(Figure2.5),选择默认参数不做更改,直接点击OK即可。Figure2.5Wilbur-Lipman比对方法参数设定这时出现一个新窗口,即为比对结果。可以选择OPTION-size,放大字号观察比对结果。可以看到在窗口上部显示的是比对方法名称,所用参数,两条序列各自的起止位置,相似度值,比对结果中空位数目,长度和一致序列的长度。随后就是比对结果部分,其中第一行是第一条序列,它上面的v70是标尺,其中的“V”的位置对应的是第一条序列的第70个核苷酸所在位置;第三行是第二条序列,它下方的数字同样对应该序列位置坐标;中间那行是根据两条序列比对结果中匹配部分推断出来的一致序列(consensussequence),错配或空位显示为空白(Figure2.6)。Figure2.6Wilbur-Lipman方法比对结果设置比对结果显示方式:点击比对结果窗口最左侧的按钮,出现AlignmentViewOptions窗口,可以选择匹配,错配和一致序列的字符颜色和其它显示选项。推荐使用设置:选择match为红色,mismatch为绿色,consensus为蓝色,并选择showidentitiesasverticalbars(一致序列显示为竖线),则得到Figure2.7。还可以尝试选中或不选showheader,showruler,shownames,showcontest四个选项,看看显示结果有何变化。Figure2.7AlignmentViewOptionsTIP:MegAlign分析自己下载的序列时要注意序列扩展名如果是直接下载的fasta格式文件,可以象上面一样,用entersequence直接将序列读入程序。但是如果序列文件是复制粘贴到txt文档中的,MegAlign程序无法识别扩展名为txt的文件,此时可将每条序列文件(fasta或genbank格式皆可)扩展名改为MegAlign可以识别的类型(核酸序列为seq,蛋白质序列为pro),即可从File-Entersequence载入。1.4设定序列比对位置MegAlign允许使用者选择序列的一部分进行比对分析,例如,可以根据GenBank格式的序列中Features部分关于编码区(CDS)位置的描述,设定只对此编码区进行分析。a.点击最左侧SequenceName框中的第一条序列tethis,然后选择主菜单OPTIONS-Setsequencelimits-fromfeaturetable(Fig2.8)。此时根据feature内容,出现四个可以选择的片段,第一个为全长,从序列起始到末尾(1-906),其它三个则只包括序列的一部分,选择最后一个HistoneH2B-1—CDS,点击ChangetheReset,点击OK,同样对第二条序列进行上述操作,回到主界面工作区,此时窗口中的序列起始和终止位置已经发生了变化(Fig2.9)。Figure2.8利用FeatureTable选择序列特定部分Figure2.9选择序列特定部分b.我们还可以通过设定序列坐标进行部分序列比对,首先选定序列,选择主菜单OPTIONS-Setsequencelimits-bycoordinates,输入起始和终止位置坐标来选择部分序列进行分析。注意:只有genbank格式的序列才可以Setsequencelimitsfromfeaturetable,fasta格式的序列因为没有feature那一项内容,只可以Setsequencelimitsbycoordinates。2.多序列比对2.1载入序列进行多条序列比对的演示序列(demosequence)在c:\programfiles\dnastar\lasergene\demomegalign\CalmodulinSequences\文件夹里。点击主菜单File-EnterSequence-根据路径到达CalmodulinSequences文件夹,点击AddAll,此时14条序列全都出现在右侧的selectedsequences框中,点击Done,回到主程序工作区。(Figure2.10)这是来自14个物种的钙调蛋白。Figure2.10载入14条序列2.2序列比对第一步,选择比对所用的打分矩阵。点击主菜单Align-SetresidueWeightTable,由于钙调蛋白比较保守,我们选择PAM100作为打分矩阵,点击OK结束设定(Figure2.11)。Figure2.11选择打分矩阵此时还可以通过点击Align-MethodParameters设定比对所用的其它参数。打开的新窗口中包含三个选项卡,JotunHein、ClustalV和ClustalW,对应程序中多条序列比对可用的三种算法。推荐大家不做修改,使用默认参数即可。第二步,比对。点击Align-byClustalVMethod,此时出现窗口显示比对进度,比对结束后,回到原来工作窗口,显示比对结果。注意序列上方彩色条块,颜色代表对应列中相似程度,相似度由低到高,依次以黑、深蓝、浅蓝、绿、桔、红几种颜色代表(Figure2.12)。Figure2.12比对后结果2.3查看比对结果此时可以通过几种方式观察比对结果。a.点击View-AlignmentReports出现新窗口,显示比对结果报告。点击OPTIONS-Alignmentreportcontents,选中showconsensusstrength,其它不变,点击OK。在序列上方出现条块,显示每一列序列的相似程度(Fig2.13)。Figure2.13选择showconsensusstrength显示结果设置比对结果显示方式:突出显示匹配或错配的氨基酸。点击OPTIONS-NewDecorations,在alignmentdecorationname框里输入shadedisagreements(自己定义名字),选择decorationparameters为shade—residuesdifferingfrom—theconsensus,此时下方出现新的选项,选择对选定字符突出显示的颜色,选择完毕,点击OK,则与majority序列不同的字符将突出显示。(Figure2.14)Figure2.14修改alignmentreport显示模式b.点击View-SequenceDistances出现新窗口(Fig2.15),显示两两序列percentidentity(上半部分)和divergence(下半部分)。Figure2.15比对结果-一致度(identity)c.点击View-ResidueSubstitutions出现新窗口,显示比对中所有替换的类型和数目(Fig2.16)。Figure2.16比对结果-替换情况d.点击View-PhylogeneticTree出现新窗口,显示根据14条序列比对结果构建出的进化树(Fig2.17)。Figure2.17比对结果-进化树二、Clustalx是一种利用渐近法(progressivealignment)进行多条序列比对的软件。即先将多个序列两两比较构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树;然后从多条序列中最相似(距离最近)的两条序列开始比对,按照各个序列在引导树上的位置,由近及远的逐步引入其它序列重新构建比对,直到所有序列都被加入形成最终的比对结果为止(Figure2.18)。Figure2.18clustal算法Clustal软件有两个版本,其中clustalw采用命令行的形式在DOS下运行的,Clustalx是可视化界面的程序,我们今天学习Clustalx的使用。2.1安装clustalx下载clustalx软件,按照默认安装到自己的电脑上。2.2准备要比对的序列将上节课搜索到的同源核酸fasta文件,全部粘贴到一个文本文件中,所有的蛋白质序列存入另一个文本文件。TIP:可以在fasta序列“”之后加上物种名称,加空位,方便看树时了解进化关系。2.3载入序列点击开始-程序-clustalX2-clustalX2。点主菜单File,选择LoadSequence-选择刚保存的序列文件,点打开。注意:ClustalX程序无法识别汉字、带空位的文件夹名,如mydocument。不要将序列文件保存在桌面上或带汉字的文件夹中,推荐保存在D盘根目录下。载入序列后在左侧窗口里是fasta格式序列的标识号,取自序列第一行“”后的字符。(Figure2.19)TIP:如果每条序列单独保存为一个文件,可