§2.4核酸序列的多序列比对目的:•发现多个序列的共性•发现与结构和功能相关的保守序列片段设:有k个序列s1,s2,...,sk,每个序列由同一个字母表中的字符组成,k大于2。通过插入操作,使得各序列达到一样的长度。多序列比对的意义•用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。•用于描述一个同源基因之间的亲缘关系的远近,应用到分子进化分析中。•其他应用。•同源性分析中常常要通过多序列比对来找出序列之间的相互关系,和blast的局部匹配搜索不同,多序列比对大多都是采用全局比对的算法。这样对于采用计算机程序的自动多序列比对是一个非常复杂且耗时的过程,特别是序列数目多,且序列长的情况下。多序列比对的方法多序列比对的方法基本上多序列比对可以分为1.手工比对(辅助编辑软件如bioedit,seaview,Genedoc等)通过辅助软件的不同颜色显示不同残基,靠分析者的观察来改变比对的状态。2.计算机程序自动比对通过特定的算法(如同步法,渐进法等),由计算机程序自动搜索最佳的多序列比对状态。多序列比对工具多重序列比对工具既可以在本地运行,也可以远程运行。远程运行的好处就是可以将计算的负担放在远程服务器上,计算完成后对结果的调用任何时候都可以进行。•目前使用最广泛的多重序列比对程序是ClustalW–ClustalW是一种渐进的比对方法,先将多个序列进行两两比对,基于这些比较,计算得到一个距离矩阵,该矩阵反映了每对序列的关系EBI的CLUSTALW网址是:的工作界面比对序列输入运行程序多序列比对实例•分析5个16sRNA基因序列的多序列,这5个基因分别是:AF310622、AF308147、AF283499、AF012090、AF447394步骤•序列的查询•序列的提取•序列的输入•序列的比对ClustalW的结果显示两两双重比对结果5个序列的比对结果本地多序列比对Clustalx的工作界面(多序列比对模式)第一步:输入序列文件。第二步:设定比对的一些参数。参数设定窗口。第三步:开始序列比对。第四步:比对完成,选择保存结果文件的格式实际操作•使用clustalx程序,对给定的多序列,选择合适的参数,进行多序列比对,输出结果文件为phylip格式。•相同的文件,使用ebi和我们提供的在线服务,进行多序列比对。•对上述计算机程序比对的结果进行手工改动(bioedit,seaview),使得多序列比对结果符合要求。§2.5构建进化树一、系统发生(phylogeneticinference)通过多序列比对,可以研究一组相关的基因或者蛋白质,推断不同基因之间的进化关系,也就是所说的系统发生系统发生的原理来源于进化理论,所以在深入研究怎样构建系统发生树之前,有必要首先对与系统发生相关的进化理论有所了解。生物分类•早期的分类学家依据的只是生物的外观,也就是它们的物理形态•解剖学发展之后,科学家才开始依据生物的不同解剖结构进行分类:界、门、纲、目、科、属、种•生物化石的出现使人们意识到地球上的生命有一个演进过程,物种之间的亲缘关系是动态的•200亿年以前,没有能量,时间、空间•150亿年前,宇宙大爆炸•45亿年前-太阳系形成,地球形成•35亿年前-化石记录•生命起源于45-35亿年之间地球进化——生命起源于何时?H2H2OCH4H2SHCN无机小分子物质有机小分子物质宇宙射线紫外线闪电氨基酸核苷酸单糖生成有机高分子物质原始蛋白质核酸分子长期积累缩合聚合形成多分子体系浓缩凝聚组成原始生命演变长期演变相互作用有原始界膜原始物质交换具原始新陈代谢繁殖原始新陈代谢繁殖分子进化理论分子水平上,生物体的选择压力主要体现在突变上突变在基因中得到积累,可以通过比较来源于不同物种的同源基因,找出基因中对碱基替换敏感或耐受的区域,根据比对结果,可以推测在这些序列进化中所发生的分子事件分子钟(molecularclock)理论1965年,Zuckerkandl和Pauling比对了源于不同生物系统血红蛋白分子的氨基酸排列顺序,发现其中的氨基酸随着时间的推移几乎以一定的比例相互变换,据此他们提出分子进化速率是恒定的或近乎恒定的分子钟理论分子进化中性学说(NeutralTheoryofMolecularEvolution)1968年,木村资生根据核苷酸及氨基酸的置换速率,以及相应置换对生物大分子功能的影响,提出了分子进化中性学说,此后的实验数据进一步充实了这一学说。在分子层次上,多数或绝大多数突变都是中性的,即无所谓有利或不利。生物的进化主要是中性突变在自然群体中进行随机的遗传漂变的结果,与选择无关,遗传漂变是分子进化的基本动力。2004年,赵国屏院士等中国科学家在研究SARS病毒的分子进化时发现,SARS病毒基因组的中性突变速率为艾滋病病毒基因组突变速率的三分之一,绘出了SARS病毒进化树,不仅印证了流行病学调查所得的结论,而且为分离自动物和不同流行阶段的SARS冠状病毒提供了特征基因型的分子标记。二、系统发生树(phylogenetictree)系统学分类描述了不同生物之间的相关关系,通过系统学分类分析可以帮助人们了解所有生物的进化历史进程。这一过程并不能够直接看到,人们只能通过相关线索了解历史上曾经发生了什么,而最常用的可视化表示进化关系的方法就是绘制系统发育进化树建树步骤一、获取序列一般自己通过测序得到一段序列(已知或未知的都可以),通过NCBI的BLAST获取相似性较高的一组序列,下载保存为FASTA格式。用BIOEDIT等软件编辑序列名称,注意PHYLIP在DOS下运行,文件名不能超过10位,超过的会自动截留前面10位。二、多序列比对目前一般应用CLASTALX进行,注意输出格式选用PHY格式。生成的指导树文件(DND文件)可以直接用TREEVIEW打开编辑,形式上和最终生成的进化树类似,但是注意不是真正的进化树。三、构建进化树1.N-J法建树依次应用PHYLIP软件中的SEQBOOT.EXE、DNADIST.EXE、NEIGHBOR.EXE和CONSENSE.EXE打开。具体步骤如下:(1)打开seqboot.exe输入文件名:输入你用CLASTALX生成的PHY文件(*.phy)。R为bootstrap的次数,一般为1000(设你输入的值为M,即下两步DNADIST.EXE、NEIGHBOR.EXE中的M值也为1000)oddnumber:(4N+1)(eg:1、5、9…)改好了y得到outfile(在phylip文件夹内)改名为2(2)打开Dnadist.EXE输入2修改M值,再按D,然后输入1000(M值)y得到outfile(在phylip文件夹内)改名为3(3)打开Neighboor.EXE输入3M=1000(M值)按Y得到outfile和outtree(在phylip文件夹内)改outtree为4,outfile改为402(4)打开consense.exe输入4y得到outfile和outtree(在phylip文件夹内)Outfile可以改为*.txt文件,用记事本打开阅读。四、进化树编辑和阅读outtree可改为*.tre文件,直接双击在treeview里看;也可以不改文件扩展名,直接用treeview、PHYLODRAW、NJPLOT等软件打开编辑。TREEVIEW可以显示BOOTSTRAN值,序列较多(60条以上)的时候打开直接显示有明显的重叠,可以在打印预览中显示,或输出为EMFWMF图片文件看,但是序列较多时BOOTSTRAN值的显示位置比较乱,和序列名称有重叠。PHYLODRAW的编辑功能较强,可以自由调节X、Y轴的长度。输出格式为BMP、PS格式。缺点是不能直接显示BOOTSTRAN值,包括打开TREEVIEW输出的NEX文件,而且输出的BMP文件不全,类似截屏文件,NJPLOT可以显示BOOTSTRAN值和分值长度。但是不能调节图片X、Y轴的长度。