构建系统发育树需要注意的几个问题1相似与同源的区别�只有当序列是从一个祖先进化分歧而来时�它们才是同源的。2序列和片段可能会彼此相似�但是有些相似却不是因为进化关系或者生物学功能相近的缘故�序列组成特异或者含有片段重复也许是最明显的例子�再就是非特异性序列相似。3系统发育树法�物种间的相似性和差异性可以被用来推断进化关系。4自然界中的分类系统是武断的�也就是说�没有一个标准的差异衡量方法来定义种、属、科或者目。5枝长可以用来表示类间的真实进化距离。6重要的是理解系统发育分析中的计算能力的限制。任何构树的实验目的基本上就是从许多不正确的树中挑选正确的树。7没有一种方法能够保证一颗系统发育树一定代表了真实进化途径。然而�有些方法可以检测系统发育树检测的可靠性。第一�如果用不同方法构建树能得到同样的结果�这可以很好的证明该树是可信的�第二�数据可以被重新取样(bootstrap)�来检测他们统计上的重要性。分子进化研究的基本方法对于进化研究�主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。表型的(phenetic)和遗传的(cladistic)数据有着明显差异。Sneath和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性�而遗传性关系含有祖先的信息�因而可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间�而表型分枝图则不需要时间概念。文献中�更多地是使用“系统进化树”一词来表示进化的途径�另外还有系统发育树、物种树(speciestree)、基因树等等一些相同或含义略有差异的名称。系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基因的时间顺序�而无根树只反映分类单元之间的距离而不涉及谁是谁的祖先问题。用于构建系统进化树的数据有二种类型�一种是特征数据(characterdata)�它提供了基因、个体、群体或物种的信息�二是距离数据(distancedata)或相似性数据(similaritydata)�它涉及的则是成对基因、个体、群体或物种的信息。距离数据可由特征数据计算获得�但反过来则不行。这些数据可以矩阵的形式表达。距离矩阵(distancematrix)是在计算得到的距离数据基础上获得的�距离的计算总体上是要依据一定的遗传模型�并能够表示出两个分类单位间的变化量。系统进化树的构建质量依赖于距离估算的准确性。一.1)打开clustalX�载入上述序列�“loadsequences”→“outputformatoptions”�“CLASTALFORMAT”;CLASTALSEQUENCESNUMBERS:ON;ALIGNMENTPARAMETERS:“RESETNEWGAPSBEFORALIGNMENT”“MULTIPLEALIGNMENTPARAMETERS”→设置相关参数2)“DOCOMPLETEALIGNMENT”→FILE→SAVEAS,掐头去尾。3)打开MEGA4,FILE→CONVERTTOMEGAFORMATE→SAVE→FILE→OPENDATA→CONTAININGPROTAINSEQUENCESNO→PHYLOGENY→BOOTSTRAPTESTOFPHYLOGENY→NJ→设置相关参数。最后看到系统发育树二这里要介绍的是Bioedit-Mega建树法�简单实用�极易上手。1将所测得的序列在NCBI上进行比对�这个就不多讲了。2选取序列保存为text格式。3运行Bioedit�使用其中的CLUSTALW进行比对。4运用MEGA4建树�首先将前面的文件转化格式为mega格式�然后进行激活�最后进行N-J建树。此法简单实用�树形美观。构建系统进化树的详细步骤1.建树前的准备工作1.1相似序列的获得——BLASTBLAST是目前常用的数据库搜索程序�它是BasicLocalAlignmentSearchTool的缩写�意为“基本局部相似性比对搜索工具”(Altschuletal.,1990[62];1997[63])。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段�并作为内核向两端延伸�以找出尽可能长的相似序列片段。首先登录到提供BLAST服务的常用网站�比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些网站提供的BLAST服务在界面上差不多�但所用的程序有所差异。它们都有一个大的文本框�用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行�以“”符号开始�后面是序列的名称、说明等�其中“”是必需的�名称及说明等可以是任意形式�换行之后是序列)粘贴到那个大的文本框�选择合适的BLAST程序和数据库�就可以开始搜索了。如果是DNA序列�一般选择BLASTN搜索DNA数据库。这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotideBLAST(blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到resultofBLAST。BLASTN结果如何分析(参数意义)�gi|28171832|gb|AY155203.1|Nocardiasp.ATCC4987216SribosomalRNAgene,completesequenceScore=2020bits(1019),Expect=0.0Identities=1382/1497(92%),Gaps=8/1497(0%)Strand=Plus/PlusQuery:1gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt60Sbjct:1gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt58Query:61actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc120Sbjct:59acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc118Score�指的是提交的序列和搜索出的序列之间的分值�越高说明越相似�Expect�比对的期望值。比对越好�expect越小,一般在核酸层次的比对�expect小于1e-10�就比对很好了�多数情况下为0�Identities�提交的序列和参比序列的相似性�如上所指为1497个核苷酸中二者有1382个相同�Gaps�一般翻译成空位�指的是对不上的碱基数目�Strand�链的方向�Plus/Minus意味着提交的序列和参比序列是反向互补的�如果是Plus/Plus则二者皆为正向。1.2序列格式�FASTA格式由于EMBL和GenBank数据格式较为复杂�所以为了分析方便也出现了十分简单的FASTA数据格式。FASTA格式又称为Pearson格式�该种序列格式要求序列的标题行以大于号“”开头�下一行起为具体的序列。一般建议每行的字符数不超过60或80个�以方便程序处理。多条核酸和蛋白质序列格式即将该格式连续列出即可�如下所示�E.coli1aaattgaagagtttgatcatggctcagattgaacgctggcggcaggcctaacacatgcaa61gtcgaacggtaacaggaagaagcttgcttctttgctgacgagtggcggac……AY631071JiangellagansuensisYIM0021gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt61actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc……其中的„‟为ClustalX默认的序列输入格式�必不可少。其后可以是种属名称�也可以是序列在Genbank中的登录号(AccessionNo.)�自编号也可以�不过需要注意名字不能太长�一般由英文字母和数字组成�开首几个字母最好不要相同�因为有时ClustalX程序只默认前几位为该序列名称。回车换行后是序列。将检测序列和搜索到的同源序列以FASTA格式编辑成为一个文本文件(例�C:\temp\jc.txt)�即可导入ClustalX等程序进行比对建树。2.构建系统树的相关软件和操作步骤构建进化树的主要步骤是比对�建立取代模型�建立进化树以及进化树评估。鉴于以上对于构建系统树的评价�结合本实验室实际情况�以下主要介绍N-JTree构建的相关软件和操作步骤。2.1用ClustalX构建N-J系统树的过程(1)打开ClustalX程序�载入源文件.File-Loadsequences-C:\temp\jc.txt.(2)序列比对Alignment-Outputformatoptions-√Clustalformat�CLUSTALWsequencenumbers:ONAlignment-Docompletealignment(OutputGuideTreefile,C:\temp\jc.dnd�OutputAlignmentfile,C:\temp\jc.aln�)Align→waiting……等待时间与序列长度、数量以及计算机配置有关。(3)掐头去尾File-SaveSequenceas…Format:⊙CLUSTALGDEoutputcase:LowerCLUSTALWsequencenumbers:ONSavefromresidue:39to1504(以前后最短序列为准)Savesequenceas:C:\temp\jc-a.alnOK将开始和末尾处长短不同的序列剪切整齐。这里�因为测序引物不尽相同�所以比对后序列参差不齐。一般来说�要“掐头去尾”�以避免因序列前后参差不齐而增加序列间的差异。剪切后的文件存为ALN格式。(4)File-Loadsequences-Replaceexistingsequences?-Yes-C:\temp\jc-a.aln重新载入剪切后的序列。(5)Trees-OutputFormatOptionsOutputFiles:√CLUSTALformattree√Phylipformattree√PhylipdistancematrixBootstraplabelson:NODECLOSETrees-ExcludepositionswithgapsTrees-BootstrapN-JTree�Randomnumbergeneratorseed(1-1000):111Numberofbootstraptrails(1-1000):1000SAVECLUSTALTREEAS:C:\temp\jc-a.njbSAVEPHYLIPTREEAS:C:\temp\jc-a.njbphbOK→waiting……等待时间与序列长度、数量以及计算机配置有关。在此过程中�生成进化树文件*.njbphb�可以用TreeView打开查看。(6)Trees-DrawN-JTreesSAVECLUSTALTREEAS:C:\temp\jc-a.njSAVEPHYLIPTREEAS:C:\temp\jc-a.njphSAVEDISTANCEMATRIXAS:C:\temp\jc-a.njphdstOK此过程中生成的报告文件*.nj比较有用�里面列出了比对序列两两之间的相似度�以及转换和颠换分别各占多少。(7)TreeViewFile-Open-C:\temp\jc-