1系统发育树构建教程(PHYLIP)PHYLIP网址:(一)序列的前期准备1.用ENTREZ或SRS搜索同源DNA/蛋白质序列(samesequenceindifferentorganisms)2.用CLUSTALX进行多条序列比对,在outputformatoption选定PHY格式,构建进化树需要这个phy文件。Figure4.1用clustalx进行多条序列比对3.解压缩phylip-3.68.exe,得到三个文件夹,doc文件夹里是关于所有PHYLIP子程序的使用说明,exe文件夹里是直接可以使用的各个子程序,src文件夹里是所有程序的源文件。4.打开exe文件夹,双击SEQBOOTt子程序(SEQBOOT是一个利用bootstrap方法产生伪样本的程序),输入刚刚生成的phy文件的路径,点击enter。5.所有PHYLIP程序默认的输入文件名为infile,输出文件名为outfile。如果在exe文件夹里找不到默认的输入文件,会提示can’tfindinputfile“infile”。Figure4.2seqboot程序起始界面6.进入程序参数选择页面(Figure4.3)。第一列中的D、J、%、B、R、W、C、S等代表可选的参数。想改变哪个参数,就键入此参数对应的字母,并点击回车键,对应参数将会发生改变。当我们设置好所有参数后,(这里我们可以不做任何修改),键入Y,按回车。此时程序询问“randomnumberseed?mustbeodd”,这是询问生成随机数的种子是多少,输入一个4N+1的数,点击回车程序开始运行,输出结果到文件outfile,保存在当前文件夹里。.2Figure4.3seqboot程序参数选择页面主要参数解释:D:数据类型,有Molecularsequence、discretemorphology、restrictionsites和genefrequencies4个选项。J:伪样本产生方法,有Bootstrap,Jackknife,Permute和rewrite4个选项。B:自举法窗口大小选择,可任意给定一个整数。R:产生伪样本的数目。W:输入文件为字符还是权重。S:输出字符数据还是权重。Figure4.4seqboot程序运行过程页面程序默认产生100个伪样本,点击回车关闭seqboot程序后,将outfile更名为seqb,用写字板打开seqb,可以看到里面是100套多条序列比对结果。(Figure4.5)3Figure4.5seqboot运行后输出文件内容(二)最大简约法建树(MaximumParsimony)1.打开DNAPARS(PROTPARS,如果序列是蛋白质),将刚才生成的seqb文件名输入。(Figure4.6)如果上一步输出的outfile文件你忘了更名,将会有警告,询问你如何处理原来的outfile,是替换,还是在原文件后面续写,或结果输出到另一个文件或退出程序。Figure4.6dnapars程序起始页面2.改M选项为分析multipledatasets(多个数据,Figure4.7),其它参数不变,运行将生成两个文件outfile和outtree,将outfile更名为mpfile,将outtree更名为mptree。用写字板打开mpfile(Figure4.8),用TREEVIEW打开mptree(Figure4.9)后,可以看到这两个文件都含有100个进化树。Figure4.7dnapars程序参数选择页面4主要参数解释:U:是否自动寻找自佳树,还是利用使用者所提供的树S:寻找最佳树的搜寻方式,morethorough或lessthoroughV:保存多少个树numberoftreestosaveJ:是否更改输入序列的次序,如果选是,会要求输入一个种子,4N+1的数,然后询问打乱次数,随意给一个数,不要太大,以免运行时间过长。O:外群位置,默认不设外群,可以更改为任意一条序列。N:转移和颠换是否全部计算在内。W:位点之间是否权重不同M:是否分析多个数据。由于我们第一步seqboot产生了100个伪样本,每一步都要更改这个选项。Figure4.8outfile(更名为mpfile)用写字板打开Figure4.9outtree(更名为mptree)用treeview打开53.打开CONSENSE(将多个伪样本建成的不同树,根据majority原则,得出一致树)软件,将刚才生成的mptree文件输入。生成两个文件outfile和outtree。Outfile可用记事本打开,outtree可用TREEVIEW打开。将两个文件更名为cmpfile和cmptree,这就是我们采用MP方法,并使用bootstrap检验,最后得到的最优树。(三)最大似然法建树(MaximumLikelihood)1.打开DNAML(PROTML)软件。将刚才生成的seqb文件输入,更改M选项为分析多个数据,生成两个文件outfile和outtree。将outfile更名为mlfile,将outtree更名为mltree。用记事本和TREEVIEW分别打开,可以看到这两个文件都含有100个进化树。2.打开CONSENSE软件,将刚才生成的mltree文件输入,生成两个文件outfile和outtree。Outfile可用记事本打开,Outtree可用TREEVIEW打开。将两个文件更名为cmlfile和cmltree.。这是我们采用ML方法,并使用bootstrap检验,得到的最优树。(四)距离法建树(DistanceMethod)1.打开DNADIST(PROTDIST)软件,将刚才生成的seqb文件输入,更改M选项为分析多个数据,运行后生成文件outfile。该文件包含了与输入文件相同的100个replicate,只不过每个伪样本是以两两序列的进化距离来表示,将outfile改名为distfile。(Figure4.10)Figure4.10用DNADIST程序计算出来的序列两两之间的距离2.执行NEIGHBOR软件,这个软件包括了NJ和UPGMA两种建树方法。将上一步生成的distfile输入,更改N,选择建树方法,更改M选项为分析多个数据,生成两个文件outfile和outtree。将其分别更名为njfile/upgmafile和njtree/upgmatree。用记事本和TREEVIEW打开后,可以看到这两个文件都含有100个进化树。3.再将njtree/upgmatree文件输入CONSENSE软件,得到两个文件outfile和outtree。Outfile可用记事本打开,Outtree可用TREEVIEW打开。将两个文件更名为cnjfile/cupgmafile和cnjtree/cupgmatree.这是我们采用NJ/UPGMA方法,并使用bootstrap检验,得到的最优树。4.执行FITCH软件,将distfile输入,更改M选项为分析多个数据,生成两个文件outfile和outtree。将其分别更名为fmfile和fmtree。用记事本和TREEVIEW打开后,可以看到这两个文件都含有100个进化树。5.再将fmtree文件输入CONSENSE软件,得到两个文件outfile和outtree。Outfile可用记事本打开,Outtree可用TREEVIEW打开。将两个文件更名为cfmfile和cfmtree.这是我们采用FM方法,并使用bootstrap检验,得到的最优树。