生物信息学概论第四章基于距离的系统发生分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

CompanyLOGO第四章基于距离的系统发生分析本章内容分子系统发生学的历史4.1分子系统发生分析的优点4.2系统发生树4.3距离矩阵法4.4最大似然法4.5多重序列比对4.64.1分子系统发生学的历史系统发生学是研究物种之间的进化关系的,是进化生物学的一个重要研究领域,系统发生分析在达尔文时代就已经开始。从那时起,科学家们就开始寻找物种的源头,分析物种之间的进化关系,给各个物种分门别类。CharlesDarwin(1809-1882)4.1分子系统发生学的历史•1902~1904年,G.H.FNuttall证明了把一个生物体的血液注射到另一个生物体时,产生的免疫反应的程度与这两个生物体的进化关系直接相关。通过这些实验,他检测了成百种生物之间的关系,并且最早正确地推断出人和猿比它们和其它灵长类动物有更近的共同祖先•20世纪50年代,分子数据才开始被广泛应用于系统发生研究。蛋白质电泳,使得我们可以在一些浅层特征上(如分子大小、电荷等)来分离和比较蛋白质•20世纪60年代,蛋白质测序成为可能,而在此之前,测序中等长度蛋白质的全部氨基酸序列都是很不容易的。所有这些方法促进了可研究其系统方式的生物体种类的重大改变4.1分子系统发生学的历史•20世纪70年代,研究者开始能够获得真正的基因组信息。研究者一度热衷于重建系统发生关系,结果还为面临着成指数增长的数据的分子生物学家们发展出很多严格的数学方法。这是第一次研究者有可能对系统发生分类赋予统计置信度,并且相对容易地形成关于进化过程的可验性假设•如今,DNA序列数据比任何其他形式的分子信息都要丰富得多。传统的基于解剖差异的分类方法仍旧给进化提供补充数据。古生物学也提供了关于生物体积累差异和进化真实时间不可替代的线索。此外,像PCR(聚合酶链式反应)这样的分子技术产生同源序列提供了第一手的资料,使得回答关于地球上生命的历史和关系这样至关重要的问题变得更容易了。4.2分子系统发生分析的优点•遗传关系在解码进化关系上十分重要。•分子时钟假设的最大作用是暗示了分子数据能用来解码所有生命体之间的系统发生关系。•简单说,就是生物体之间分子相似度越高,他们之间的关系就越近。•表型分析——在能够利用分子生物学工具提供的分子数据进行这种分析之前,分类学家只能依靠表型的比较来推断生物体的基因型。•最初的表型检查仅包括大量粗略的解剖特征,后来还研究了行为的、超微结构以及生物化学特性•表型分析的局限性–趋同进化——有时候关系很远的生物体也能进化出相似的表型•例如,如果一个生物学家按照生物体是否有眼睛来构建进化树,那么他可能将人类、两翼昆虫和软体动物放在同一个进化组中–许多生物没有可用来进行比较的易于研究的表型特征•例如,研究细菌之间的关系总是困难重重。即使用显微镜检查,细菌几乎没有明显特征–当比较关系较远的生物的时候,第三个问题出现了,即什么样的表型特征能用来比较呢?•基于DNA和蛋白质序列的分析一般不会存在这样的问题,因为很多同源分子对所有生物都是很基本的•概念系统发生树:三个或者更多基因或生物体之间进化关系的典型图示;•大部分系统发生研究都是围绕系统发生树的概念进行的,它表示了–数据之间的关系–分歧时间–共同祖先的特征4.3系统发生树4.3.1重建系统发生树的术语•系统发生树有时也称为系统树图,它是由一系列的节点和分支组成的,–其中每个节点代表一个分类单元。•分支末端的节点(外部节点)对应一个基因或生物体;•内部节点代表一个推断的共同祖先,它在过去的某个时候分歧出两个独立的分支。ABCDⅠⅡⅢⅣⅤ外部节点内部节点根节点4.3.1重建系统发生树的术语•Newick格式——系统发生树结构的基本信息在计算机程序中常用一组嵌套的圆括号表示,称为Newick格式,用该格式来表示上图中的树,可写成(((Ⅰ,Ⅱ),(Ⅲ,Ⅳ)),Ⅴ)ABCDⅠⅡⅢⅣⅤ•二叉树与多叉树–虽然内部节点可以是多叉,即有三个或者更多的派生分支,但大多数树的内部节点都只有两个分支,称为二叉节点–多叉节点可以用以下的两个方法之一来解释:•一个祖先种群同时产生了三个或者更多的独立分支•过去某时发生了两个或者多个二叉分歧,但是由于可获得数据的限制无法确定它们发生的先后次序–本章系统发生树主要指二叉树•一棵系统发生树的分支模式能表达关于进化事件发生顺序的信息;•一棵系统发生树的分支长度有时用来表示不同数据集分歧的程度。–标度树:是指分支长度与相邻节点对的差异程度成正比的树。–在最好的情况下,标度树是可加的,即连接两个节点的分支的长度准确地表示了它们之间的差异–非标度树:只是将所有外部节点排成行,表示他们之间的亲缘关系,而没有表示它们之间差异程度的任何信息4.3.2有根树和无根树ⅠⅡⅢⅣⅤ根时间ⅠⅡⅢⅣⅤ⑴有根树⑵无根树有根树,单一的节点指派为共同的祖先,从祖先节点只有唯一的路径进化到达其他任何节点。无根树只表明了节点之间的关系,而没有关于进化发生方向的信息;但是通过引入外群或外部参考物种,可以在无根树中指派根节点4.3.2有根树和无根树•只考虑3个物种的时候,有3棵有根(二叉)树,一棵无根树,如下图所示:ⅠⅡⅠⅡⅢⅠⅢⅡⅡⅢⅠⅢ有根树无根树4.3.2有根树和无根树描述少量物种之间可能的进化关系的有根树和无根树的数目物种数目有根树数目无根树数目211331415351051510344594252207025152134580467678757905853580625208200794532637891559375221643095476699771875•n个物种可能的有根系统发生树(NR)和无根系统发生树(NU)数目可用下面的公式计算得到:NR=(2n-3)!∕2n-2(n-2)!NU=(2n-5)!∕2n-3(n-3)!只有一棵树代表了(基因或物种)的实际系统发生关系!4.3.3基因树和物种树区别:基因树为基于单个同源基因差异构建的系统发生树;物种树一般从多个基因数据中分析得出。只考虑一个基因的时候,个体有可能表现出与其他物种的成员关系更近的情况。(下图)–基因分化的发生通常先于产生新物种的种群分离–基因分化事件常常在物种形成前或后都有发生。abcdefG1G2G3SG4G54.3.4特征和距离数据•用于构建系统发生树的分子数据分成两类:(1)距离(distances)数据,常用距离矩阵描述,表示两个数据集之间所有两两差异;(2)特征(characters)数据,存在有限不同状态的特征。–DNA和蛋白质序列数据描述离散的特征;–其他特征数据集的例子包括基于解剖学或行为学的分类法中较常见的特征,如生物体颜色、生物体对某种刺激的反应时间等。–一旦建立了确定所有可能状态之间相似性的标准,特征数据就很容易转化成距离数据;•例如,来自两个物种的两个基因之间的距离值(D)可以简单地用序列的最优比对来确定,计算匹配的核苷酸数目(m),将它除以总的位点数目(t):D=m/t•许多生物学家用“每100个核苷酸改变数”来归一化距离值。•通过蛋白质序列比对时,也可以用同样的方法来计算蛋白质距离。但是,做这样的转换时,大量重要的潜在生物信息可能会丢失。比如,我们知道,一些替换更容易发生在某些特定的核酸和蛋白质序列上,因此比对时,应赋予不同的权重值。•以算术为基础的系统发生树重建方法,常常忽略数据集的生物学上的意义(本章)。表型分类学家喜欢使用这种方法,因为他们把重点放在数据集之间的关系上,而不管他们到达当前状态的途径如何•遗传分类学家一般更加关心进化的途径和模式,倾向于使用更多以生物学为基础的建树方法(第五章)•这两类方法都被广泛使用,并且对大部分数据集都适用4.4距离矩阵法两两距离矩阵是全体有待分析的数据集之间差异的表格化总结,包含用于很多常见系统发生树重建算法的原始数据。要深入理解这些算法背后的逻辑,读者首先应该理解系统发生树到底传递了什么样的信息,从而选择不同的算法•4.4.1非加权组平均法(UPGMA)非加权组平均法(UPGMA)–是最早的距离矩阵法,20世纪60年代早期提出,用来协助进行表型特征的进化分析的–是基于统计的,–像所有基于距离的方法一样,要求数据能够精简为所有被研究的物种两两之间遗传距离的度量。–一般来说,UPGMA方法需要建立一个距离矩阵。UPGMA距离矩阵系统发生树ACBDE•例:4个物种A、B、C、D建立的矩阵,假设其两两距离如下所示:数目ABCBdABCdACdBCDdADdBDdCDdAB表示物种A和B之间的距离,dAC表示物种A和C之间的距离,依次类推。•UPGMA算法先将两个距离最近的物种合成一个复合物种组,–如上表所示,假设距离矩阵中的最小值是dAB,所以物种AB首先组合成一组(AB),•聚类以后,需要更新距离矩阵,计算新组(AB)和物种C和D之间的距离:–d(AB)C=1/2(dAC+dBC),d(AB)D=1/2(dAD+dBD)•然后再将新的矩阵中距离最近的物种再次合成一个复合物种组,•如此反复,直到把所有物种都聚为一类。例:两两矩阵之间的不匹配的核苷酸数目物种ABCDB9C811D121510E15181351020304050A:GTGCTGCACGGCTCAGTATAGCATTTACCCTTCCATCTTCAGATCCTGAAB:ACGCTGCACGGCTCAGTGCGGTGCTTACCCTCCCATCTTCAGATCCTGAAC:GTGCTCGCAGGCTCGGCGCAGCATTTACCCTCCCATCTTCAGATCCTATCD:GTATCACACGACTCAGCGCAGCATTTGCCCTCCCGTCTCCAGATCCTAAAE:CTATCACATAGCTCAGCGCAGCATTTGCCCTCCCGTCTTCAGATCTAAAA最小将物种D和E聚成一类,然后再计算新的距离矩阵将物种D和E聚成一类,然后再计算新的距离矩阵物种ABCB9C811DE物种ABCDB9C811D121510E1518135=1/2(dAD+dAE)13.516.511.5=1/2(dBD+dBE)=1/2(dCD+dCE)将物种A和C聚成一类,然后再计算新的距离矩阵物种BACACDE16.5物种ABCB9C811DE13.516.511.510=1/2(dAB+dBC)12.5=1/2(dA(DE)+dC(DE))•用UPGMA法重建系统发生树DE(D,E)ACDE(A,C),(D,E)ACBDE(((A,C),B),(D,E))物种BACAC10DE16.512.54.4.2分支长度的估计•系统发生树的拓扑结构除了描述序列之间的关系,还可以表达有关序列的分歧程度的信息。标度树能够表达这样的信息,通常称为进化分支图,它的分支长度对应于推断出的序列独立积累替换的时间。•确定进化分支图中每一条分支的相对长度,只要利用距离矩阵中的信息进行简单的计算。如果假设所有家系的进化速率不变,那么内部节点将置于与分叉树上相对应的两个物种距离相等的地方。例:两两矩阵之间的不匹配的核苷酸数目物种ABCDB9C811D121510E15181351020304050A:GTGCTGCACGGCTCAGTATAGCATTTACCCTTCCATCTTCAGATCCTGAAB:ACGCTGCACGGCTCAGTGCGGTGCTTACCCTCCCATCTTCAGATCCTGAAC:GTGCTCGCAGGCTCGGCGCAGCATTTACCCTCCCATCTTCAGATCCTATCD:GTATCACACGACTCAGCGCAGCATTTGCCCTCCCGTCTCCAGATCCTAAAE:CTATCACATAGCTCAGCGCAGCATTTGCCCTCCCGTCTTCAGATCTAAAA4.4.2分支长度的估计•例:A(A,C)(D,E)CDE442.52.56.256.25这个简单的估计分支长度的方法使得UPGMA成为能构造有根系统发生树的少数几种方法之一。dDE=5dAC=8•如果假设所有家系的进化速率不变,那么内部节点将置于与分叉树上相对应的两个物种

1 / 55
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功