生物信息学Bioinformatics编号名称学时第一章生物信息学引论2第二章生物信息学的生物学基础2第三章生物信息学数据库资源及应用6第四章DNA和蛋白质序列分析4第五章系统发生分析4第六章基因组学与基因预测6第七章蛋白质结构域功能预测4第八章电子克隆的原理和应用4SpeciesPhylogenyOrangutanGorillaChimpanzeeHumanFromtheTreeoftheLifeWebsite,UniversityofArizonaGlobalPhylogenyofFullySequencedOrganismsScience.2006;311(5765):1283-7Towardautomaticreconstructionofahighlyresolvedtreeoflife生物学家:Wehaveadream…•TreeofLife:重建所有生物的进化历史并以系统树的形式加以描述梦想走进现实:How?•最理想的方法:化石!——零散、不完整比较形态学和比较生理学:确定大致的进化框架——细节存很多的争议比较形态学证据(Comparativemorphology)普适性由4种核酸组成分子水平的进化表现为:DNA序列的演化、氨基酸序列演化、蛋白质结构的演化可比较性比较不同物种的有关DNA序列建立DNA序列的演化模型、氨基酸序列的演化模型(数学模型)蛋白质结构的演化模型(形态、性状的演化模型?)基因组编码信息的丰富与形态、性状包含的信息相比,基因组序列包含更多、更复杂的信息结构第三种方案进化学的分子途径分子系统发育学MolecularPhylogenetics分子系统学MolecularSystematicsWhatcanwedoformolecularevolution?序列比较:源于同一祖先DNA/氨基酸序列的两条DNA/氨基酸序列,考察二者的差异。序列差异:进化过程中分子突变的痕迹分子进化:以累计在DNA/氨基酸分子上的历史信息为基础,研究分子水平的生物进化过程和机制。分子系统学为生物分类问题提供了许多崭新的见解。基因突变1、核苷酸替代、插入/缺失、重组2、基因转换固定在生物个体以及物种内遗传漂变自然选择传递给后代产生新的形态、性状分子系统学是研究进化机制的一个重要工具。生物进化的分子机制性状改变DNA分子的改变核苷酸替代substitution核苷酸缺失deletion核苷酸插入insertion核苷酸倒位invertionDNA序列的突变•从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系——treeoflife;物种分类•大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析;功能预测•进化速率分析:例如,HIV的高突变性;哪些位点易发生突变?分子进化研究的目的TsarNicholasIIEstablishingtheidentityofAnnaAndersonManahanAnnaAndersonAnastasia?《真假公主》——1917年俄国末代王朝被推翻,贵族与侍卫全部逃走,而沙皇可怜的儿子老少一个都没走脱,并于1918年被全部处决。但民间却流传着沙皇的小女儿死里逃生,远走他乡的故事。为了得到俄国沙皇的一千万遗产,许多人绞尽脑汁寻找安娜公主,终无所获。俄国贵族后裔布丁将军终于找到一位外貌气质酷似安娜公主的女子,于是训练她皇室的各种礼仪及相关的人和事,安娜公主过关斩将。顺利和皇太后相认,就在太后要宣布安娜公主为遗产继承人并与保罗定婚时,安娜公主与布丁悄然消失,结局出人意料……Contents•第1节基本概念•第2节距离法•第3节常用分子进化与系统发育分析的软件•第4节生物进化理论与分子进化的讨论第一节基本概念基本概念:•系统发生(phylogeny)——是指生物形成或进化的历史•系统发生学(phylogenetics)——研究物种(遗传学特征)之间的进化关系,认为特征相似的物种在遗传学上接近.系统发生的结果常以系统发生树表示;•系统发生树(phylogenetictree)——表示形式,描述物种(遗传学特征:形态,基因序列,蛋白质序列等等)之间进化关系系统发生树:物种(遗传特征)之间的关系;进化树:从低等到高等,有始有终•经典系统发生学主要是物理或表型特征如生物体的大小、颜色、触角个数•即通过表型比较来推断生物体的基因型(genotype),研究物种之间的进化关系.•有时候亲缘关系远的物种也能进化出相似的表型,所谓的趋同进化(convergentevolution).所以表型为依据的进化分析有时候并不正确.•如是否有眼睛?现代系统发生学利用从遗传物质中提取的信息作为物种特征具体地说就是核酸序列或蛋白质分子根据现有生物基因或物种多样性重建生物的进化史是一个非常重要的问题。根据核酸和蛋白质的序列信息,可以推断物种之间的系统发生关系.基本原理:从一条序列变为另一条序列所需要的变换越多,两条序列的相关性就越小,从共同祖先分歧的时间越早,进化距离越大;反之,两个序列越相似,它们之间的进化距离可能越小.所有的生物都可以追溯到共同的祖先,生物的产生和分化就象数一样地生长,分叉,以树的形式来表示生物之间的进化关系是非常自然的事.系统发生树是一种二叉树(每个节点最多有两个子节点),由一系列的节点(nodes)和分支(branches)组成,每个节点代表一个分类单元(物种或序列),节点之间的连线表示物种之间的进化关系。枝长branchlength通常代表在该分枝中曾发生过的变化数。系统树可以是有根的rooted也可以是无根的(unrooted).在有根树中存在一个被称为根特殊节点由此导向任何别的节点都只有唯一图.每一途径中的方向与进化时间相对应.而根则是所有正被研究的的共同祖先.无根树是一种只将各间的关系具体化而未定义进化途径的树图.系统发生树性质:(1)如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都有联系的分类单元;(2)如果找不到可以作为树根的单元,则系统发生树是无根树;(3)从根节点出发到任何一个节点的路径指明进化时间或者进化距离。•直系同源(orthologs):同源的基因是由于共同的祖先基因进化而产生的.•旁系同源(paralogs):同源的基因是由于基因复制产生的.直系同源与旁系同源必须了解的概念:paralogsorthologsparalogsorthologs思考:用于分子进化的序列必须是直系or旁系同源才能真实反映进化过程?Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Phylogramsshowbranchorderandbranchlengths进化树,有分支和支长信息进化分支图,进化树Cladogramsshowbranchingorder-branchlengthsaremeaningless进化分支图,只用分支信息,无支长信息。Rootedbyoutgrouparchaeaarchaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryotebacteriaoutgrouprooteukaryoteeukaryoteeukaryoteeukaryote无根树archaeaarchaeaarchaea有根树,无根树,外围群有根树外围群abcdacbdadbc考虑4个分类群时,共有3种可能的无根树考察类群数为m(m3)的系统树,其可能的拓扑结构数目为:有根树无根树m=10:34,459,425种m=10:2,027,025种当m较大时,选出真实树的拓扑结构十分困难。)!2(2)!32(2mmm)!3(2)!52(3mmm分支数目:有根树无根树内部分支数目:有根树无根树内部节点数目:有根树无根树无根树和有根树:潜在的数目#Taxa无根树有根树31343155151056105945794510,395…30~3.58X1036~2.04X1038Taxa增多,计算量急剧增加,因此,目前算法都为优化算法,不能保证最优解物种树:代表一个物种或群体进化历史的系统发育树两个物种分歧的时间:两个物种发生生殖隔离的时间基因树:由来自各个物种的一个基因构建的系统发育树(不完全等同于物种树),表示基因分离的时间。abcdef基因分裂基因分裂基因分裂物种分裂系统发育树的种类——基因树、物种树期望树:一个用无限长的序列或每一分支的期望替代数构建的树理论上:假设所研究的序列无限长,从中随机抽样进行统计分析。实际情况:所研究的序列是短序列,统计得到的替代数目存在大量随机误差。现实树:建立在实际替代数基础上的树重建树构树方法系统发育树的种类——期望树、现实树和重建树构建系统发育树的数据1、特征数据(characterdata):提供了基因、个体、群体或物种的信息2、距离数据(distancedata)或相似性数据(similaritydata):涉及的则是成对基因、个体、群体或物种的信息。距离矩阵距离数据可以由特征数据计算得到。反之?系统发育树的构建构造系统发育树的主要方法–基于距离的构建方法Fitch-Margoliash法邻接法(NeighborJoiningMethod)非加权组平均法最小进化方法–基于离散特征的构建方法最大简约法最大似然法进化简约法相容性方法构建系统发育树的主要过程拓扑结构的判别(从大量的拓扑结构中搜寻、判别)一个既定拓扑结构的分支长度的估计最优原则构建进化树的一般原则第二节系统发育树的构建方法之一距离法1Fitch-Margoliash方法(FM法)2邻接法(NeighborJoiningMethod)3非加权分组平均法(UnweightedPairGroupMethodwithArithmeticmean,UPGMA)3最大简约法(MaximumParsimonyMethod)4最大似然法(MaximumLikelihoodMethod)首先要获得所有分类群之间的进化距离。系统发育树的构建是基于进化距离之间的关系。如何获得所有分类群之间的进化距离选定分类群共同的特征序列——氨基酸序列、核苷酸序列例:人、马、牛、袋鼠、蝾螈、鲤鱼的血红蛋白链的氨基酸序列(140aa);人、猕猴、黑猩猩的线粒体DNA中细胞色素b基因的核苷酸序列(1,125bp);比较两两序列之间的差异p(序列比对算法)根据不同的概率统计模型,由两条序列的差异p值构建它们的进化距离氨基酸序列:PC(Poisson校正)距离、距离核苷酸序列:Jukes-Cantor模型、Kimura模型、HKY模型等……PC距离p距离时间单位:千万年简单的距离矩阵1.Fitch-Margoliash方法(FM法)D和E最接近!分成三组:D,E,以及ABCDE距离=d+e(1)D到ABC间的平均距离=d+m(2)E到ABC间的平均距离=e+m(3)(2)-(3)+(1)d=4,e=6C最接近DE!分成三组:C,DE,以及ABc+g+(e+d)/2=19(1)c+f+(a+b)/2=40(2)(e+d)/2+(a+b)/2+f+g=41(2)(1)+(2)-(3)得:c=9c+g+(e+d)/2=19(e+d)/2=5,c=9,则g=5由:(a+b)/2+f+g+(d+e)/2=41得:f=20由:a+f+c=39得:a=10,则b=122.邻接法(NeighborJoiningMethod)最小进化(ME)思想:在所有可能的拓扑结构中,选择分支长度和S最小作为最优树。(全局优化思想)(Edwards&Cavalli-Sforza,1963)Saitou&Nei(1987):在每一阶段应用最小进化原理,是ME方法的简化。ACD