比较基因组学原理及应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

比较基因组学原理及应用成员:韩柳阎永伟黄继马寿光朱琳姜南李春丽比较基因组学相关概念韩柳基因组学概念及范畴基因组(genome)泛指一个有生命体、病毒或细胞器的全部遗传物质;在真核生物,基因组是指一套染色体(单倍体)DNA。基因组学(genomics)就是发展和应用DNA制图、测序新技术以及计算机程序,分析生命体(包括人类)全部基因组结构及功能。基因组学概念比较基因组学概念•定义:比较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。•研究内容:种间的比较基因组学和种内的比较基因组学概念工具:1、FASTA2、BLAST3、CLUSTALW基因组分类:1、通过比较确知其功能的。2、在数据库中有相匹配的蛋白,但不知道其功能。3、在现有的数据库中找不到任何相匹配的蛋白质序列的新基因。部分真核、原核生物基因组成成份分析通过基因组数据进行比较基因组学研究•例子:•尿殖道支原体带有已知最小的基因组,可依此确定能自我复制的细胞必需的一套最少的核心基因。•流感嗜血杆菌的基因组为1.83MB,尿殖道支原体的基因组只有0.58Mb,二者相差3倍多,那么,基因组是大小影响了基因的数目还是基因的尺度?•流感嗜血杆菌的基因大小平均900bp,尿殖道支原体的基因为1040bp,他们基因大小差不多•流感嗜血杆菌中平均1024bp有一个基因,尿殖道支原体平均1235bp有一个基因。•结论:基因尺度减小并不引起基因密度的增加和基因本身尺寸的减小。二者的差别在于基因数量上,流感嗜血杆菌基因有1743个ORF,而尿殖道支原体只有470个ORF比较基因组有助于解决进化距离问题测序技术与比较基因组学阎永伟比较基因组学是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。该学科的发展及所取得的成果与序列的积累相同步,尤其是人类全基因组序列的分析与比较使比较基因组学成为整个生物学领域最新、最重要、进展最快和影响最大的学科之一。1.已完成的测序比较基因组学从一开始就是人类基因组计划的一部分。人类基因组计划的原始计划是测定人类和一部分模式生物(如细菌,酵母,果蝇,秀丽隐杆线虫,小鼠等)的全基因组序列。Homosapiens2010年全部完成PantroglodytesLanderetal.2005;MusmusculusWaterstonetal.2002;RattusnorvegicusGibbsetal.2004;DrosophilamelanogasterAdamsetal.2000;EscherichiacoliBlattneretal.1997;SaccharomycescerevisiaeGoffeauetal.1996;CionaintestinalisDehaletal.2002,Smalletal.2007;CaenorhabditiselegansStainetal.2003,Steinetal.1998。HGP完成以后:Gallusgallus鸡Blattneretal.2004,Bostaurus牛Elsiketal.2009,Canisfamiliaris狗Lindblad-Tohetal.2005,Apismellifera蜜蜂Lindblad-Tohetal.2006,Anthocidariscrassispina紫海丹Sodergrenetal.2006Macacamulatta恒河猴Gibbsetal.2007InEntrezGenome,1000completeProkaryoticGenomesareavailable!测序完成情况统计2.测序技术概述绝大多数生物的遗传物质为DNA,然而遗传信息却仅仅由四种碱基——A,T,C,G排列组合而成。自从DNA的双螺旋结构被发现以后,能够知道DNA分子上四种碱基的顺序就成为了一个新的热点。于是,继蛋白质和RNA测序之后,又出现了DNA测序。自1977年出现DNA测序技术至今,第一代测序技术第二代测序技术第三代测序技术(1)测序技术的出现及第一代测序技术1)测序技术的出现1975年,Sanger和Coulson发明了“加减法”测定DNA序列;1977年,又引入ddNTP,发明了双脱氧终止法;1977,Maxam和Gilbert发明了化学降解法测定DNA序列。Fig1.双脱氧终止法测序2)第一代测序技术传统的化学降解法、双脱氧链终止法以及在它们的基础上发展来的各种DNA测序技术统称为第一代DNA测序技术。第一代测序技术在分子生物学研究中发挥过重要的作用,如人类基因组计划主要基于第一代DNA测序技术。目前基于荧光标记和Sanger的双脱氧链终止法原理的荧光自动测序仪(如ABI3730XL)仍被广泛地应用。杂交测序技术也是第一代测序技术,但是并非基于以上两种原理。速度快,但是误差大。Fig.2ABI3730XL(2)第二代测序技术后基因组时代亦即功能基因组时代的测序技术,显著特征是高通量、低成本。主要包括罗氏454公司的GSFLX测序平台、Illumina公司的SolexaGenomeAnalyzer测序平台和ABI公司的SOLiD测序平台。Fig.3Roche454GSFLX平台Fig.4IlluminaSolexa平台Fig.5ABISOLiD平台参考文献:DNA测序技术的发展历史与最新进展,解增言等;DNA测序技术发展及其展望,孙海汐等。(3)第三代测序技术以单分子测序为特点;如:BioScienceCorporation的HeliScopeSingleMolecularSequencer;PacificBiosciences的SingleMoleculeRealTime(SMRT)DNAsequencingtechnology(正在研制);OxfordNanoporeTechnologiesLtd的纳米孔单分子测序技术。中科院北京基因组研究所,2013年,第一台国产样机3.测序技术与比较基因组学DNA测序已经成为分子生物学研究中一种基本的研究手段与工具,对于这种手段的需要也已经极大地促进了DNA测序技术的进步与发展。在此基础上,将会有更多的生物的全基因组序列被测定,那么针对任何一种生物的比较基因组学研究将会变得更加简单。基因组序列分析的计算方法1.引言2.点阵图3.两序列比对4.多序列比对5.数据库搜索朱琳引言人类基因组计划(HGP)遗传图、物理图、序列图和转录图区分两个概念:同源性---------共同的祖先相似性---------定量特征高度相似很可能是同源序列;相似性很低的序列也可能具有同源序列点阵图ACTGTTAGA⊙⊙C⊙T⊙⊙⊙T⊙⊙⊙T⊙⊙⊙A⊙⊙G⊙⊙C⊙ACTGTTAG|||||||ACT-TTAG两序列比对面临的问题:进化的过程中同源序列可经过多次的插入或缺失,导致它们长度不同,这就给比对带来了麻烦。要解决的问题:最优比对算法-----寻找最佳的缺失方式使比对序列的相似度达到整体最大Needleman-wunsch全局比对算法首先构建具有m行n列的矩阵M,根据残基配对的函数,给每个矩阵单元格赋值,将矩阵初始化。再进行变换操作,规则是将某单元格右下方路径中的最大值叠加到该单元格即M(I,j)=M(I,j)+max[M(i+1,j+1);M(i+1,j+2,…,jmax)-gappenalty;M(i+2,…,imax,j+1)-gappenalty]使用最简单的打分系统进行比对,残基相同时分值是1,不同时分值为0,空位罚分。此外还有Smith-waterman算法基因组比对只能对序列密切相关或非常相似的基因组比对,序列太长,既有的算法无能为力方法:suffixtree数据结构软件MUMer能找出两个基因组的DNA序列上最大且唯一的匹配区域,然后除去序列中用Smith-waterman最佳局部比对算法对大量插入序列、重复序列、短变异区域进行局部鉴定时插入的空位,完成这两个基因组序列的比对。多序列比对三条或多条序列的同时比对是序列的分析中最常用的技术之一。通过一系列同源序列的全局比对来实现的递进法:基本思想是同源序列与系统发育相关。具体步骤:1、比对所有可能的序列对。2、用相邻连接法使用两两比对的相似度分值构建(tree)。3、这种树用于指导递进的多序列比对。数据库搜索三大核酸数据库:GenBank、EMBL、DDBJ数据库搜索使用的最广泛的算法:FASTA算法和BLAST算法。FASTA算法运用一种包括四个连续阶段的启发式方法来检测被查序列与一组序列是相似性。BLAST算法采用非常快的算法来查找数据库中与预查询序列最相似是序列。基本思想是:两个同源序列即使有很大的差异,也有可能共有高分值的相似片段,这使我们可以理解可靠的区分相关和非相关的序列。蛋白质序列分析对新蛋白质序列进行分析的第一步是用BLAST进行数据库搜索。如果有明显相似性可以推测其序列的功能如果没有,可用模式识别方法根据特定的结构域或蛋白质家族的特征进行搜索。-----模式数据库已经成为识别新序列的特定功能活性的重要工具。InterPro数据库是最重要的蛋白质模式数据库之一。此外还有•蛋白质信号肽的识别及亚细胞定位的预测•预测卷曲螺旋和螺旋-转角-螺旋结构•蛋白质折叠的识别与分类等种内比较基因组学模式生物姜南•种内基因组的比较•同种群体内基因组存在大量的变异和多态性,正是这种基因组序列的差异构成了不同个体与群体对疾病的易感性和对药物与环境因子不同反应的遗传学基础。•我总结了:•凡是能够用来研究同一种群内两个个体基因组的不同的分子手段都属于种内比较基因组学的范畴。•主流方法是分子标记技术:RAPD,RFLP,AFLP,基因芯片。。。•回顾分子标记水产界举例•李太武老师等用20条随机引物对皱纹盘鲍、杂色鲍进行RAPD分析,结果均能产生清晰可重复扩增产物,计算出各群体扩增位点的多态性比例分别为43.66%和53.05%,群体平均遗传杂合度分别为0.1557和0.1686,群体间的遗传距离0.2898,表明皱纹盘鲍与杂色鲍的亲缘关系较远。模式生物•基因进化上的保守往性和遗传密码的通用性,从某一生物得到的有关基因性质或功能方面的信息往往也适用于其他生物。•个体小,易操作,易培养,繁殖快。•病毒,大肠杆菌,酵母,线虫,果蝇,斑马鱼,小鼠,拟南芥种间比较基因组学研究马寿光黄继•通过对不同亲缘关系物种的基因组序列进行比较,能够鉴定出编码序列、非编码调控序列及给定物种独有的序列。而基因组范围之内的序列比对,可以了解不同物种在核苷酸组成、同线性关系和基因顺序方面的异同,进而得到基因分析预测与定位、生物系统发生进化关系等方面的信息。•1全基因组的比较研究•2系统发生的进化关系分析•比较基因组学的基础是相关生物基因组的相似性。两种具有较近共同祖先的生物,它们之间具有种属差别的基因组是由祖先基因组进化而来,两种生物在进化的阶段上越接近,它们的基因组相关性就越高。如果生物之间存在很近的亲缘关系,那么它们的基因组就会表现出同线性(synteny),即基因序列的部分或全部保守。1.全基因组的比较研究•Synteny可以这样假设,人与小鼠或其它哺乳动物有一个共同的祖先,在漫长的进化中,染色体发生断裂,重排,加上基因内部的变化,成为各种不同的物种。但是未发生断裂重排的完整片段内部的基因组织和连锁顺序在不同的物种中保持不变,这就是synteny,是基因组比较作图的基础所在。•在各种不同的物种中,绝大多数的核心生物功能是由相当数量的orthologous蛋白承担,所谓or-thologous蛋白就是一些在不同物种中有共同祖先的蛋白质。在不同的物种中这些蛋白的数量十分相似,它们主要是在生物体中执行中介代谢,DNA,RNA代谢,蛋白折叠,trafficking,和降解的功能。在较为复杂的生物中,随着功能不断地复杂,就会出现许多蛋白以执行其复杂的功能

1 / 90
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功