基因组学参考资料(李小雨参考自多位同学)目录一/四个“生命之谜”与“五流说”简述................................1二/细说“五流说”..................................................5三/达尔文主义和拉马克主义..........................................6四/表观遗传学......................................................7五/“RNA世界”....................................................9六/RNA的种类和功能(刘瑞君).....................................10七/基因表达调控的方式.............................................13八/持家基因与组织特异性基因.......................................14九/转录组,ChIP-seq,RNA-seq,核小体分布..........................15十/非编码序列.....................................................20十一/人类基因组计划HGP...........................................21十二/三代测序.....................................................23CPG岛..............................................................24C值悖论:..........................................................26基因簇..............................................................26基因突变............................................................26动植物基因组的不同..................................................27遗传异质性和基因多效性..............................................27一/四个“生命之谜”与“五流说”简述(来源:基因组生物学研究欲揭示的四个“生命之谜”(于军))“人类基因组计划”开启了诸多前所未有的新的生命学科分支(比如基因组学、生物信息学、蛋白质组学、转录组学、代谢组学等),推动了前沿技术的不断发展与更新,强化了科学研究的平台化和规模化,从而引导和促进了学科间的交叉和融合。最引人注目的是生物信息学和计算生物学的产生和高速发展,这两个学科的发展推动了高性能计算、规模化生物学数据获取和近期的云平台建设等在生命科学领域广泛和深入的应用。随着DNA测序技术的规模化应用,不同物种的基因组和RNA组(Ribogenome,包括转录组和其它非编码RNA)序列也在不断被解读,数据的积累已成天文数字。DNA测序技术也被用到了所谓表观遗传学(Epigenetics)或称表观组学(Epigenomics)研究领域,比如构成染色体的DNA分子的化学修饰和构象。科学家们不仅有机会获取最基本的遗传信息,比较不同物种的基因组序列,揭开诸多令人困惑的“科学谜团”,同时也打开了新的“潘多拉匣子”,从而遇到了更复杂、更深刻、更具有挑战性的新问题。使我们不得不静下心来思考很多及未解和前所未遇的问题。遗传学和物种进化理论是生物学的诸多重要理论和学科基石之一。“下一代”(Next-generationsequencing,NGS)DNA测序技术从根本上解决了发现遗传与变异的手段,使我们可以获取任何物种和其群体所携带的遗传多样性信息。除了资源导向强烈的基因型(Genotype)与表现型(Phenotype)的关联研究(Genome-wideassociationstudy,GWAS)外,我们同时也要思考跨度(学科)更大和更深刻(历史)的理论问题。那么,就最基本的生物学问题而言,我们应该最关注的是什么?就生物学而言,尤其是新兴起的基因组生物学,我们能凝练出哪些未解之谜?我们能够找出多少定势和规律?这里我们不妨先提出并初步探讨其中的四个。2.“复制与转录负担之谜(TheReplication-transcriptionLoadsDilemma)”第一个“生命之谜”是要回答基因组的基本结构特征[1–3],包括:(一)植物与动物基因组结构有哪些不同?这些不同源自何处?(二)脊椎动物与无脊椎动物,比如节肢动物基因组结构有哪些不同?(三)不同高级物种谱系(Lineages)和低等物种谱系基因组之间的有哪些结构差异和特点?例如,高等植物基因组有很多基因间区(intergenic,是基因之间没有基因的部分,大多富集被称为long-terminal-repeat或LTR的重复转座子序列),但是这些部分大多等于(如在拟南芥和水稻)或超过(如玉米)基因组大小的50%,有时候也会是整个基因组核苷酸总数的95%(例如大麦和小麦)以上。因此,我们不禁要问:为什么植物要复制这些不编码蛋白质的DNA序列呢?为什么不单独增加一些编码基因的序列就可以了呢?难道这里是“进化”的“死角”和“垃圾站”?在基因组结构上与植物相反的是:动物基因组将重复序列放在了基因的内含子里面(内含子是基因的一部分,与外显子构成基因的结构部分)[2,4],不仅被复制,而且还被转录,最后在翻译之前又被毫不吝惜地丢掉:降解成核苷酸了。从表面上看,这也是一种资源的浪费。因此,我们称之为“复制与转录负担”之谜,即植物基因组复制多余的非编码DNA,动物基因组转录多余的非编码DNA为RNA。同时,我们认为复杂的分子结构和细胞过程组合(包括剪切、加工等)很难同时变得更为复杂,因此不同的生物谱系选择了不同组合或者变演的途径[4]。如果我们检测单细胞真核生物的基因组结构,会发现它们的基因组结构有的像植物(比如卵菌),而有的则像动物(比如面包酵母)。那么,会不会植物和动物有着不同的单细胞祖先呢?答案应该是肯定的,只是我们还没有这么想和去认真寻找证据和论据而已。例如复制的机器(包括多倍体的形成)和转录的机器这里又引伸出诸多新的问题,举几个例子:(1)这种基因结构的二相性是如何产生的?(2)复制依赖于DNA主导的分子机制本身的复杂性,这些复杂分子机制可否实现彻底解析?(3)基因结构的二相性为什么还伴随重复序列的不同?就产生的历史而言,这些重复序列的潜在功能可能是什么?(4)基因组的增大,意味着复制负载的增大,其动力何在?3.“多倍体之谜(ThePolyploidyDilemma)”除了横向基因转移和个别基因的(随机)加倍,很多单细胞真核生物是通过全基因组的多倍体化(WholeGenomeDuplication,WGD)来获取新基因的[5]。一般认为多倍体的形成是通过全基因组加倍(可以来自同源基因组,也可以来自异源基因组)后形成多倍体基因组,然后经过持续的基因丢失最后实现二倍体化,成为新的二倍体,也被称为古多倍体。这些多倍体是如何产生,又如何在细胞周期中复制的呢?尽管在基因的水平上有人给出了可能性和假说,但是在细胞水平上我们其实还是缺少证据的。多倍体在植物基因组是非常常见的(无论是古多倍体还是新形成的现代多倍体),但是在节肢动物和无脊椎动物确是极其罕见的(到目前还没有发现)。在脊椎动物多倍体化的分布是“低多高无”,不断变化的。低等脊椎动物,比如鱼类和两栖类大部分是多倍体。可是高等脊椎动物,比如爬行类、哺乳类和鸟类则几乎没有多倍体基因组(除了某些体细胞,譬如肝脏细胞、膀胱表皮细胞、肌纤维细胞等的多核亦称多倍体现象外)存在。很多关于多倍体化问题的答案应该在单细胞真核生物、低等脊椎动物和高等植物基因组的变化中去找。节肢动物几乎没有全基因组多倍体化的证据。4.“生殖系之谜(TheGermlineDilemma)”第二个“生命之谜”是基因突变和自然选择之间的在分子水平上的复杂性。200余年来,达尔文的进化思想和后人们的种种理论主导了生物学各个领域。达尔文和他的继承者们否定了拉马克主义的进化理论(以“用进废退”和“获得性遗传”最为著名),认为遗传突变是随机产生的,而且大部分是中性的,或近于中性的弱有害突变。然而,我们十余年来的研究发现突变和选择的机制其实既有符合达尔文主义原理的,也有符合拉马克主义原理的,远比人们已知和想象的要复杂和细微得多。从数量来看,“达尔文主义变异”(或称随机突变)毫无疑问占据了主要的地位;但是从复杂性来看,“拉马克主义变异”(非随机变异和非蛋白质功能选择等)则更功能化、更细腻、更无所不在,因此也更神奇。这里介绍几个例子。首先在研究基因表达时,我们发现基因表达越高,其突变率就越高[6,7]。尽管说这个现象是普遍存在的,但是在禾本科植物基因组中表现得最为突出,形成了一个GC含量变化的梯度[7]。脊椎动物谱系里的温血动物(鸟类和哺乳类)基因组表现得更突出。另一个例子是组织特异性表达基因的突变率大大地高于(约为30%)看家基因(在所有细胞中都表达的基因)的突变率(已经扣除自然选择的影响)[6]。这个现象近乎神奇,因为组织特异性基因在生殖系细胞(卵母和精母细胞)中表达其实和看家基因、组织特异性基因(仅在不同特定组织和细胞中被调控和表达)没有什么必然的关系。只有在染色体结构上的高维组织形式与基因在细胞中的有序表达(比如器官发育和组织分化)相关联时,这样的结果才能出现。因此,这个谜又称为“生殖系之谜”。也就是说,在生殖细胞里,发育和器官分化的信息就已经存在,后来又被“有序地释放”出来。DNA甲基化在斑马鱼受精卵早期发育过程中“父系”标记取代“母系”标记的过程就是一个很好的例证[8–10]。在自然选择方面,我们也观察到选择机制几乎无处不在。比如,基因簇的选择问题。在脊椎动物和植物基因组中,大部分基因是成簇存在的,它们的基因簇非常保守和稳定,所以有比较好的共线性。但是,节肢动物基因组中的基因簇结构就很差[11]。基因簇的存在主要是基因共表达的一种结构形式。在基于基因功能的选择上,基因簇也具有特殊性,比如节律调控基因就倾向于从基因簇中“逃逸”,位于基因簇之外[12]。基因结构本身也有很多选择因素的存在,比如最小内含子(一类物种或谱系特异,大小固定的内含子)的选择,不仅有大小的选择(倾向于一个较为固定的长度范围),也有位置的选择(倾向于富集在基因的3’端)。5.“表观组学之谜(TheEpigenomicsDilemma)”遗传与非遗传(或称为环境和表观遗传的总和)的关系一直是遗传学的困惑。尽管分子生物学也有整整一甲子的历史了,但是遗传学与分子生物学,尤其是与细胞生物学的学科边界还是有很深的鸿沟。比如,细胞生物学家在选择研究对象时往往忽略遗传学因素。分子生物学家对机制和分子之间的相互作用感兴趣更多。目前生物学研究的总体趋势是“分久必合”,是信息和知识的大整合时期。逻辑很简单,生命是复杂的,因此科学研究也应该走向接纳复杂性、认识复杂性和解决复杂问题。过去我们对非遗传因素的定义非常粗略,现在是重视的时候了。6.“五流说”简述我曾提出了所谓的“五流说”,强调遗传学只是基于“信息流”的学问。其它四个“流”是用来定义传统遗传学没明确定义的可遗传、部分遗传和非遗传因素。比如“操作流”就强调生命现象的分子生物学基础和机制,强调DNA、RNA和蛋白质分别主导的细胞学机制,它们毫无疑问会有不同的起源,也会有所分工、有所侧重、有所不同。“分室流”的提出是在于拓展发育、分化、细胞结构等研究的范围和促进知识的必要整合。同时,这些领域也应该思考进化的因素,比如脊椎动物心室