6真核生物的遗传分析 真菌、原生动物、藻类、植物和动物都是真核生物(eucaryote),它们的遗传物质主要集中在有核膜包围的细胞核中,DNA和特殊的蛋白质相结合组装成为染色体。通常一个基因组包含若干个染色体,每条染色体具有多个复制起点,含有大量重复序列和很多不编码序列。功能上相关的基因可以位于不同的染色体上,没有明显的操纵子结构,但存在不同类型的基因家族(genefamily)。真核生物基因常常被内含子(intron)序列隔开,在剪接(splicing)过程中这些内含子被切除,剩余编码氨基酸的外显子(exon)连接起来构成一个成熟的mRNA,随后mRNA翻译成蛋白质。无论是单细胞真核生物,还是多细胞真核生物,其细胞都是通过有丝分裂方式进行无性生殖,大多数真核生物通过减数分裂形成配子进行某种形式的有性生殖,随后配子结合形成合子,发育成为成熟的生物体。真核生物基因组同样呈现出不固定性,不仅有基因丢失、扩增与重排,而且转座成分首先是在真核生物中发现的。随着人类基因组计划的完成,迄今已有几十种真核生物完成基因组测序,尚有几百个物种的基因组计划正在进行。所取得的一系列令人瞩目的成就为破解生命密码、揭示其规律奠定了坚实的基础。本章重点是讨论真核生物的基因组、基因定位与染色体作图和真核生物同源重组的分子机制,并介绍基因丢失、扩增与重排及其遗传学效应。111 6畅1 真核生物基因组6畅1畅1 C值悖理 一个物种单倍体的染色体数目及其所携带的全部基因称为该物种的基因组(genome)。因此,基图61 各类生物基因组大小因组是生物体内遗传信息的集合。一个物种基因组的DNA含量是相对恒定的,它通常称为该物种DNA的C值(Cvalue),即单倍体所含DNA量。不同物种的C值差异极大,最小的C值是支原体(mycoplasma),小于106bp,最大的是某些显花植物和两栖动物的C值,可达1011bp。从原核生物到真核生物,其基因组大小和DNA含量是随着生物进化复杂程度的增加而稳步上升的。随着生物结构和功能复杂程度的增加,需要的基因数目和基因产物种类越多,因而C值也越大(图61)。 尽管C值大小随着生物的复杂程度而增加,然而在结构与功能相似的同一类生物中,以至亲缘关系很近的物种之间,它们的C值差异仍可达10倍乃至上百倍。如两栖类、被子植物不同物种之间,其C值小的低于109bp,大的达到1011bp。如豌豆与蚕豆均属豆科,又都只有12条染色体,而DNA含量却相差7倍。特别是万物之灵的人类,其C值只有109bp,而肺鱼的C值则为1011bp,居然比人高出100倍,很难设想两栖类、肺鱼的结构与功能比哺乳动物包括人类更复杂。由此表明C值的大小并不能完全说明生物进化的程度和遗传复杂性的高低,也就是说,物种的C值及其进化复杂性之间没有严格的对应关系,这种现象称为C值悖理(Cvalueparadox),或C值佯谬(图62)。图62 各类生物单倍体DNA含量6畅1 真核生物基因组112 表61 真核生物(2C)的DNA含量单位:pg真核生物DNA(2C)两栖鲵(Amphiuma)168畅0肺鱼(Protopterus)100畅0蝾螈(Salamandra)85畅3金线蛙(Ranaesculenta)16畅8牛[Bostaurus(ox)]6畅4人(Homosapiens)6畅4土耳其盘羊(Ovisaries)5畅7黑腹果蝇(Drosophilamelanogaster)0畅2豌豆(Pisumsativum)28畅0蚕豆(Viciafaba)4畅0玉米(Zeamays)11畅0酿酒酵母(Saccharomycescerevisiae)0畅026(C) 从图62和表61可见,牛与人的DNA含量相等,包括人类在内的哺乳动物基因组DNA的最高含量与爬行动物相同。众所周知,鸟类是由爬行动物进化来的,而软骨鱼类是脊椎动物中最低的类群,但鸟类DNA的最高含量竟然与爬行动物DNA的最低含量一样,而且还远不如软骨鱼类DNA的最低含量,特别是软骨鱼类DNA含量比硬骨鱼类、爬行类、鸟类、哺乳类都高,在这里C值与进化趋势完全相反。 人们对C值悖理已经提出许多解释:包括基因组的部分或完全加倍、转座(transposition)、反转录已加工假基因(retroprocessedpseudogenes)、DNA复制滑动(replicationslippage)、不等交换(unequalcrossover)和DNA扩增(DNAamplification)等,Petrov等又提出一个解释是:各种生物基因组的大小是由于基因组中长期积累起来的过量的非编码DNA被清除的速率不同所造成的结果,即DNA丢失的速率愈慢,那么基因组DNA含量愈高。这种说法与以前一些解释大同小异。真核生物基因组中是存在大量的不编码基因产物的DNA序列。一般而言,愈是简单的生物,基因组中不编码蛋白质的DNA序列愈少,它们的结构基因的数目愈接近于相应DNA含量所估计的基因数。如MS2的遗传物质是RNA,其含量为3000个核苷酸单链RNA,按每个基因平均为1000个核苷酸计算,刚好具有3个结构基因,编码3种蛋白质;又如λ噬菌体中除去附着位点(attP)、复制起点、黏性末端、基因的启动区和操作区外,其余全部为结构基因编码区。同样在大肠杆菌基因组中除控制区外,也都是编码蛋白质的结构基因的DNA序列。然而真核生物的情况就大不相同了,就哺乳动物而言,由于结构基因有内含子,因而基因长度可比原核生物增加5~8倍,即使按如此大小的基因进行推算,那么哺乳动物的基因组具有400000~600000个基因,这显然是不可能的,按各种实验结果估计,有功能的基因数不会超过这个数字的10%。随着人类基因组计划的完成,发现人类基因组含20000~25000个基因,那么在生物进化中为什么要积累并保留愈来愈多的冗余DNA?而它们之间的C值悖理仅仅是由于删除这些冗余DNA速率的缘故?再说这些非编码序列或冗余DNA都是不含遗传信息的DNA吗?这些序列的结构与功能如何?非编码序列除了调控序列、rRNA基因、tRNA基因外,它们还可能对基因多样性形成、对基因组进化(genomeevolution)等具有重要的生物学意义。这些问题都有待进一步阐明。6畅1畅2 N值悖理 随着各类生物基因组测序工作的完成,特别是人类基因组计划的研究报告发表后,认为人类基因组只含大约25000个基因,而只有1000多个体细胞的线虫却含有近20000个基因,人类真正的遗传6 真核生物的遗传分析113 信息只比低等线虫多1/5,更难以理解的是比线虫高级的果蝇则只有14000个基因,其遗传信息只有线虫的70%。人们将生物的基因数目与生物在进化树上的位置不存在正相关的事实称为N值悖理(Nvalueparadox)或N值佯谬。 从N值悖理说明,生物体的复杂性不仅仅是基因数目的函数,随着生物体复杂性的增加,基因的大小和基因结构的复杂性亦增加。较为复杂的生物体有一些机制使一个基因产生多个蛋白质分子,如内含子的可变剪接(alternativesplicing),不同的剪接方式产生不同的mRNA,随后通过翻译产生不同的蛋白质产物。据估计,人类基因组中,一大半基因具有可变剪接的调节而形成大量不同蛋白质的异构体。 另外,随着生物体复杂程度的提高,其基因组中的基因重复程度越高,大肠杆菌含有约1345个重复基因,而果蝇含有5536个。基因结构复杂性的增加还体现在结构域(domain)的数目上。域是一种特殊的蛋白质序列元件,一个域一般与一种功能有关,如DNA结合域。果蝇中含有5个以上结构域相同或不同的蛋白质有100个左右,而酵母中仅有20个蛋白质含有相同数目的域。内含子的数目也是随着生物体复杂性的增加而增加的。酿酒酵母(S畅cerevisiae)基因组中含有220个内含子,而果蝇保有41000个内含子。有学者提出生物的复杂性不能仅仅用基因的数目来衡量,而应该用整个基因组的理论上的转录组(transcriptome)来定义。何况真核生物基因依据序列的相似性组成许多基因家族,其序列的相似性一般又转化为功能的保守性,在每一个基因家族中可以有成千上万个基因,但基因组序列鉴定出的全部基因中有30%到50%不具有可测的功能,特别是在高等真核生物中基因家族中大量的基因功能无法确定。总之,对N值悖理现象尚待作出更为合理的解释。6畅1畅3 真核生物基因组DNA序列的复杂度 真核生物基因组DNAC值和N值悖理现象都表明其DNA序列的复杂度,为此可通过复性动力学来检测基因组DNA序列的复杂性。也就是通过DNA的变性(denaturation)和复性(renaturation)反应的动力学过程分析DNA序列的性质,由于复性的速率取决于互补的DNA序列之间的随机碰撞,所以DNA复性是一个双分子二级反应。单链消失速度的微分方程为:-dCdt=kC2其中:C为单链DNA的浓度(单位是每升的核苷酸摩尔数);t为时间(单位为s);k为重组速率常数(单位是L·mol-1·s-1),k取决于阳离子浓度、温度、片段大小和DNA序列的复杂性。上式可改写为:-dCC2=kdt当t=0时,C=C0,将上式积分:-1C0-1C=kt即:1C-1C0=kt,改写为:CC0=11+kC0t当t=0时,C=C0,表明所有DNA都是单链,C0为DNA总浓度。复性分数C/C0是起始浓度和经过时间的乘积C0t的函数,这样的函数绘成图称为C0t曲线(图63)。 从方程式可见控制复性反应的参数是C0t,如当t=t1/2时,即C/C0=1/2时,也就是50%单链复性时,则方程为:CC0=12=11+kC0t1/2,因此C0t1/2=1k。 如果基因组中每一种基因只有一个,即都是单拷贝序列,那么基因组愈大则基因组的复杂性愈大,复性速率愈小,k也愈小,所以C0t1/2与非重复序列的基因组大小呈正比。即6畅1 真核生物基因组114 图63 不同物种核酸的C0t曲线基因组A的C0t1/2基因组A的核苷酸对数=基因组B的C0t1/2基因组B的核苷酸对数 图63表明,C0t1/2与基因组的大小成正比。其中poly(U)+poly(A),其kC0t1/2=1个核苷酸对,因而复性最快;MS2是RNA噬菌体,T4为DNA噬菌体,每个基因组的大小用箭头标于图的上方。 不同生物基因组的C0t1/2是不相同的,C0t1/2的位置除了决定于基因组的大小以外,还取决于每个基因的核苷酸序列的重复次数,重复次数愈少则复性愈慢,C0t1/2的位置愈后;重复次数愈多,C0t1/2位置愈前。真核生物基因组的复性曲线往往出现2个或3个明显不同的C0t1/2位置,说明这类基因组中包含着重复次数显然不同的几个成分(图64),图64是假设的一个真核生物基因组复性曲线。图64 真核生物DNA复性动力学模式图6 真核生物的遗传分析115 从图64可以看出,最后复性这部分DNA的C0t1/2=630,它占全部DNA的45%,相当于3畅0×108bp,重复频率为1;中间这部分DNA的C0t1/2=1畅9,占全部DNA的30%,相当于6畅0×105bp,该DNA序列重复频率为350;复性最快DNA的C0t1/2=0畅0013,占基因组DNA的25%,相当于340bp,重复频率为5×105。显然第一部分,即复性最慢的部分是单拷贝DNA序列,第二部分为少量重复或中度重复DNA序列,第三部分为高度重复DNA序列。因此,真核生物基因组序列大致可分为3种类型。(1)单拷贝序列(uniquesequence)亦称非重复序列(nonrepetitivesequence) 在一个基因组中只有一个拷贝或2~3个拷贝。真核生物的大多数基因在单倍体中都是单拷贝的。不同生物基因组中单拷贝序列所占的比例是不同的(图65)。原核生物中一般只含有非重复序列,较低等的真核生物中大部分DNA也是单拷贝的。动物细胞将近50%DNA是中度或高度重复的,特别是植物和两栖类生物中单拷贝DNA序列降低,而中度和高度重复序列增加。图65