1第六章真核生物的遗传分析—————————————————————遗传学·第六章·真核生物的遗传分析2本章主要内容:讨论真核生物的基因组、基因定位与染色体作图和真核生物同源重组的分子机制,介绍基因丢失、扩增与重排及其遗传学效应。—————————————————————遗传学·第六章·真核生物的遗传分析3—————————————————————遗传学·第六章·真核生物的遗传分析6.1真核生物基因组6.2真菌类的四分子分析与作图6.3真核生物重组的分子机制6.4基因转变及其分子机制6.5体细胞交换与基因定位6.6体细胞融合与基因定位6.7真核生物基因的删除与扩增及重排46.1真核生物基因组6.1.1C值悖理6.1.2N值悖理6.1.3真核生物基因组DNA序列的复杂度56.1.1C值悖理►一个物种单倍体的染色体数目及其所携带的全部基因称为该物种的基因组(genome)。►基因组DNA测序的结果表明基因组中不仅包含着整套基因的编码序列,同时还包含着大量非编码序列,即基因之间的序列。这些序列同样包含着遗传指令(geneticinstruction)。因此,基因组(应该)是整套染色体所包含的DNA分子以及DNA分子所携带的全部遗传指令。6★生物体的单倍体基因组所含DNA总量称为C值(C-value)每种生物各有其相对恒定的C值;不同物种的C值之间有很大差别•能营独立生活的最小的生物——支原体的C值不到106bp;•一些显花植物和两栖类动物的C值则可多达1011bp相差10万倍。C值与生物的进化有什么关系?生物的C值,即基因组的DNA总量是不是随着生物的进化而相应地增加?7一方面:在一些低等生物中,随着生物进化,增加了生物体的结构和功能的复杂性,基因组也相应地增大即C值↑。如蠕虫的C值大于霉菌、藻类、真菌、细菌和支原体。8显花植物两栖动物9•另一方面:随着进一步的进化,在其他生物中则看不到这种规律。•显花植物和两栖类动物的基因组最大,两栖类动物C值小的109bp大的1011bp;•软骨鱼、硬骨鱼甚至昆虫和软体动物的基因组都大于包括人类在内的哺乳动物的基因组;•爬行类和棘皮动物的基因组大小同哺乳动物几乎相等。10因此,从总体上说:生物基因组的大小同生物在进化上所处的地位及复杂性之间无严格的对应关系,这种现象称为C值悖理(C-valueparadox)。11人们对C值悖理已提出许多解释:包括基因组的部分或完全加倍、转座、反转录已加工假基因、DNA复制滑动、不等交换和DNA扩增等;Petrov等又提出一个解释:各种生物基因组的大小是由于基因组中长期积累起来的过量的非编码DNA被清除的速率不同所造成的结果,即DNA丢失的速率愈慢,那么基因组DNA含量愈高。12N(numberofgenes)值悖理(Nvalueparadox):物种的基因数目与生物进化程度或生物复杂性的不对应性,被称为N值悖理或G(numberofgenes)值悖理。6.1.2N值悖理13面对由基因组测序和注释所揭示出来的线虫、果蝇、植物以及人等的有关蛋白质编码基因的数目如何进行解释?如:人的基因组(3300Mb)——25,000个左右的基因;线虫(C.elegans)基因组(97Mb)——19,000个基因;果蝇(D.melanogaster)基因组(常染色质部分的120Mb)——13,600个基因;啤酒酵母(S.cerevisiae)基因组(12Mb)——约6,000个基因;水稻(O.sativa)基因组(389Mb)——37,544蛋白质编码基因等等。14非常明显,果蝇基因组比线虫基因组大,进化地位比线虫高,而编码基因反而比线虫少;人的进化地位最高,基因组应该最复杂,但编码的基因还没有水稻基因组的多。15显然,要理解每一个物种发育、代谢、生长、繁殖、行为等的本质,仅用基因组序列测定的结果不能直接地回答这些问题。在对基因组进行注释后,人们试图用基因组的结构和基因数目的多少来说明基因的功能以及各物种间的关系也不是一个简单的问题。16真核生物基因组DNAC值和N值悖理现象都表明其DNA序列的复杂度,为此可通过复性动力学来检测基因组DNA序列的复杂性。即通过DNA变、复性反应的动力学过程分析DNA序列的性质,由于复性的速率取决于互补的DNA序列之间的随机碰撞,所以DNA复性是一个双分子二级反应。6.1.3真核生物基因组DNA序列的复杂度17(1)序列复杂性(sequencecomplexity)同一类生物中基因组大小相差悬殊,其主要差别在于“多余”DNA的量的差别。“多余”DNA量多,则基因组大;反之,则小。所谓“多余”DNA主要是重复序列,即这种DNA序列在基因组中可以有不止一个拷贝。不同序列的总长度称为序列复杂性;或者说:DNA分子中不重复碱基的总量(用bp来表示)或者:最长的没有重复序列的核苷酸对的数值。18例:()其总长为160bp,但不重复的碱基:AT所以序列复杂性x=2(bp)而()序列复杂性x=4(bp)若一个DNA分子长度为106bp,完全不含重复顺序,则x=106(bp)ATATTATAATCGTAGC19(2)DNA复性动力学基因组内单一序列和重复序列的组成情况,可通过DNA复性动力学研究来确定。DNA复性:当变性DNA的两条互补链在除去变性因素后,可以重新或部分恢复成双螺旋结构。复性的必要条件:足够的盐浓度;温度适中(低于Tm20-25℃)复性过程缓慢:成核作用→拉链作用20当两条单链DNA接触时,如果某个区段可以互补配对,就先形成一个双链核心区,然后扩展其互补配对区段而复性形成双链。复性过程很复杂,但基本符合二级反应动力学dSDNA2SSDNA复性的速率可用下列公式表示:dC/dt=-kC2这里,C是在t时单链DNA的浓度,k是二级反应常数。上述公式可以重排为-dC/C2=kdtk1k221对上式积分整理得:C/C0=1/(1+kC0t)这里C0是t=0时DNA的初始浓度公式表明反应中单链DNA所占百分数(C/C0)是DNA浓度(C0)同反应时间(t)乘积的函数,常用C0t表示。在一个特定的实验中,C0已知,C可以测定,如C/C0对C0t作图可以得到下图的曲线,称为C0t曲线(见图5-4)。当C/C0=0.5即复性反应完成一半时(t1/2)的C0t值定义为C0t1/222C0t1/2与非重复序列的基因组大小呈正比23当条件一定时:C0t½的大小与DNA的分子量及复杂性有关。(1)C0t½越大,表示复性速度越慢,DNA的分子量越大。DNA总量一定时,基因组越复杂,任何特定顺序的拷贝数就越少。24例如:DNA起始总量为12pg,一种细菌基因组大小为0.004pg,则它的各种顺序有:12/0.004=3000拷贝。另一种真核生物基因组大小3pg,12/3=4拷贝。尽管测得的C0绝对量相同12pg。而事实上后者各顺序的浓度比前者低了3000/4=750(倍)。要使该真核生物基因的拷贝数也达到3000,则要多加750倍的DNA。因此,该真核生物DNA复性反应的C0t½是细菌DNA反应C0t½的750倍。25(2)在不存在重复序列的情况下,C0t½值与基因组的大小成正比,也即与反应体系中的复杂度成正比:X=K’C0t½A.在一般标准条件下(阳离子浓度为0.18mol/L,片段大小为400bp)K’=5×105则有:X=5×105C0t½26B.在非标准条件下,通常用大肠杆菌DNA作为标准测定未知DNA的复杂度:27(3)在有重复顺序的复性中,在同一个复性曲线上的各动力学组分的C0t½并不因基因组的大小而增减,而是与DNA序列的重复频率成反比:C0t½(1):C0t½(2)=f(2):f(1)式中(1)和(2)代表两个不同的动力学组分,f代表其重复频率(拷贝数)28整个基因组:7.8×108bpA:25%C0t(A)1/2=0.0013B:30%C0t(B)1/2=1.9C:45%C0t(C)1/2=630以上数值是从复性动力学曲线上查得。求A、B、C的复杂性和各自的重复频率?29以大肠杆菌的C0t½为标准时有:(E.coliC0t½=4.0)30求每一S’的动力学复杂性:•C0t(C)’1/2=630×45%=283CDNA复杂性=4.2×106×283/4.0=3.0×108(bp)•C0t(B)’1/2=1.9×30%=0.57BDNA复杂性=4.2×106×0.57/4.0=6×105(bp)•C0t(A)’1/2=0.0013×25%=0.000325ADNA复杂性=4.2×106×0.000325/4.0=340(bp)31根据化学长度和复杂性求重复频率:B化学长度=7.0×108×30%=2.1×108(bp)B动力学长度=6×105(bp)f(B)=2.1×108/6×105=350A化学长度=7.0×108×25%A动力学长度=340f(A)=7.0×108×25%/340=5×105•由此可见,在真核生物中复性反应最快的组分是一些高度重复序列,复性反应次之的是中度重复序列,复性反应最慢的组成则是单一序列以及在基因组中出现2-3份拷贝的一些序列。32基因组DNA分子可以根据其结构和功能从不同角度分成不同的类别。(1)基因序列和非基因序列基因序列指基因组里决定蛋白质(或RNA产物)的DNA序列,一端为ATG起始密码子,另一端则是终止密码子。33分析基因组序列时,当一个DNA序列以ATG起始密码子开始,随后是一个个密码子,这种DNA序列称为可读框(openreadingframe,ORF)。一般说,一个ORF相当于一个基因,若还未发现与这个序列对应的蛋白质产物,则其产物还有待发现和证实。非基因序列则是基因组中除基因以外的所有DNA序列,主要是两个基因之间的间插序列(interveningsequence)。34(2)编码序列和非编码序列编码序列(Codingsequence)指编码RNA和蛋白质的DNA序列。由于基因是由内含子和外显子组成,内含子是基因内的非蛋白质编码序列。所以基因的内含子序列以及居间序列的总和统称为非编码序列(Non-codingsequence)。35(3)单一序列和重复序列单一序列(uniquesequence)是基因组里只出现一次的DNA序列。基因序列多半是单一序列,但也不全是单一序列,因为有些基因在基因组内的拷贝数不止一个。同时,非基因序列中也有单一序列,比如用作遗传标记或作图界标的短串联重复序列(shorttandemrepeat,STR)的侧翼序列和序列标定位点(sequencetaggedsite,STS)等。3637重复序列(repetitivesequence):指在基因组中重复出现的DNA序列。基因组内的重复序列有的散在分布,有的成簇存在。以人类基因组为例,单一序列约占基因组的50%左右;两栖类和显花植物基因组中单一序列所占比例要低得多,主要是一些重复序列。根据DNA序列在基因组中的重复频率,可分为:轻度重复序列、中度重复序列和高度重复序列38①轻度重复序列一般指一个基因组内有2-10份拷贝,但有时2-3份拷贝的DNA序列也被视作非重复序列。组蛋白基因和酵母tRNA基因属于轻度重复序列。39②中度重复序列一般指10份到几百份拷贝的DNA序列,通常是非编码序列。这类重复序列平均长度约300bp,往往构成序列家族,同单一序列相隔排列,分散在基因组中。可能在基因活性的调控中起作用。40③高度重复序列一个基因组中有几百份甚至几百万份拷贝的高度重复序列。既有重复几百份拷贝的基因,如rRNA基因和某些tRNA基因,更多的则是很短的非编码序列的重复。这些序列往往是许多份拷贝呈头尾衔接的串联形式,也就是串联重复序列(tandemrepeat)。41不同生物基因组中重复序列所占比例有很大差别。原核生物基因组中基本上不含有重复序列;低等真核生物基因组中,重复的组成不超过20%,且多半是中度重复序列;动物细胞的基因组中,中度和高度重复序列约占50%;在一些显花植物和两栖类基因组中,中度和高度重复序列几乎可以高达80%