第七讲真核基因表达调控真核生物(除酵母、藻类和原生动物等单细胞类之外)主要由多细胞组成,每个细胞基因组中蕴藏的遗传信息量及基因数量都大大高于原核生物。人类细胞单倍体基因组有3×109bp,为大肠杆菌总DNA的800倍,噬菌体的10万倍左右!自然选择倾向于保留高效率的生命过程。在每30分钟增殖一次的109细菌群体中,若一个细菌变成29.5分钟增殖,经过80天的连续生长后,这个群体中的99.9%都将具有29.5分钟增殖一倍的生长速度。每个大肠杆菌细胞有约15000个核糖体,50种核糖体蛋白、糖酵解体系的酶、DNA聚合酶、RNA聚合酶等都是代谢过程中必需的,其合成速率不受环境变化或代谢状态的影响,这一类蛋白质被称为永久型(constitutive)合成的蛋白质。另一类则被称为适应型或调节型(adaptiveorregulated),因为这类蛋白质的合成速率明显地受环境的影响而改变。如大肠杆菌细胞中一般只有15个β-半乳糖苷酶,但若将细胞培养在只含乳糖的培养基中,每细胞中这个酶的量可高达几万个分子。真核生物染色质被包裹在细胞核内,基因的转录(核内)和翻译(细胞质内)被核膜所隔开,核内RNA的合成与转运,细胞质中RNA的剪接和加工等都属于真核生物基因调控的范围。随着生物个体的发育,DNA分子能有序地将其所承载的遗传信息,通过密码子-反密码子系统转变成蛋白质,执行各种生理生化功能。从DNA到蛋白质的过程称为基因表达(geneexpression),对这个过程的调节就称为基因表达调控(generegulation或genecontrol)。图7-1基因表达的第一步是由RNA聚合酶拷贝DNA双链中的模板链,生成与该序列完全互补的RNA链。基因表达调控主要表现在以下二方面:转录水平上的调控(transcriptionalregulation);转录后水平上的调控(post-transcriptionalregulation),包括(1)mRNA加工成熟水平调控(differentialprocessingofRNAtranscrpt);(2)翻译水平调控(differentialtranslationofmRNA)。真核生物基因调控主要包括:瞬时调控或称可逆性调控;发育调控又称不可逆调控,是真核基因调控的精髓部分,它决定了真核细胞生长、分化、发育的全部进程。图7-2真核基因表达调控的主要步骤示意图7.1真核生物的基因结构与转录活性①在真核细胞中,一条成熟的mRNA链只能翻译出一条多肽链,很少原核生物中常见的多基因操纵子形式。②真核生物能够有序地根据生长发育阶段的需要进行DNA片段重排,增加细胞内某些基因的拷贝数。③基因转录的调节区很大,可能远离转录起始位点达几百个甚至上千个碱基对,主要通过改变整个所控制基因5'上游区DNA构型来影响它与RNA聚合酶的结合能力。④真核生物的RNA在细胞核中合成,只有经转运穿过核膜,到达细胞质后,才能被翻译成蛋白质。⑤许多真核生物的基因只有经过复杂的成熟和剪接过程,才能被顺利地翻译成蛋白质。7.1.1基因家族(genefamily)真核细胞中许多相关的基因常按功能成套组合,被称为基因家族。同一家族中的成员有时紧密地排列在一起,成为一个基因簇,也可能分散在同一染色体的不同部位,甚至位于不同的染色体上,具有各自不同的表达调控模式。1、简单多基因家族简单多基因家族中的基因一般以串联方式前后相连。细菌中所有rRNA和部分tRNA都来自这个分子量为30S(约6500个核苷酸)的前rRNA。在真核生物中,前rRNA转录产物的分子量为45S,(约有14000个核苷酸),包括18S,28S和5.8S三个主要rRNA分子。图7-3细菌中rRNA基因家族各成员的分布与成熟过程分析图7-3脊椎动物中rRNA基因家族主要成员的分布与成熟过程分析。2、复杂多基因家族复杂多基因家族一般由几个相关基因家族构成,基因家族之间由间隔序列隔开,并作为独立的转录单位。海胆组蛋白基因家族(图7-4):编码不同组蛋白的基因处于一个约为6000bp的片段中,分别被间隔序列所隔开。这5个基因组成的串联单位在整个海胆基因组中可能重复多达1000次。3、发育调控的复杂多基因家族血红蛋白是所有动物体内输送分子氧的主要载体,由2α2β组成的四聚体加上一个血红素辅基(结合铁原子)后形成功能性血红蛋白。在生物个体发育的不同阶段出现几种不同形式的α和β亚基。人α珠蛋白基因簇位于16号染色体短臂上,约占30kb左右,其中ζ为胚胎期基因(表7-1)。β珠蛋白基因簇位于11号染色体短臂上,约占50-60kb,其中ε为胚胎期基因,Gγ和Aγ为胎儿型基因,δ和β为成人期基因。表7-1不同发育阶段血红蛋白亚型发育阶段组成胚胎期(8周以前)ζ2ε2、ζ2γ2和α2ε2胎儿期(8~41周)α2γ2成人期(出生以前)α2δ2和α2β2图7-5人β-珠蛋白基因的基本结构。图7-7人细胞中α和β-珠蛋白基因簇结构示意图7.1.2真核基因的断裂结构1、外显子与内含子“intron”是指存在于原始转录物或基因组DNA中,但不存在于成熟mRNA、rRNA或tRNA中的那部分核苷酸序列。大多数真核基因都是由蛋白质编码序列和非蛋白质编码序列两部分组成的。基因中的内含子数量和大小都不同。胶原蛋白基因长约40kb,至少有40个内含子,其中短的只有50bp,长的可达到2000bp。表7-2不同真核生物基因的平均长度及单个基因平均含有外显子数量比较物种外显子数/基因核基因平均长度(kb)mRNA平均长度酵母11.61.6真菌31.51.5线虫44.03.0果蝇411.32.7鸡913.92.4哺乳类716.62.2图7-8是哺乳动物二氢叶酸还原酶基因,全长25-31kb左右,但其6个外显子总长只有2kb。少数基因,如组蛋白及α型、β型干扰素基因,根本不带内含子。图7-8哺乳动物二氢叶酸还原酶的基因结构示意图2、外显子与内含子的连接区。断裂结构的一个重要特点是外显子-内含子连接区(exon—intronjunction)的高度保守性和特异性碱基序列。内含子的两端序列之间没有广泛的同源性,因此内含子两端序列不能互补,说明在剪接加工之前,内含子上游序列和下游序列不可能通过碱基配对形成发卡式二级结构。序列分析表明,几乎每个内含子5'端起始的两个碱基都是GT,而3'端昀后两个碱基总是AG,由于这两个碱基的高度保守性和广泛性,有人把它称为GT-AG法则,即:5'GT……AG3'。3、外显子与内含子的可变调控真核基因的原始转录产物可通过不同的剪接产生不同的mRNA,翻译成不同的蛋白质。有些真核基因,如肌红蛋白重链基因虽有41个外显子,却能精确地剪接成一个成熟的mRNA,我们称这种方式为组成型剪接。一个基因的转录产物通过组成型剪接只能产生一种成熟的mRNA,编码一个多肽。有些基因选择了不同的启动子,或者选择了不同的多聚(A)位点而使原始转录物具有不同的二级结构,产生不同的mRNA分子。同一基因的转录产物由于不同的剪接方式形成不同mRNA的过程称为选择性剪接。在肝脏中,mRNA5‘端的161个碱基是由位于第2号外显子转录起始点上游4500bp处的L外显子编码的。在唾液腺中,mRNA5‘端的50个碱基是由位于转录起始点上游7300bp处的S外显子编码的。L外显子和S外显子分别为淀粉酶mRNA提供了不同的起始序列。其实,L外显子只是唾液腺淀粉酶基因中内含子序列的一部分,将在mRNA成熟过程中被切除。一个基因的内含子成为另一个基因的外显子,形成基因的差别表达,这是真核基因的一个重要特点。7.1.3真核生物DNA水平上的基因表达调控DNA水平的调控是真核生物发育调控的一种形式,包括基因丢失、扩增、重排和移位等。1、基因扩增基因扩增是指某些基因的拷贝数专一性大量增加的现象,它使细胞在短期内产生大量的基因产物以满足生长发育的需要,是基因活性调控的一种方式。非洲爪蟾的卵母细胞中原有rRNA基因(rDNA)约500个拷贝,在减数分裂粗线期,基因开始迅速复制,到双线期拷贝数约为200万个,扩增近4000倍,可用于合成1012个核糖体。2、基因重排与变换将一个基因从远离启动子的地方移到较近的位点从而启动转录,被称为基因重排。免疫球蛋白的肽链主要由可变区(V区)、恒定区(C区)以及两者之间的连接区(J区)组成,V、C和J基因片段在胚胎细胞中相隔较远。编码产生免疫球蛋白的细胞发育分化时,通过染色体内DNA重组把4个相隔较远的基因片段连接在一起,产生具有表达活性的免疫球蛋白基因。表7-3人类基因组中免疫球蛋白基因主要片段的数量比较成份基因位点染色体基因片段数量VDJC重链IGH148630911轻链(K链)IGK276051轻链(λ链)IGL2252077图7-11免疫球蛋白重链基因片段重排与组织特异性表达抗体分子由4条(两对)多肽链组成,包括两条相同的轻链(L-chain)和两条相同的重链(H-chain)。轻链和重链在相对分子质量上有较大差别,前者约2.3x104,后者则介于5.3x104-7.0x104之间。所有Ig分子都含有两类轻链中的一类,即κ型或λ型。Κ型和λ型轻链的恒定区和可变区的氨基酸序列是不同的。在小鼠中,95%的抗体轻链是κ型,而人类抗体轻链中,κ型和λ型各占50%左右。免疫球蛋白重链基因DNA重排以后,大量间隔序列被切除,使位于J-Cμ之间的增强子序列得以发挥作用,增强基因转录。7.1.4DNA甲基化与基因调控DNA甲基化能引起染色质结构、DNA构象、DNA稳定性及DNA与蛋白质相互作用方式的改变,从而控制基因表达。研究证实,CpG二核苷酸中胞嘧啶的甲基化导致了人体1/3以上由于碱基转换而引起的遗传病。DNA甲基化主要形成5-甲基胞嘧啶(5-mC)和少量的N6-甲基腺嘌呤(N6-mA)及7-甲基鸟嘌呤(7-mG)。真核生物中,5-甲基胞嘧啶主要出现在CpG、CpXpG、CCA/TGG和GATC中。高等生物CpG二核苷酸中的C通常被甲基化,极易自发脱氨,生成胸腺嘧啶,所以CpG二核苷酸序列出现的频率远远低于按核苷酸组成计算出的频率。对于弱启动子来说,稀少的甲基化就能使其完全失去转录活性。当这一类启动子被增强时(带有增强子),即使不去甲基化也可以恢复其转录活性。若进一步提高甲基化密度,即使增强后的启动子仍无转录活性。7.2真核基因的转录真核基因调控主要在转录水平上进行,受大量特定的顺式作用元件(cis-actingelement)和反式作用因子(transactingfactor,又称跨域作用因子)调控。一个完整的基因,不但包括编码区(codingregion),还包括5’和3’端长度不等的特异性序列,它们虽然不编码氨基酸,却在基因表达的过程中起着重要作用。所以,“基因”的分子生物学定义是:产生一条多肽链或功能RNA所必需的全部核苷酸序列。1、启动子(promoter)。真核基因启动子由核心启动子和上游启动子两个部分组成,是在基因转录起始位点(+1)及其5’上游大约100~200bp以内的一组具有独立功能的DNA序列,每个元件长度约为7~20bp,是决定RNA聚合酶II转录起始点和转录频率的关键元件。核心启动子(corepromoter):是指保证RNA聚合酶II转录正常起始所必需的、昀少的DNA序列,包括转录起始位点及转录起始位点上游-25∼-30bp处的TATA盒。核心启动子确定转录起始位点并产生基础水平的转录。上游启动子元件(upstreampromoterelement,UPE)包括通常位于-70bp附近的CAAT盒(CCAAT)和GC盒(GGGCGG)等,能通过TFIID复合物调节转录起始的频率,提高转录效率。2、增强子及其对转录的影响。增强子是指能使与它连锁的基因转录频率明显增加的DNA序列,昀早发现于SV40早期基因的上游,有两个长72bp的正向重复序列。增强子通常具有下列特性:A、增强效应十分明显。B、增强效应与其位置和取向无关。C、大多为重复序列(50bp)。D、其增强效应有严密的组织和细胞特异性。E、