第三章基因与基因组基因(gene)是贮存遗传信息的遗传单位,是能够表达出一个有功能的多肽链或功能RNA分子的全部核酸序列。“基因”的发展大致分五个阶段:1.孟德尔的遗传因子2.摩尔根的基因概念3.本兹尔“顺反子”学说4.雅各布和莫诺“操纵子”学说5.基因结构和功能的新发现孟德尔——发现“基因”(遗传现象)摩尔根——提出“基因”的物质性本兹尔——明确“基因”的功能性雅各布、莫诺——提出“基因”功能性质的划分新的“基因”的发现还在继续……基因的基本结构5’、、、AGCCGACTATGTCGAAGCTT、、、、、、GCTTGACTATAAGACA、、、3’3‘、、、TCGGCTGATACAGCTTCTAA、、、、、、CGAACTGATATTCTGT、、、5‘转录调控区贮存RNA或蛋白质结构信息区转录终止区基因组(gencme)细胞或生物中,一套完整单倍体遗传特质的总和(包括一种生物所需的全套基因及间隔序列)称为基因组。基因组的结构主要指不同的基因功能区域在核酸分列中的分布和排布情况,基因组的功能是贮存和表达遗传信息。人类基因组包含多染色体和XY两条性染色体上的全部遗传物质(核基因组)以及胞线粒体上的遗传物质(线粒体基因组)。(X免疫基因,男XY,女XX)。*1个配对(精子或卵子),1个单倍体细胞或1个病毒所包含的全套基因,称为基因组。第一节原核基因组原核生物(Prokaryote):是一些由无细胞核的细胞组成的单细胞或多细胞的低等生物,主要包括细菌、支原体和植物中的海藻门。原核生物作为分子生物学研究对象的特点:1.构造相对简单,基因结构也不复杂,取材便利,易于培养。2.与人类有共同的分子生物学规律,如:(1)遗传物质都是DNA;(2)主要的功能分子都是蛋白质;(3)基因密码是通用的,等等。3.尤其是E.coli,是分子克隆是“明星“,基因工程主要原因的工程菌,因为基因工程的主要工作是克隆基因在原核系统中表达。一、原核生物基因组结构与功能的特点1.基因组通常仅由一条环状双链DNA分子组成。细菌染色体DNA在胞内形成一个致密区域,即类核(nucleoid),类核无核膜将之与胞浆分开。2.基因组中只有1个复制起点。3.具有操纵子结构。4.结构基因无重叠现象,基因组中任何一段DNA不会用于编码2种蛋白质。5.基因序列是连续的,无内含子结构。6.编码区和非编码区(主要是调控序列)在基因组中约各占50%。7.基因组中的重复序列很少。编码蛋白质结构基因多为单拷贝,但编码rRNA的基因往往是多拷贝的,这有利于核糖体的快速组装。8.具有编码同功酶的基因(isogene)这是一类结构不完全相同,而功能相同的基因。如E.coli含有2个编码乙酰乳酸合成酶的基因和2个编码分支酸变位酶同工酶的基因。9.细菌基因组中存在可移动的DNA序列,包括插入序列和转座子。10.原核基因的基本结构特点:启动子(promoter)、操纵基因(operator)、结构基因(structuregene)、终止子(terminator)。二、染色体外的遗传物质———质粒(一)概念1.质粒(plasmid)是独立于许多细菌及某些真核细胞染色体外共价闭合环状的DNA分子(covalantclosedcircnlar,cccDNA),能独立复制的最小遗传单位。2.质粒是双链的DNA分子,大小在1.5~15kb之间,和病毒不同,它们没有衣壳蛋白(裸DNA)。3.质粒与宿主细胞的关系(1)质粒对宿主的生存不是必需的,只是“友好”的“借居”宿主细胞中,既不杀伤细胞,对宿主的代谢活动也无影响,宿主离开质粒照样的生存下去。(2)质粒离开宿主就无法生存,只有依赖宿主细胞的(酶和蛋白质)帮助,才能完成自身的复制(扩增)、转录。(3)质粒经常为宿主执行一些适当的遗传功能,作为对宿主细胞的补偿(“交房租”)。(4)质粒赋于宿主各种有利的表型(质粒编码蛋白质或酶),使宿主获得生存优势,与我们基因工程实验紧密相关的,如抗生素抗性基因:Ampr酶,水解β-内酰胺环,解除氨关毒性,使细菌抗氨关。Tetr膜蛋白,可阻止四环素进入细胞,使细菌抗四环素。4.质粒发现和研究意义1)理论意义质粒能够复制、传递和表达遗传信息,从分子遗传学观点来看是一种有机体,是比病毒更原始的生命形式,是生命起源研究的重要基石。2)实践意义是基因工程的重要载体(vector),能把外源基因(目的基因)送到宿主细胞中去克隆扩增或克隆表达。①质粒是可以改造的,可以剪切、剪接的,基因工程的重要任务之一就是严格改造质粒的同时,控制质粒不传递。②作为基因工程载体的3个特点:A.都能独立自主的复制;B.都能便利的加以检测(抗生素抗性);C.都能容易引进宿主细胞中去,也易从宿主细胞中分离纯化(提质粒)。质粒符合上述3个条件。基因工程中主要使用人工构建的质粒。(二)质粒的分类1.按质粒的复制机理,分为二类:1)严谨控制型(stringentcontrdtype)2)松弛控制型(relaxedcontroltype)(1)拷贝数少,一般10个,分子量大;(1)拷贝数多,10-200个,分子量小;(2)复制受限,受细菌宿主DNA复制系(2)复制不受细菌DNA复制系统限制。统的控制;(3)分子量小,不具备自传递能力。(3)特点是这类质粒可以自传递;(4)基因工程使用松弛型(高拷贝数)(4)严谨控制机理(低拷贝原因),认质粒,以获得列多的基因产物。为是该质粒可以产生阻逼蛋白,反馈抑制自身DNA合成。*拷贝数(copynumber)—细胞所含的按每一基因组计算的某种质粒或基因的数目。2.按分子量大小,分为二类1)小型质粒,15kb2)大型质粒15kb小型质粒,无接合和自传递能力,接多属接合型或自传递型,大型质粒只合质粒协助也能转移,也可通过转化能通过细菌的接合作用从一个细菌作用进入受体细胞,这类质粒种类较多,传到另一个细菌。(如F质粒)。几乎每种细菌都可以含有2种以上,基因工程一般用小型质粒。3.相容性质粒和不相容性质粒利用相同复制系统的质粒不能共存于同一个细胞内。4.窄宿主谱质粒和广宿主谱质粒(三)质粒遗传控制系统1.复制调控系统——对质粒2.细胞分裂控制系统——对宿主3.分配系统——质粒存在4.位点特异重组系统——稳定遗传第二节真核生物基因组一、真核生物(eukaryote)真核生物细胞具有细胞核,其DNA为线状并与组蛋白、非组蛋白结合组成染色体。基因转录在核内进行,翻译在胞浆进行。除核内的DNA外,真核生物还存在线粒体DNA和植物细胞中的叶绿体DNA。二.真核生物基因组的结构(一)真核基因的基本结构1.结构基因、内含和外显子、断裂基因。(1)结构基因(structuralgene)指能转录成为mRNA、rRNA或tRNA的DNA顺序。(2)内含子和外显子真核生物的结构基因是不连续的,编码序列被非编码序列打断,在编码序列之间的序列称为内含子(intron),编码序列称为外显子(extron)。(3)断裂基因(splitgene)在真核类结构基因组中,编码顺序被许多称为内含子的非编码区分割成几段称之。2.顺式调控元件顺式调控元件(cis—actingelements)指与结构基因表达调控相关,能够被基因调控蛋白特异性识别和结合的DNA序列。能与顺式作用元件结合调节基因转录活性的蛋白质因子称为反式作用因子(trans—actingfactors)。顺式调控元件有:(1)启动子(promoter)①概念:启动子是促进DNA转录的DNA序列,是DNA分子上可与RNApol特异性识别结合并使之转录的部位,但启动子本身不被转录。②功能特点:启动子位于结构基因上游启动子有方向性决定转录方向及那一条DNA链作模板转录(以信息链的互补链作模板转录,转录的mRNA与信息链一致)。③真核生物的启动子元件是TATAboxTATA盒与TATA因子的转录因子结合后即成为完整的启动子。(2)上游启动子元件(upstreampromoterelementsups)①UPS是TATA盒上游的一些特定的DNA序列。②反式作用因子可与这些元件结合,通过调节TATA因子与TATAbox的结合、RNApol与启动子结合及转录起始复合物形式来调控基因转录效率。(3)反应元件(responseelements)一些信息分子的受体被细胞外信息分子激活后,能与特异的DNA序列结合,调控基因的表达。这种DNA序列实际上也是顺式元件,由于能介导基因对细胞外的某种信号产生反应,被称为反应元件。反应元件都具有较短的保守序列。这些元件通常位于启动子附近和增强子内,有不少是回文序列。(4)增强子(enhancer)和沉默子(silencer)增强子是一段DNA序列,其中含有多个能被反式作用因子识别与结合的顺式作用元件。反式作用因子与这些元件结合后,通常为增强邻近基因的转录。增强子一般位于转录起始点上游-100~-300bp处,但在基因之外或某些内含子中也有增强子序列。增强子作用特点:①可在5’端或3’端发挥作用;②不受序列方向制约;③通过增强启动子发挥作用。沉默子:负调控序列、负增强子;(5)加尾信号在结构基因的最后一个外显子中有一个保守的AATAAA序列,此位点下游有一段GT丰富区或T丰富区,这两部分序列共同构成poly(A)加尾信号。mRNA转录到此部位后,产生AAUAAA和随后的GU(或U)丰富区。与RNApol结合的延长因子可以识别这种结构并与之结合,然后在AAuAAA下游10-30个碱基的部位切断RNA,并加上poly(A)尾.(二)基因家族(genefamily)基因家族是指核苷酸序列或编码产物具有一定程度同源性的一组基因.基因家族中各个基因之间的关系:1.家族中各基因的核苷酸序列相同这些基因族也被称为单纯多基因家族(如rRNA,tRNA家族)和复合多基因家族(如组蛋白基因家族).tRNA基因:人类基因约有1300个tRNA基因,编码50多种tRNA。每种tRNA可有10-几百个基因拷贝。同种tRNA往往串联在一起形成基因簇,但基因间有非转录间隔区分隔,常常比结构基因长近10倍。2.家族中各基因核苷酸序列高度同源(1)人类生长激素基因家族包括人生长激素(hGh)、人胎盘促乳素和催乳素(prolactin)。它们之间的同源性很高,尤其是hGh和hcs之间,蛋白质氨基酸序列有85%的同源性,mRNA上序列上有92%的同源性,说明它们是来自一个共同祖先基因。3种基因并不都排列在一起,hGh和hcs基因位于第17号染色体长臂,催乳素基因位于第6号染色体。(2)α-株蛋白和β-株蛋白基因家族这些基因家族的各个成员在DNA分子上的排列顺序按照发育的不同阶段先后次序排列,故也称“发育控制复合多基因家族”。3.家族中各基因编码的蛋白质有高度的同源性,但基因的核苷酸序列可能不同。如src癌基因家族:src,abl,fes,fgr,fps,fym,kck,lyn,ros,tkl,yes此家族中各基因的DNA序列没有明显的同源性。但每个基因产物都含有250个氨基酸顺序的同源蛋白激酶结构域。4.家族各基因编码的蛋白质中具有很小的保守基序(conservedmotif)。如DEADbox基因家族。DEADbox:Asp-Glu-Ala-Asp.此家族中各基因的DNA序列没有明显的同源性,但所有的表达产物都具有解旋酶的功能,都具有同样的保守基序(DEAD盒),DEAD是酶活性的关键结构。5.基因超家族(genesuperfamily)基因超家族是指一组由多基因家族及单基因家族组成的更大的基因家族。它们的结构有程度不等的同源性,因此它们可能起源于相同的祖先基因,但是它们的功能并不一定相同,这一点正是与多基因家族的差别所在。这些基因在进化上也有亲缘关系,但亲缘关系较远,故将其称为基因超家族。如:(1)免疫球蛋白超基因家族表达产物都有免疫球蛋白样的结构域结构。有2个微球蛋白、MHCI类抗原的α链,Ⅱ类抗原的α链和β链,Thy1、CD4、CD8等与免疫有关的分子。在后又陆续发现了许多免疫系统内以及与免疫无关的家族成员。(2