第一章基因的结构与功能陈艳生物化学教研室一、基因结构研究的历史1.从遗传学史的角度看,基因概念大致经历以下几个阶段:泛基因(或前基因)孟德尔(遗传因子)摩尔根(基因)顺反子操纵子现代基因第一节基因的概念2.现代基因阶段(1)基因的定义从分子生物学的角度,基因定义为“储存有功能的蛋白质多肽链或RNA序列信息及表达这些信息所必需的全部核酸序列”。核酸分子中储存遗传信息的遗传单位。这里,“RNA分子”是指rRNA和tRNA。“核酸序列”主要指DNA,但对于RNA病毒来说则指RNA。(2)一个基因不仅包括结构基因,还包括转录所必需的调控序列及插入序列。结构基因(structuralgene)指能转录成为mRNA、rRNA或tRNA的DNA序列。tayzopstructuralgene调控序列promoter启动子promoterterminator终止子terminatoroperator操纵元件operator(3)原核生物的调控序列中包括启动子和终止子,有些基因中还有调节蛋白结合位点或操纵序列及其他调节序列。(4)真核生物基因的结构非翻译区:untranslatedregions,UTRUTRUTR开放阅读框:openreadingframe,ORFCAATboxTATAboxEnhancerpromoter调控序列调控序列exonexonPoly(A)加尾信号5′+1Stop3′结构基因intronintronexonTGAATGresponseelement一、真核基因的基本结构1.断裂基因、外显子和内含子断裂基因(splitgene)真核生物的结构基因是不连续的,由若干个编码区和非编码区互相间隔开但又连续镶嵌而成,去除非编码区再连接后,可翻译出由连续氨基酸组成的完整蛋白质,编码序列被非编码序列打断。外显子(exon)在断裂基因及其初级转录产物上出现,并表达为成熟RNA的核酸序列。内含子(intron)隔断基因的线性表达而在剪接过程中被除去的核酸序列。第二节真核基因的结构特点2.调控序列顺式调控元件(cis—actingelements)指与结构基因表达调控相关,能够被基因调控蛋白特异性识别和结合的DNA序列。与顺式作用元件结合,调节基因转录活性的蛋白质称为反式作用因子(trans—actingfactors)。顺式调控元件有以下几类:启动子上游启动子元件反应元件增强子、沉默子加尾信号(1)启动子(promoter)促进DNA转录的DNA序列,是DNA分子上可与RNA聚合酶特异性识别结合并使之转录的部位。功能特点:启动子位于结构基因上游。启动子有方向性决定转录方向及那一条DNA链作模板转录。真核生物的启动子元件是TATAbox,位于转录起始点上游-25bp处。真核生物RNA聚合酶有三种,对应有三种启动子。1)I类启动子:能够被RNA聚合酶I和转录因子I识别和结合的启动子,主要见于编码45S-rRNA的基因。2)II类启动子:能够被RNA聚合酶II和转录因子II识别和结合的启动子,见于编码蛋白质的基因。可分为3种:含有TATA盒和上游启动子元件CAAT盒和GC盒:具有一个转录起始点和较高的转录活性。不含TATA盒、富含GC的启动子:一般含有数个分离的转录起始点。不含TATA盒、也没有GC富含区的启动子:转录活性很低或根本没有转录活性。3)III类启动子:能够被RNA聚合酶III和转录因子III识别和结合的启动子,见于编码5SrRNA、tRNA、snRNA的基因。(2)上游启动子元件(upstreampromoterelements,UPS)①UPS是TATA盒上游的一些特定的DNA序列。②反式作用因子可与这些元件结合,通过调节TATA因子与TATAbox的结合、RNA聚合酶与启动子结合及转录起始复合物形式来调控基因转录效率。③上游启动元件包括CAAT盒、CACA盒、GC盒等,这些元件具有各自独特的核心序列。CAAT盒(CAATBox)位于-70~-80bp,GGC/TCAATCT,与CTF结合,决定启动子转录效率。-30-25+1-80-70(3)反应元件(responseelements)一些信息分子的受体被细胞外信息分子激活后,能与特异的DNA序列结合,调控基因的表达。这种DNA序列就是反应元件,能介导基因对细胞外的信号产生反应。反应元件都具有较短的保守序列。例如糖皮质激素反应元件。(4)增强子(enhancer)和沉默子(silencer)增强子是一段DNA序列,可以特异性与反式作用因子结合,增强邻近基因的转录。增强子一般位于转录起始点上游-100~-300bp处。增强子作用特点:①可在5’端或3’端发挥作用;②不受序列方向制约;③通过增强启动子发挥作用。沉默子反式作用因子与沉默子结合后,通常减弱邻近基因的转录。5′--------AATAAA----------GT-------3′DNAmRNA前体5′--------AAUAAA----------GU-------3′5′--------AAUAAA------AAAAAAAA3′mRNAmRNA转录到此部位后,产生AAUAAA和随后的GU(或U)丰富区。结构基因的最后一个外显子中有一个保守的AATAAA序列,此位点下游有一段GT丰富区或T丰富区,这两部分序列共同构成poly(A)加尾信号。与RNApol结合的延长因子可以识别这种结构并与之结合,然后在AAUAAA下游10-30个碱基的部位切断RNA,并加上poly(A)尾。(100-200个A)(5)Poly(A)加尾信号二、多基因家族(multigenefamily)指核苷酸序列或编码产物的结构具有一定程度同源性的一组基因,其编码产物常常具有相似的功能。根据基因家族中各个基因之间的关系,可分为以下几类:(1)核苷酸序列相同:一个基因的多次拷贝,同一家族基因可以紧密排列在一起,形成一个基因簇,如组蛋白基因家族、编码rRNA家族等。组蛋白基因家族多拷贝基因形成的基因簇,rRNA、tRNA、组蛋白基因家族。非洲爪蟾的5SRNA基因结构5SRNA基因非转录空隔区生长激素(GH)与绒毛膜生长催乳激素(CS)氨基酸序列比对217(2)家族中各基因核苷酸序列高度同源(3)编码产物的功能或功能区相同基因超家族(genesuperfamily)指一组由多基因家族及单基因家族组成的更大的基因家族。它们的结构有程度不等的同源性,因此它们可能起源于相同的祖先基因,但是它们的功能并不一定相同,这一点正是与多基因家族的差别所在。这些基因在进化上也有亲缘关系,但亲缘关系较远,故将其称为基因超家族。最经典的基因超家族是免疫球蛋白基因超家族。假基因(pseudogene)假基因在多基因家族中某些与正常功能基因在核苷酸序列上相似,但不能转录或转录后生成无功能基因产物的DNA序列,被称为假基因。假基因常用符号ψ表示,如ψβ1表示与β1相似的假基因。GA21Alu10kb珠蛋白基因簇中的假基因三、重复序列(repeatsequence)重复序列中,除了编码rRNA、tRNA、组蛋白及免疫球蛋白的结构基因外,大部分是非编码序列。它们的功能主要与基因组的结构稳定性,组织形式以及基因表达调控有关。目前已发现一些重复序列的特征与遗传有密切联系,因此可以通过测定重复次数而协助遗传病的诊断。(一)据出现的频率不同可将DNA序列分为3类:1.高度重复序列在基因组中的重复次数1062.中度重复序列在基因组中的重复次数为101-1053.单拷贝序列在整个基因组中出现1次或少数几次(1-10)1.反向重复序列(invertedrepeats,IR)ATTAGCGCTAATATTAGCGGATGCTAATTAATCGCGATTATAATCGCCTACGATTA(2)不连续的反向重复序列之间含有间隔顺序。(1)连续的反向重复序列,这种结构又称回文结构,是指一段DNA顺序,在两条链上,正读与反读相同。(二)高度重复序列2.串联重复顺序(tandemrepeats)(1)编码区串联重复序列如组蛋白基因等。意义在于快速大量合成相应基因的mRNA。(2)非编码区串联重复序列通常存在于间隔DNA和内含子内,是组成卫星DNA的基础。主带光密度卫星DNA卫星DNA(satelliteDNA)是一类高度重复序列,这类重复顺序的重复单位一般由2-10bp组成,成串排列,在基因组中约占5%。(1)大卫星DNA(macrosatellite)又称为经典DNA,由长串联重复序列组成,总长度100kb-几个Mb,一般对应于染色体上的异染色区域,功能不清,在人群中多态性不显著。(2)小卫星DNA(minisatellite)由中等大小的串联重复序列组成,位于染色体末端。(3)微卫星(microsatellite,MS)或为简短串联重复(STR,shorttandemrepeats):是一种遍布于人类基因组的重复序列,一般为2~6个碱基重复,如(CA)n,(GT)n,(CAG)n等,尤以(CA)n重复序列最为常见。呈高度多态性,可作遗传标记。(三)中度重复的序列tRNA、rRNA组蛋白、免疫球蛋白可能与基因调控相关序列重复次数10-105,约占基因组的35%Alu家族:有AluⅠ酶切位点(AG/CT)而得名。重复单位约300bp,由两个130bp重复序列及31bp间隔序列组成;重复30-50万次,散在分布;灵长类特有。四、端粒(telommere)以线性染色体形式存在的真核基因组DNA的末端都有一种特殊的结构,称为端粒(形式上膨大成粒状而得名)。结构1.是染色体末端DNA和蛋白质构成复合体。2.其DNA序列相当保守,一般由多个串联在一起的短寡核苷酸(5-86p)序列构成。3.碱基成分因种属而异,重复次数在不同生物中变化较大。功能1.保护线性DNA的完整复制。2.保护染色体末端及决定细胞的寿命等。人类基因的命名和书写规则由国际人类基因命名委员会(HumanGeneNomenclatureCommittee,HGNC)负责制定和发布。在专业杂志上,基因的命名和书写与其蛋白质产物的命名和书写经常会发生混乱。尽管蛋白质的命名和书写是由国际生化和分子生物学组织命名委员会负责推荐,但HGNC建议基因与其蛋白质产物的命名和书写应统一起来,只是表示基因时用大写科体,表示其蛋白质产物时则用大写正体,以示区别。第三节基因的命名