分子生物学基本原理第一篇第一章基因第一节基因的基本概念及基因的结构特点一、核酸是遗传信息的载体•DNA的结构:一级结构二级结构三级结构•DNA上主要携带两类遗传信息:一类是编码信息另一类是调控信息真核细胞的DNA中存在着大量的非编码序列•RNARNA分为三类:mRNA;rRNA;tRNA。•基因(gene):是核酸分子中贮存遗传信息的遗传单位,是指贮存有功能的蛋白质多肽链或RNA序列信息及表达这些信息所必须的全部核酸序列。按照此说,基因即包括编码序列,也包括它的调控序列及内含子和上、下游的非编码序列。真核生物和原核生物及多数病毒的基因都以DNA的形式存在,少数病毒(RNA病毒)的基因是以RNA的形式存在。二、基因的基本概念基因一般特点:•多数生物的基因都是由DNA组成,而少数病毒的基因是由RNA组成。•基因的大多数都编码在染色体上,但也有编码在染色体之外的基因。如质粒、线粒体、叶绿体等。•原核生物的基因是连续编码的,而真核细胞基因是断裂基因。•在病毒的基因组中存在着重叠基因的现象•基因组(Genome)的概念:Genome最早由德国植物遗传学家温克勒尔于1920年提出,它由gene和chromosome组合而成。基因组是指一个细胞中核酸的全部核苷酸排列序列,即一个细胞中蕴藏着的全部遗传自信。第二节结构基因中贮存的遗传信息•结构基因中贮存的遗传信息RNA的结构信息蛋白质的结构信息•RNA的特点:mRNA:原核与真核的区别tRNA:rRNA:•结构基因与蛋白质信息之间的关系遗传密码:蛋白质结构的特点:遗传密码表第三节结构基因变异及其与疾病的关系•基因突变及发生机制:自发突变与诱变•基因突变的类型:转换;颠换•基因突变的后果:•基因突变与疾病的关系:基因突变导致蛋白质功能降低或丧失基因突变导致蛋白质活性异常增高基因表达量过高导致某种蛋白质过量基因突变导致蛋白质产生过少而不能形成正常功能第二章基因组的结构与功能第二节原核生物基因组一、原核生物基因组结构与功能的特点⒈基因组为一个环状双链DNA分子:原核生物的DNA与一个大的支架蛋白结合形成一个复合结构,习惯上仍称为染色体。细菌细胞没有细胞核,但它的染色体DNA在细胞中形成一个致密的区域,称为类核(nucleoid)。⒉基因组中只有一个复制起始点。⒊具有操纵子的结构:操纵子(operon):指数个功能上相关联的结构基因串联在一起,构成一个信息区,它共用一个上游的调控区和下游的终止信号,上游的调控区包括启动子(promoter)和操纵基因(operator)在转录时将几个相联的结构基因一同转录成RNA,形成的RNA也为多顺反子。⒋编码顺序不会重叠⒌结构基因的序列是连续编码的,不存在内含子,转录后不需剪切。⒍编码区在基因组中占的比例(约50%)多于真核细胞,但小于病毒基因组。非编码区主要是一些调控序列。⒎重复序列少:原核细胞的结构基因多为单拷贝,但编码rRNA的基因往往是多拷贝的。⒏存在编码同功酶的基因。⒐细菌基因组存在着可移动的DNA序列,包括插入序列和转座子。⒑含有多种功能的识别区域,如复制起始区、复制终止区、转录起动区和终止区等。大肠杆菌染色体基因组的结构和功能大肠杆菌染色体基因组是研究最清楚的基因组。估计大肠杆菌基因组含有3500个基因,已被定位的有900个左右。在这900个基因中,有260个基因已查明具有操纵子结构,定位于75个操纵子中。在已知的基因中8%的序列具有调控作用。大肠杆菌染色体基因组中已知的基因多是编码一些酶类的基因,如氨基酸、嘌呤、嘧啶、脂肪酸和维生素合成代谢的一些酶类的基因,以及大多数碳、氮化合物分解代谢的酶类的基因。另外,核糖体大、小亚基中50多种蛋白质的基因也已经鉴定了。二、质粒㈠质粒的一般特性:1.质粒是存在于细菌细胞中独立于染色体之外的自主复制的遗传成分。绝大多数的质粒都是由环形双链DNA组成,极少发现线性质粒和RNA成分的质粒。质粒的大小差别很大,小的质粒分子量约为106,仅编码2-3个蛋白质,而最大的分子可比它大100倍。2.质粒与宿主菌是寄生的关系,质粒离开细菌不能独立的复制和生存,而细菌离开质粒仍能正常生存。3.质粒的存在可以赋予细菌新的遗传特性,这包括抗性特征、代谢特征、修饰宿主生活方式的因子等,其中对抗菌素的抗性是质粒最重要的特性。㈡质粒的遗传控制质粒带有自己的复制调控系统,可有效的控制质粒在宿主细胞中的拷贝数量。质粒还有自己精确的分配拷贝到子细胞中的能力。质粒还有控制宿主细胞有丝分裂的能力,以便确保每个子代细胞中稳定的质粒数目。高拷贝质粒在细菌中常形成多聚体的形式,在细菌分裂时,这种多聚体又拆散成单体,控制这一过程的诸多因子构成了位点特异重组系统。质粒的不相容性:㈢质粒的类型1.结合型质粒、可移动型质粒和自传递型质粒2.严谨型质粒和松驰型质粒3.窄宿主型质粒和广宿主型质粒一、真核生物染色质DNA的高级结构•DNA高级结构中的蛋白质组蛋白与非组蛋白第二节真核生物基因组•DNA与蛋白质的结合与染色体的组装•基因组大,编码蛋白质多,一般编码蛋白都超过1万个以上。在DNA复制时,有多个复制起始点。•真核生物的结构基因都是单顺反子。•真核生物的基因组中含有大量的重复序列(45%)。•真核生物的基因组中存在大量的非编码区。二、真核生物核基因组结构和功能特点•真核基因为断裂基因,在它的结构基因中含有外显子和内含子。•真核生物的基因组中存在着各种基因家族。•真核生物基因组中也存在移动基因。•基因组中结构基因所占区域远小于非编码区。三、真核生物基因组的结构㈠结构基因•断裂基因(splitgene):真核生物的结构基因是不连续的编码氨基酸的序列被非编码序列所打断,因此被称为断裂基因。•外显子(exon):在真核生物的结构基因中,编码氨基酸的序列称为外显子,它被数个内含子分隔成数个片段间隔排列。•内含子(intron):在真核生物的结构基因中,在编码氨基酸序列之间存在着数个非编码的序列称为内含子。㈡顺式调控原件•顺式调控元件(cis-actingelements):与结构基因表达调控相关,能够被基因调控蛋白特异性识别和结合的DNA序列。包括:启动子、上游启动元件、增强子、加尾信号和一些其它反应元件。•反式作用元件(trans-actingelements):一些可以通过结合顺式元件二调节基因转录活性的蛋白因子。⒈启动子(promoter):启动子是DNA分子可以与RNA聚合酶特异识别和结合的部位,启动子位于结构基因的上游,每个结构基因的上游都含有一个启动子。启动子具有高度的保守性,真核基因的启动子必须与转录因子结合后才能被RNA聚合酶识别与结合,并启动转录。这一点与原核细胞不同。真核细胞的启动子元件是TATA盒(TATAbox),位于转录起始点上游-25bp处。⒉上游启动子元件(upstreampromoterelement):是TATA盒上游的一些特定的DNA序列,反式作用因子可与这些元件结合,通过参与促进RNA聚合酶与DNA的结合,调节DAN的转录过程。常见的上游启动元件包括:CAAT框:位于TATA上游,位置不确定。GC盒:CACA盒:⒊反应元件(responseelement):也是一种顺式作用元件,但它是专门与细胞的一些信息分子结合,来调节基因的表达。反应元件一般仅次于启动子内或增强子内。⒋增强子(enhancer):为一段DNA序列,它能与反式作用因子识别、并结合,起到调节转录(通常是增强)的作用。增强子可在一个基因存在多个,即可分布在启动子的上流,也可存在于结构基因内部的内含子或下游。现在又发现了一些增强子内含负调控序列,称为负增强子。⒌加尾信号:在结构基因的最后一个外显子中有一个保守的AATAAA序列,这个序列对于mRNA转录终止和加poly(A)尾是必不可少的。在此位点的下游有一段GT丰富区或T丰富区,此区与AATAAA序列共同构成poly(A)加尾信号。㈢基因家族基因家族(genefamily)的概念:指核苷酸序列或编码产物的结构具有一定程度同源性的一组基因。基因家庭可能是由同一祖先进化来的。有的基因家族的成员同源性很高,但也有的基因家族很低。假基因(pseudogene):在多基因家族中,某些成员不能表达出有功能的产物,这些基因称为假基因,用ψ来表示。基因家族在基因组的分布:一类是基因家族成簇地分布在某一条染色体上,它们可同时发挥作用,合成某些蛋白质,如组蛋白基因家族就成簇地集中在第7号染色体长臂3区2带到3区6带区域内;另一类是一个基因家族的不同成员成簇地分布在不同的染色体上,这些不同成员编码一组功能上紧密相关的蛋白质,如珠蛋白基因家族基因家族的类型:⒈核酸序列相同在真核基因组中,编码rRNA和RNA基因的DNA片段常以这种形式出现。构成染色质中的组蛋白基因也是一种核苷酸序列相同的DNA序列。⒉核酸序列高度同源如人生长激素基因家族,包括生长激素、人胎盘促乳素、催乳素的编码基因。它们之间的同源性很高,编码蛋白质的氨基酸序列的同源性为85%,RNA上的同源性为92%,而各个基因的也未排列在一起。⒊编码产物具有同源功能区有的基因家族成员之间的同源性可能不高,但编码蛋白具有高度的保守区,如获至宝src癌基因家族,各成员无明显的同源性,但每个基因产物都有一个250个氨基酸序列同源,组成相似的结构域。⒋编码产物具有小段保守基序基因序列的同源性不高,但编码产物具有共同的功能。⒌基因超家族是指一组由多基因家族及单基因组成的更大基因家族。其代表为免疫球蛋白基因超家族㈣重复序列(repeatsequence):在真核生物基因组存在着的大量的碱基序列重复出现的情况。重复序列中,除了编码RNA、RNA和组蛋白的结构基因外,大部分是非编码序列。但对它们的功能还不十分清楚。根据出现频率的不同,将它们分为三类:高度重复序列:重复出现1010中度重复序列:重复出现101-105。单拷贝序列:㈤真核生物基因组中的转座子㈥端粒端粒(telomere):以线性结构存在于基因组端部的一段特殊DNA序列。序列与蛋白质形成复合结构,存在于每个染色体的末端部,端粒的功能主要有保护DNA在复制过程的完整性,同时也是细胞衰老的重要指标。五、线粒体基因组•原核基因组与真核基因组的比较第三节病毒基因组一、病毒基因组核酸的主要类型1.双链DNA2.单链正股DNA3.双链RNA4.单链负股RNA5.单链正股RNA二、病毒基因组的特点1.病毒基因组大小相差较大,与细菌或真核细胞相比,病毒的基因组很小,但是不同的病毒之间其基因组相差亦甚大。如乙肝病毒DNA只有3kb大小,所含信息量也较小,只能编码4种蛋白质,而痘病毒的基因组有300kb之大,可以编码几百种蛋白质,不但为病毒复制所涉及的酶类编码,甚至为核苷酸代谢的酶类编码,因此,痘病毒对宿主的依赖性较乙肝病毒小得多。2.病毒基因组可以由DNA组成,也可以由RNA组成,每种病毒颗粒中只含有一种核酸,或为DNA或为RNA,两者一般不共存于同一病毒颗粒中。组成病毒基因组的DNA和RNA可以是单链的,也可以是双链的,可以是闭环分子,也可以是线性分子。如乳头瘤病毒是一种闭环的双链DNA病毒,而腺病毒的基因组则是线性的双链DNA,脊髓灰质炎病毒是一种单链的RNA病毒,而呼肠孤病毒的基因组是双链的RNA分子。一般说来,大多数DNA病毒的基因组双链DNA分子,而大多数RNA病毒的基因组是单链RNA分子。3.多数RNA病毒的基因组是由连续的核糖核酸链组成,但也有些病毒的基因组RNA由不连续的几条核酸链组成。如流感病毒的基因组RNA分子是节段性的,由八条RNA分子构成,每条RNA分子都含有编码蛋白质分子的信息;而呼肠孤病毒的基因组由双链的节段性的RNA分子构成,共有10个双链RNA片段,同样每段RNA分子都编码一种蛋白质。目前,还没有发现有节段性的DNA分子构成的病毒基因组。4.非编码区少,编码序列大于90%:病毒基因组的大部分是用来编码蛋白质的,只有非常小的一份不被翻译,这与真核细胞DNA的冗余现象不同如在ΦX174中不翻译的部份只占217/5375,G