基因和基因组的结构与功能一、基因的生物学概念•1866Mendel发表《植物杂交实验》,“遗传因子”通过豌•豆实验,提出经典遗传定律:分离定律和独立分配定•律•1909W.Johannse提出gene这一名词,但还只是遗传性状的•符号,未涉及基因的物质概念•1910Morgan发现果蝇的白眼性状的伴性遗传,首次把一个•特定的基因和一个特定的染色体联系起来•1919教材中开始出现gene一词ThePhysicalBasisof•Heredite•1926Morgan发表TheTheoryofGene,认为:基因依孟德尔第一定律(分离定律)而彼此分离,于是每个生殖细胞只含一组基因;不同连锁群里的基因依孟德尔第二定律(自由组合定律)而自由组合;两个相对连锁群的基因之间有时候也发生有秩序的交换,交换率证明了每个连锁群里诸要素的直线排列,也证明了诸要素的相对位置。•20世纪40年代Bendle和Tatum提出“一个基因,一个酶”学说首次在分子水平上给基因如下定义:基因位于染色体上的一定区域,在有丝分裂中作为1个遗传单位存在,并决定一定的表型。•20世纪50年代Benzer提出“顺反子”、“一个顺反子,一条多肽链”•20世纪60年代遗传密码的破译使人们对基因表达的机理有了更多的了解修改定义为:基因是基因组中的1个区域或1段DNA序列;其转录产物编码1条多肽链或者1个结构RNA分子(tRNA或rRNA)。•80年代以后认识到基因表达的复杂性•1994Alberts基因是一段DNA序列,包括完整的功能单位(如编码序列、调节序列和内含子等);基因可以作为1个转录单位,其表达产物通常是1条多肽链或1个DNA分子,但有时编码1组相关的蛋白异形体,有些蛋白异形体的产生和特殊的转录后加工(如RNA编辑)或者翻译水平的再编码(如核糖体跳跃)有关。二、基因的现代概念•生物学概念:基因是世代相传的,基因决定了遗传性状的表达,基因的颗粒性主要表现在世代相传的行为和功能表达上具有相对的独立性,基因呈直线排列在染色体上。•分子生物学概念:合成有功能的蛋白质或RNA所必需的全部DNA(除部分病毒RNA),即一个基因不仅包括编码蛋白质或RNA的核酸序列,还应包括为保证转录所必需的调控序列。三、基因组的概念细胞或生物体中,一套完整单体的遗传物质的总和,即某物种单倍体的总DNA。对于二倍体高等生物来说,其配子的DNA总和即一组基因组,二倍体有两份同源基因组。四、原核生物基因组的特点病毒基因组•1.结构简单,基因组小,所含基因少。•2.基因组可由DNA组成,也可由RNA组成,但不能共存于同一病毒。乳头瘤病毒闭环双链DNA腺病毒线性双链DNAPhageΦX174单链环状DNAPhageM13单链环状DNA(复制型为双链环状DNA)脊髓灰质炎病毒单链RNA呼肠弧病毒双链RNA3.相关基因丛集。DNA序列中功能相关的RNA和蛋白质基因,丛集在基因组的一个或几个特定部位,形成一个功能单位或转录单位,可被一起转录成为多顺反子mRNA。4.常见重叠基因现象。5.非编码区少,重复顺序少。蛋白D蛋白E细菌基因组1.一条双链DNA,具有类核结构。2.具有操纵子结构。几个功能相关的结构基因串联在一起受同一个调控区调节。E.coli基因组含3500个基因,有260个已查明具有操纵子结构,定位于75个操纵子中。E.coli3.蛋白质基因单拷贝,rRNA基因多拷贝,这可能有利于核糖体的组装。E.coli中rRNA基因(rDNA)具有多拷贝,而且都以转录单位的形式组织在一起。1个转录单位通常含3个rDNA,以16S-23S-5S的顺序串联排列,有的转录单位中间还插有tRNA基因,每个转录单位的长度大于5Kb。转录后先得到rRNA前体,再剪切成16S、23S和5SrRNA4.结构基因中无内含子,边转录边翻译。5.无基因重叠结构。6.DNA分子中有多种功能区。这些区域往往具有特殊的结构,并且含有反向重复序列。质粒DNA•存在于细菌与真核细胞中的一种亚细胞结构。•绝大多数质粒都是双链DNA分子。•没有蛋白外壳,只能在寄主细胞中独立地增殖,并随着宿主细胞的分裂而被遗传下去。对于宿主细胞的生存不是必需的,但质粒所携带的某些基因,可以对宿主细胞的生物学特征产生影响。•质粒是一个完整、独立的复制子,并且能够转化细胞(把它的一个复本从供体细胞转移给受体细胞),因此可以作为一种载体,把目的DNA带入宿主细胞中进行增殖。而且通常能给细胞带来特殊的标记,顾而可以利用这些标记来筛选阳性克隆。质粒DNA的复制类型•严紧型:每个宿主细胞中仅含有1-3个拷贝,其复制要受到宿主细胞的严格控制。•松弛型:每个宿主细胞可含有10-60个拷贝,其复制不受宿主细胞的严格控制,即当宿主细胞蛋白合成受到抑制时,质粒可以继续复制,拷贝数可以增至1000-3000之多。质粒DNA的功能类型1.F质粒(F因子或性质粒)能够使宿主细胞染色体上的基因和F质粒一起转移到原先不存在该质粒的受体细胞中。2.R质粒(抗药性因子)编码一种或几种抗菌素的抗性基因,并能将此抗性基因转移到宿主细胞中,使其获得同样的抗性能力。3.Col质粒编码控制大肠杆菌素合成的基因。细菌基因组学研究的意义1、能够更好地了解病原微生物的致病机制。2、对致病菌基因组的研究,可以加快重要致病基因的发现速度。3、寻找病原菌所特有的DNA序列,提高临床诊断的效率和准确性。4、为筛选有效药物及发展疫苗提供参考。细菌基因组学研究的意义总之,细菌基因组研究将使人类从更高层次上掌握病原微生物的致病机制及规律,从而得以发展新的诊断、治疗、预防微生物感染的制剂、药物及疫苗。此外,新发现的微生物酶及蛋白还可能在工农业生产上有应用价值。五、真核生物基因组的特点真核生物和原核生物基因表达的对比真核生物基因组结构与功能特点1、真核生物基因组的化学本质为DNA,大多与蛋白质结合形成染色质,基本结构单位为核小体。每一种真核生物都有一定的染色体数目,除配子为单倍体外,体细胞一般为双倍体,即含两份同源基因组,而原核生物的基因组则是单拷贝的。真核生物基因组结构与功能特点2、基因组远大于原核生物,结构复杂,基因数庞大,具有许多复制起始点,每个复制子大小不一。3、基因不存在操纵子结构,功能相关基因分散在不同的染色体上。基因都由一个结构基因与相关的调控区组成,转录产物为单顺反子,即一分子mRNA只能翻译成一种蛋白质。真核生物基因组结构与功能特点4、基因组中有大量低度(重复频率103)、中度(重复频率105)和高度重复序列。5、基因是不连续的(断裂基因),由外显子和内含子镶嵌排列而成。基因转录的初级产物需经一定的加工,切除内含子使外显子拼接,才能形成成熟的mRNA。6、非编码区(占90%以上)远大于编码区。真核生物基因组结构与功能特点7、功能相关的基因构成各种基因家族,它们可串联在一起,亦可相距很远,但即使串联在一起的成簇的基因也是分别转录的。8、基因组中也存在一些可移动的遗传因素,这些DNA顺序并无明显生物学功能,似乎为自己的目的而组织,故有自私DNA之称,其移动多被RNA介导(如在哺乳动物及人类基因组中发现的逆转座子),也有被DNA介导的(如在果蝇及谷类中发现的DNA转座子)重复序列C0t1/2高度重复序列中度重复序列单一序列真核生物DNA的复性动力学曲线将真核生物基因组的DNA进行复性动力学测定,显示3个不同的时相。重复序列的作用1、编码某些重要的功能性蛋白质及产物等,如组蛋白、rRNA、tRNA等。2、与染色体的构象、着丝点的形成有关。3、参与基因表达调控。高度重复序列1.卫星DNA5-10个bp,大多位于着丝粒和端粒、表达基因的间隔区、内含子。人的卫星DNA可分为I、II、III、IV四种,各类型由不同的重复顺序家族构成。分子杂交研究表明,同一类型中不同家族成员之间不能进行杂交,说明卫星DNA具有多态性。2.微卫星DNA又称简单重复序列(simplerepeatsequence,SRS)。1-6bp为重复单位,10-60次拷贝串联。最常见是2bp串联(即(AC)n和(TG)n,约占10%),散在分布在基因组中,多位于编码区附近,也存在于卫星序列中及中度重复序列中。功能:参与遗传物质结构的改变、基因调控及细胞分化等过程。小鼠DNA在氯化銫密度梯度离心中的密度曲线卫星DNA与微卫星DNA的比较卫星DNA微卫星DNA存在部位染色体近端粒和着丝粒区染色体任何部位重复单位长度6-70bp,常富含GC1-6bp重复次数几次到几百次10-60次总序列长度0.5-30kb约200bp重复单位的差异重复单位组成稍有差异,重复单位的变异性低,如单个碱基置换存在数量有限,有些染色体尚未见到很多高度重复序列的功能1、参与复制水平的调节2、参与基因表达的调控3、参与转位作用4、与进化有关5、作为每一个体的特征6、可能与染色体减数分裂时染色体配对有关中度重复序列特征:一般是不编码的序列,在基因调控中起重要作用,包括开启或关闭基因的活性、DNA复制的起始、其转录产物参与hnRNA(不均一核RNA)的处理等;重复单位的序列相似,不完全一样,分散在基因组中,序列的长度和拷贝数不均一;具有种属特异性。(1)Alufamily•哺乳动物中含量最丰富的中度重复序列家族。•重复单位中带有限制性内切酶Alu的酶切位点:AG↓CTTC↑GA•主要集中在细胞分裂晚期的R带,大部分属于非编码DNA,但也有一部分位于mRNA的非翻译区,甚至位于编码区内。•功能可能与hnRNAr的加工成熟、DNA复制及转录调节有关(2)KpnIfamily(3)Hinffamily仅次于Alu家族的第二大家族。人KpnI顺序长6.4kb,散在分布,拷贝数约为3000-4800个,占人体基因组的1%。限制性内切酶HinfI约有50-100个拷贝分散在基因组的不同区域。多基因家族(multigenefamily)•亦称基因家族,是真核生物基因组中一组来源相同、结构相似、功能相关的基因,有的编码蛋白质,有的编码RNA。•根据分布不同,可分为两大类:(1)基因成簇地分布在一条染色体上,呈串联排列,产生多个拷贝,具有几乎相同的序列,同时发挥作用,如rRNA、tRNA、组蛋白等。(2)各家族成员分布在不同的染色体上,序列虽然不相同,但编码的是一组紧密相关的蛋白,如干扰素、生长激素、珠蛋白等。假基因(pseudogene)•在基因家族中,有些成员的序列与相关功能基因的序列相似,但不能被转录或转录后生成无功能的基因产物。•一个假基因常常有多个有害的突变,可能因为作为一种活性基因一旦停止,就再没有适当机制阻止进一步突变的聚积。假基因数目一般较少,往往只占基因总数的一小部分。假基因主要有两种类型•(1)由于一种基因的加倍而失活。这种类型假基因保留原来亲本基因的外显子及内含子组织并常与亲本基因密切联系,如α、β球蛋白基因簇的假基因。它们可能是由于失去起始转录信号,或外显子—内含子连接处不能剪接或翻译不能终止。•(2)第二种假基因仅含有亲本基因的外显子,常常拥有3’端polyA尾,并随机分布于基因组中。这些假基因是源于mRNA,并通过逆转录而重新整合进基因组。人β-珠蛋白基因簇及各个功能β-类珠蛋白基因的结构列举几个基因家族:1典型的前rRNA基因(转录单位)结构示意图列举几个基因家族:2组蛋白基因簇三种动物中的组蛋白基因簇黑色方框:组蛋白基因空心方框:基因间的间隔区箭头:基因的转录方向列举几个基因家族:3超基因家族•指一组由多基因家族及单基因组成的更大的基因家族。结构上有不同程度的同源性,可能起源于相同的祖先基因,但功能不相同。•例如,免疫球蛋白超基因家族。单一序列•也称为单拷贝序列。•真核生物一般为二倍体细胞,因此不重复的单一序列存在2个拷贝。•大多数结构基因都是单一序列。•80%左右的mRNA来自单一序列DNA。•结构基因的突变容易引起遗传性状的改变或产生遗传性疾病。断裂基因•即不连续基因。•绝大多数真核生物的基因都是断裂基因。编码蛋白质的基因称为外显子(exon),其间由不编码的序列即