第六章基因的概念及发展教学基本要求:1.重点掌握基因的概念及其发展状况2.具体掌握“三位一体”、结构基因、调节基因、启动子与操纵基因;顺反子、重组子、突变子;断裂基因、外显子与内含子;重叠基因;基因的功能,一基因一酶假说的内容。学时数:3学时性状的表现受基因控制,由于基因的分离与减数分裂时染色体的分离同步,因而确定染色体是基因的载体。对遗传物质DNA的研究,把遗传学从细胞水平提高到分子水平,奠定了分子遗传学基础。本章将进一步说明基因的本质是什么,基因的概念及其发展状况。第一节经典遗传学中基因的概念1866年,G.J孟德尔在他的豌豆杂交试验中,用大写字母代表显性性状,用小写字母代表隐性性状,提出了遗传因子的概念,但他并没有严格地区别所观察的性状和控制这些性状的遗传因子。20世纪,孟德尔的工作被重新发现。100多年来人们对基因的认识在不断地变化。1909年,丹麦遗传学家约翰逊(Johansson.W.L)提出基因这一名词(gene←pangengenetics←togenerate),并提出了基因型和表现型这个术语。1910年,美国遗传兼胚胎学家T.H.摩尔根(Morgan)在果蝇中发现白色复眼突变型,首先说明(1)基因可以发生突变;(2)证实基因位于染色体上,呈直线排列,象一串珠子一样;(3)非等位基因间可以发生交换。不过直到40年代中期为止,还没有发现过交换发生在一个基因内部的现象。因此当时提出基因是一个功能单位,也是一个突变和交换单位的“三位一体”的概念。把基因看成是不可分割的最小的遗传单位。摩尔根的主要成就:把基因和染色体联系起来。认为基因是一种物质,是染色体上的一个特定的区段。第二节基因与DNA一、基因的化学本质1928年,Griffith首先发现了肺炎双球菌的转化现象,1944年,O.T.Avery(埃弗里)等证实肺炎双球菌的转化因子是DNA,才首次证明基因是由DNA构成。1953年,Watson和Crick(沃森和克里克)提出了DNA的双螺旋结构模型。Crick,1957年提出“中心法则”,1961年,又提出“三联体密码”,从而阐明了DNA的结构、复制和遗传物质如何保持世代连续的问题。从化学本质上看基因是含有特定遗传信息的DNA分子片断,每个基因平均相当于1000(500-6000)对核苷酸的特定序列。估计大肠杆菌含有1000~7500个基因,人的基因至少有100万个(按分子量算)。(1)基因的自体复制——DNA的复制。(2)基因决定性状——DNA→mRNA→蛋白质。(3)基因突变——DNA核苷酸的改变。二、基因与基因组基因组(genome)这个名词最早出现在1922年的遗传学文件中,指的是单倍体细胞中所含有的整套染色体,所以又被译作染色体组。近年来,学界更多地把genome定义为整套染色体所包含的全部基因。原核生物基因组就是原核细胞内构成染色体的一个DNA分子;真核生物的核基因组是指单倍体细胞内整套染色体所含的DNA分子。基因组测序的结果指出,基因组中不仅包含着整套基因的编码序列,同时还包含着大量非编码序列,这些序列同样包含着遗传指令。因此,基因组应该是整套染色体所包含的DNA分子以及DNA分子所携带的全部遗传指令。基因组研究的迅猛发展已形成了一个新的学科,即基因组学(Genomics),这是1986年出现的述语。用以表述研究生物体基因和基因组的结构组成、不稳定性及功能性的一门学科。随后又把基因组学分成结构基因组学和功能基因组学(structuralgenomicsandfuretionalgenomics),前者研究基因和基因的结构,各种遗传元件的序列特征,基因组作图和基因定位等;后者着重研究不同的序列结构具有的不同的功能,基因表达的调控,基因和环境(包括基因与基因之间,基因与其他DNA序列之间,基因与蛋白质之间)的相互作用等。(一)基因组的序列复杂性1.C值悖理:生物体的单倍体基因组所含DNA总量称为C值。C值悖理:生物基因组的大小同生物在进化上所处的地位高低无关:(1)显花植物和两栖类动物的基因组最大,软骨鱼硬骨鱼甚至昆虫和软体动物的基因组都大于包括人类在内的哺乳动物的基因组。肺鱼的C值比人类高100倍。(2)每类生物的最小基因组的大小基本上对应生物在进化上所处的地位的高低。2.序列复杂性同一类生物中基因组大小相差悬殊,其主要差别在于多余(excess)DNA量的差别。(1)重复序列基因组不同序列的总长度称为序列复杂性(sequencecomplexity)。用bp来表示。序列复杂性的高低反映了序列包括的遗传信息量的多少。(2)外显子数目的多寡,从进化的角度看,更多的外显子有助于形成更多的外显子组合,对生物在多种环境下生存是有利的。3.DNA复性协力学反映基因组内单一序列和重复序列的组成情况。(1)DNA的变性和复性。变性(denaturation)::将双链DNA在中性盐溶液(食盐0.18mol/L、枸橼酸钠0.018mol/L)中加热(100℃,10分钟)。使两条多核苷酸链互补碱基对间的氢键打开,分成两条单链。复性(renaturation)或退火(annealing):变性后成为单链的DNA,在适当的条件下(慢慢冷却10小时以上)又回复成双链DNA。解链温度(meltingtemperature,Tm):使溶液中DNA分子的50%成为单链时,所需的温度。因为DNA分子中,氢键越多越稳定,所以GC含量多,解链温度高,DNA稳定性高。(2)复性速率(reassociationrate)与重复顺序DNA复性速率与基因组中碱基顺序的复杂情况和重复程度有关。两种不同复杂性的DNA分子,在总量相同的情况下,复杂性高的序列,复性速度慢,反之亦然。复性速率可以用下列公式表示C-在时间t时单链DNA浓度,k-二级反映常数解微分方程得:当复性反应完成一半时,所对应的Cot值定义Cot1/2可用分光光度计,在260nm波段测量光密度的变化,此外,复性速率也受到反应液中DNA初始浓度的影响。因此,以未复性的单链百分数为纵轴,初始浓度(Co)×时间(t)为横轴,作成Cot复性曲线,用来估计重复顺序和单拷贝顺序的相对比例。E.coliDNA没有重复顺序。它的曲线可以看作是一条理想曲线,小牛DNA的复性速率初期比E.coli快得多。因为小牛基因组中少数基因有大量拷贝数。后期的复性速率大大低于E.coli,因为小牛基因组中单一顺序(unique)远比E.coli复杂。(二)基因组DNA序列的分类1.基因序列和非基因序列:(1)基因序列是指基因组里决定蛋白质(或RNA产物)的DNA序列。ATG开始,终止密码子结束。在分析基因组序列时,当一个DNA序列以ATG开始,随后是一个个密码子,但还未发现其蛋白质产物,此时这种DNA序列称为可读框(2)非基因序列是基因组中除基因以外的所有DNA序列,主要是两个基因间的插序列。2.编码序列和非编码序列:(1)编码序列是指编码RNA和蛋白质的DNA序列(不含内含子)。(2)非编码序列包括内含子序列及居间序列的总和。3.单一序列和重复序列(1)单一序列(unique)是基因组里只出现一次的DNA序列。(非基因序列中也有单一序列),复性时间很慢。(2)重复序列(repetitive)是在基因组中重复出现的DNA序列。基因组内的重复序列有的是散在分布,有的是成簇存在。重复序列又可分为:A.轻度重复序列:一般指个基因组内有2-10个拷贝。但有时2-3个拷贝的DNA也被视作非重复序列,如组蛋白基因和酵母tRNA基因。B.中度重复序列:一般指10到几百拷贝的DNA序列,复性时间以分计。通常是非编码序列,平均长度300bp,往往构成序列家族,与单一序列相隔排列,分散在基因组中。可能在基因调控中起作用。C.高度重复序列:约为300bp的重复顺序,一个基因组中有几百份甚至几百万份拷贝,复性时间以秒计。既有重复几百分拷贝的基因,如rRNA基因和某些tRNA基因,更多的则是很短的非编码序列。呈头尾衔接的串联重复序列(tandemrepeat)按照基因组的分子量计算,哺乳动物的基因组中极大部分是重复序列。在非重复序列中,编码肽链的基因估计不超过百分之几。重复顺序是真核生物DNA区别于原核生物的一个重要特征。(三)重复序列家族重复序列家族(sequencefamily)是指一类核苷酸序列高度相似的重复序列,包括基因和基因以外的序列。真核生物基因组中来源相同、结构相似、功能相关的一组基因可归为一个基因家族(genefamily)。但重复序列主要是基因以外的DNA序列,根据其在基因组中的组织形式,可分为串联重复序列和散在重复序列。多数来源于反转录转座子。1.卫星DNA(satelliteDNA)DNA片段在氯化铯密度梯度离心中,按其大小在离心管内,形成不同的条带,根据荧光强度分析,可以看到在一条主带以外还有一个或多个小的卫星带,称卫星DNA,这种DNA的GC含量较少,密度低。卫星DNA按其浮力密度的大小可以分成Ⅰ、Ⅱ、Ⅲ、Ⅳ四类(1.687,1.693,1.700g/cm3),都是由各种不同的重复序列家族组成,通常是串联重复序列.卫星DNA按其重复单元的多少可分为两类:(1)小卫星DNA(minisatelliteDNA),由几百个核苷酸对的单元重复组成。(又:由11-60个bp的串联重复序列组成)。(2)微卫星DNA(microsatelliteDNA),由2-20bp重复成百上千次组成。(又:1-5bp)DNA指纹(DNAfingerprints):利用微卫星DNA的某些位置上的这种串联,成簇的重复单位数目不同,在串联重复序列两侧用限制性内切酶酶切后,就会产生重复单位数目不等的片段,具有丰富的多态性。这种多态性亦称VNTR序列(Variablenumberoftandemrepeat可变串联重复序列)。以VNTRs中的特异序列为探针进行Southern杂交,杂交带谱具有高度的特异性。倒位重复序列:这是两个序列的互补拷贝在同条DNA链上的反向排列,如GCACTTC……GAAGTGCCGTGAAG……CTTCACG2.散在重复序列以散在方式分布于基因组内,一般都是中度重复序列。分为(1)短分散重复序列(shortinterspersednuclearelements)SINEs长度在500bp以下。人类基因组中,重复拷贝数达10万以上。人类基因组中所有SINE之间的平均距离约为2.2Kb。如Alu序列家族,人类基因组中约有50万-70万拷贝,平均每隔4Kb就有一个Alu。一个典型的Alu序列长282bp,有一个限制性内切酶AluⅠ的识别序列ACCT。(2)长散在重复序列(longinterspersednuclearelements,LINEs)重复序列单元长度1000bp。第三节基因内部的精细结构过去一直认为基因是一个功能单位,同时也是一个突变单位,交换单位,即所谓三位一体的概念,认为:交换只能发生在基因之间,而不能在它们之中;突变只能从一个基因变成另一个基因,其内部没有改变变化的更小单位。20世纪40年代,在果蝇研究中发现,根据表型标准被认为是两个等位基因的突变型却可以发生重组而得到野生型,这种紧密连锁的功能性等位基因,但不是结构性的等位基因称为拟等位基因。精密的微生物遗传分析证明,基因并不是最小的不可分割的单位。一、顺反子、突变子与重组子1.重组测验1955年,美国的S.Benzer(本泽)用大肠杆菌T4噬菌体作为材料,研究快速溶菌突变型rⅡ的基因精细结构,发现在一个基因内部的许多位点可以发生突变,并可以在这些位点之间发生交换,从而说明一个基因是一个功能单位,但并不是一个突变单位和交换单位,因此,一个基因可以包括许多突变单位和许多重组单位。2.互补测验Benzer分析了rⅡ区域大约2000个(有些不能重组)突变型,知道这些突变分布在308个(能重组)位点上。那么,这308个位点是属于一个基因还是几个基因?为了划分这种功能单位界线,必须进行互补测验。Benzer用不同的rⅡ突变型成对组合去感染大肠杆菌K(λ)菌