1分子生物学MolecularBiology基因与基因组GenesandGenomes吴坤陆生命科学学院分子生物学研究中心21865,GregorMendel遗传因子学说一、基因的概念1909,WilhelmLudvigJohannsen基因第一节基因(genes)21910,T.H.Morgan基因在染色体上一个基因一种酶1941,G.W.Beadle&E.L.Tatum1944,M.McCarty&O.Avery1952,A.Hershey&M.Chase证实DNA是遗传物质DNA是遗传物质3基因的概念:合成有功能的蛋白质或RNA的全部DNA(RNA病毒除外),包括编码蛋白质或RNA的核酸序列及保证转录所必需的调控序列。DNAgene4DNA真核生物的结构基因由外显子(exon)和内含子(intron)两部分组成。编码序列不连续,称为断裂基因。intronexonRNA剪接成熟mRNAmRNA前体(一)结构基因(structuralgene)二、基因的结构可被转录形成mRNA,编码RNA或蛋白质多肽链的DNA序列。5(二)非结构基因TATAAAATATTT5′3′3′5′顺式作用元件(cis-actingelement)transcriptionstartpoint3′不编码RNA或蛋白质多肽链,参与转录调控结构基因表达的DNA序列。61.启动子和上游启动子元件•启动子(promoter):RNA聚合酶特异性识别结合和启动转录的DNA序列,有方向性,位于转录起始位点上游。真生物启动子为TATA盒。•上游启动子元件(upstreampromoterelement)TATA盒上游的一些特定DNA序列,反式作用因子可与这些元件结合,调控基因的转录效率。CAAT盒、GC盒、CACA盒等7CAAT盒:位于-70bp左右,核心序列GGNCAATCT。与CTF结合,调控转录效率。-25+1-70transcriptionstartpointTATA盒:位于转录起始点上游-25bp左右,核心序列TATA(A/T)A(A/T),与TATA结合蛋白结合,启动基因转录。β珠蛋白基因启动子突变:TATAA→TGTAA,降低mRNA的转录效率→β+地贫。82.反应元件(responseelement)CAATboxTATAboxpromoter3′responseelement与被激活的信息分子受体结合,并能调控基因表达的特异DNA序列。糖皮质激素反应元件:cccaaagagctctgtgtcctexonintronexonintronexon5′93.增强子(enhancer)CAATbox与反式作用因子结合,增强转录活性,在基因任意位置都有效、无方向性。TATAboxenhancerpromoter3′exonintronexonintronexonresponseelement凝血酶原基因增强子-922to-897:5′-GTGTTCCTGCTCTTTGTCCCTCTGTC-3′3′5′4.沉默子(silencer)甲胎蛋白(AFP)基因沉默子:cttcattaacttaattt5′ttatggcttcattaacttaatttgagagaaattaattattctgcaacttagggacaagtcatctctttgaatattcTgtagtttgaggagaatatttgttatatttgcaaaataaaataagtttgcaagttttttttttctgccccaaagagctctgtgtccttgaacataaaatacaaataaccgctatgctgttaattattggcaaatgtcccattttcaacctaaggaaataccataaagtaacagatataccaacaaaaggttactagttaacaggcattgcctgaaaagagtataaaagaatttcagcatgattttccatattgtgcttccaccactgccaataacacaaaataactagcaaccatgaagtggg甲胎蛋白基因(alpha-fetoprotein,AFP)5′侧翼序列5′ttatggcttcattaacttaatttgagagaaattaattattctgcaacttagggacaagtcatctctttgaatattcTgtagtttgaggagaatatttgttatatttgcaaaataaaataagtttgcaagttttttttttctgccccaaagagctctgtgtccttgaacataaaatacaaataaccgctatgctgttaattattggcaaatgtcccattttcaacctaaggaaataccataaagtaacagatataccaacaaaaggttactagttAacaggcattgcctgaaaagagtataaaagaatttcagcatgattttccatattgtgcttccaccactgccaataacacaaaataactagcaaccatgaagtgggtranslationstartpointTATAboxtranscriptionstartpointCAATboxglucocorticoidresponsiveelementssilencer115′--------AATAAA----------GTGT---3′DNAmRNA前体5′--------AAUAAA----------GUGU---3′5′--------AAUAAA------AAAAAAAA3′mRNA结构基因末端保守的AATAAA顺序及下游GT或T富含区,被多聚腺苷酸化特异因子识别,在mRNA3′端加约200个A。β珠蛋白基因突变:AATAAA→AACAAA,→β+地贫。5.Poly(A)加尾信号12CAATboxTATAboxEnhancerpromoter基因的结构exonexon非翻译区(untranslatedregions,UTR)UTRUTRPoly(A)加尾信号5′3′intronintronexonTGAATG开放阅读框(openreadingframe,ORF)responseelement结构基因+1termination13第二节基因组(genomes)基因组:细胞或生物体一套完整单倍体的遗传物质的总称。51619xy14一、原核生物基因组大肠杆菌(Escherichiacoli)OriCTerC1.由一条环状双链DNA分子组成,2.通常只有一个DNA复制起点。4.6×106bp15PromoterGene1Gene2Gene3TerminatorDNATranscriptionmRNA3′1235′TranslationProteins123操纵子(operon):多个功能相关的结构基因成簇串联排列,与上游共同的调控区和下游转录终止信号组成的基因表达单位。3.结构基因大多组成操纵子多顺反子(polycistron):原核生物的一个mRNA分子带有几个结构基因的遗传信息。16ⅢGATCTCTTATTAGⅰTGTGGATAAⅱTTATACACAⅲTTTGGATAAⅳTTATCCACA复制起始区(OriC)~250bp4.非编码区主要是调控序列复制起始区、复制终止区转录起动区、转录终止区ⅠGATCTNTTTATTTⅠⅰⅡGATCTNTTNTATTⅡⅢⅱⅲⅳ17C值:4,639,221bp基因数:42885.基因密度非常高,基因组中编码区大于非编码区;6.结构基因没有内含子;7.结构基因多为单拷贝;50kb8.结构基因无重叠现象;9.有编码同工酶的等基因(isogene)分支酸别构酶entBentC1810.存在可移动的DNA序列BarbaraMcClintock1902-1992转座或移位(transposition):转座因子在基因组不同位置间的移动。转位因子(transposableelement):能够在一个DNA分子内部或两个DNA分子之间移动的DNA片段。19简单转座是转座因子从原来位置上切除并转移到基因组新的位置。复制性转座是转座因子复制出一个新拷贝转移到基因组新的位置。转座作用的机制供体DNA转座子受体DNA复制和转座新的DNA切除和连接供体DNA转座子受体DNA新的DNA20质粒(plasmid)质粒是存在于细菌染色体外的,具有自主复制能力的环状双链DNA分子。21肠出血性大肠杆菌(EHEC)O157:H7O104:H4菌体抗原(O)鞭毛抗原(H)表面抗原(K)221.基因组由一条环状双链DNA组成;2.只有一个复制起始点;3.大多数结构基因组成操纵子结构;6.无内含子,转录后不需要剪接;8.结构基因无重叠现象;原核生物基因组的结构特点5.基因组中编码区大于非编码区;7.重复基因少,结构基因一般为单拷贝;10.基因组中存在可移动的DNA序列;4.非编码区主要是调控序列。9.有编码同工酶的等基因;23二、真核生物基因组人类染色体核型C值>3000Mb,基因数>20,000人类线粒体DNA1.每一种真核生物都有一定的染色体数目;2.远大于原核基因组,结构复杂,基因数庞大;24TranslationTranscriptionmRNADNAProteinPromoterStructureGene3′5′3.真核基因有内含子;单顺反子(monocistron):真核生物的一个结构基因转录生成一个mRNA分子。4.真核生物的结构基因转录为单顺反子;25编码序列非编码序列单拷贝序列5.非编码序列多于编码序列;<3%>95%高度重复序列(≥106)低度重复序列(2~9)中度重复序列(10~105)6.存在大量重复序列;26低度重复序列(Lowcopynumberrepeat)在单倍体基因组中只出现一次或数次,含量>50%,结构基因主要是单一序列。(1)单拷贝序列(uniquesequenceDNA)(2)中度重复序列(ModeratelyrepeatedDNA)重复次数10~105。tRNA、rRNA、组蛋白、免疫球蛋白基因,可能与基因调控相关序列等。(3)高度重复序列(highlyrepeatedDNA)重复次数>106。①反向重复序列②卫星DNA(串联重复序列)27①反向重复序列:5′AAACCACCGCTGGTAGCGGTGGTTT3′3′TTTGGTGGCGACCATCGCCACCAAA5′5′AAACCACCGCTAGCGGTGGTTT3′3′TTTGGTGGCGATCGCCACCAAA5′回文结构两个顺序相同的拷贝在DNA链上呈反向排列。28②卫星DNA(satelliteDNA)存在于非编码区的串联重复序列,有相同的核心序列,多为2~70bp。29a.大卫星(macro-satellite)DNA:ACAAACTACAAACTACAAACT…重复单位5-10bp,在群体中多态性不显著。b.小卫星(minisatellite)DNA:重复单位9-24bp,呈高度多态性。核心序列GGGCAGGAXGc.微卫星DNA(micro-satelliteDNA)重复单位2-6bp,常见为(AC)n和(TG)n,呈高度多态性,可作遗传标记。30MotherChildFatherAllegedFather亲子(亲权)鉴定ParentageTesting31(1)核酸序列相同:多拷贝基因形成的基因簇,rRNA、tRNA、组蛋白基因家族等。组蛋白基因家族(2)核酸序列高度同源生长激素(GH)与绒毛膜生长催乳激素(CS)部分序列比对GHCSATGGCTCCAGGCTCCCGGACGTCCCTGCTCCTGGCTTTTGCC…ATGGCTACAGGCTCCCGGACGTCCCTGCTCCTGGCTTTTGGC…7.存在多基因家族与假基因;32(3)编码产物的功能或功能区相同人类蛋白激酶C家族(4)假基因(Ψ):与有功能的基因相似,不表达或表达产物没有功能。珠蛋白基因簇中的假基因GA21Alu10kb33人类线粒体DNA2个rRNA基因