第十节人类基因组及基因组学一、基因组学概况二、人类基因组计划三、遗传的分子基础四、基因组序列复杂性五、基因与基因家族六、人类基因组1.掌握基因组及基因组学的基本概念;2.掌握基因组学分支学科的定义以及主要研究内容;一、基因组学概况(一)基因组学基本概念(二)基因组学分支(三)基因组学的意义(一)基因组学基本概念基因(gene)基因组(genome)基因组学(genomics)基因(Gene)基因(gene)是1909年丹麦植物学家W.Johannsen根据希腊文单词genos(birth,给予生命)创造的。现代分子生物学的基因概念:合成有功能的蛋白质或RNA所必需的全部DNA序列,即一个基因不仅包括编码蛋白质或RNA的核酸序列,还应包括为保证转录所必需的调控序列。基因组(genome)基因组(genome)一词系由德国汉堡大学H.Winkles教授于1920年首创,从GENe和chromosOME组成。用于表示生物的全部基因和染色体组成的概念。基因组(genome):生物所具有的携带遗传信息的遗传物质的总和。真核生物基因组核基因组线粒体基因组叶绿体基因组原核生物基因组染色体质粒基因组比较基因组学(genomics)由美国科学家ThomasRoderick于1986年首创。基因组学(genomics):涉及基因组作图、测序和整个基因组功能分析的一门学科。基因组学发展史1980年,噬菌体(5,368碱基对)完全测序,成为第一个测定的基因组。1990年,人类基因组计划开始实施。2000年,人类基因组草图完成。2003年,人类基因组计划完成。目前,已完成基因组测序的模式生物包括小鼠,果蝇,酵母等。基因组学发展趋势基因转录及其调控的研究解析控制整个发育过程或反应通路的基因表达网络。蛋白质组学研究从整体上研究蛋白质的水平和修饰状态。研究蛋白质之间的相互关系。基因组多样性的研究对人类DNA的再测序对其它生物的测序(二)基因组学分支结构基因组学功能基因组学比较基因组学结构基因组学结构基因组学:通过基因组作图、核苷酸序列分析确定基因组成、基因定位的科学。基因组测序目前DNA测序每次反应仅能读取不到1000bp的长度。已知最小的细菌基因组为580000bp。人类基因组为30多亿bp。因此,首先将整个基因组的DNA分解为一些小片段,然后将这些分散的小片段逐个测序,最后将测序的小片段按序列组装。基因组作图在长链DNA分子的不同位置寻找特征性的分子标记,绘制基因组图。根据分子标记可以准确无误地将已测序的DNA小片段锚定到染色体的位置上。功能基因组学功能基因组学:利用结构基因组学提供的信息和产物,在基因组系统水平上全面分析基因功能的科学。功能基因组学的研究内容进一步识别基因以及基因转录调控信息。弄清所有基因产物的功能,这是目前基因组功能分析的主要层次。研究基因的表达调控机制,研究基因在生物体发育过程以及代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图。比较基因组学比较基因组学:研究不同物种之间在基因组结构和功能方面的亲源关系及其内在联系的学科。比较基因组学的研究内容通过研究不同生物基因组结构和功能上的相似之处,不仅能勾画出一张详尽的系统进化树,而且将显示进化过程中最主要的变化所发生的时间及特点。据此可以追踪物种的起源和分支路径。了解同源基因的功能。对序列差异性的研究有助于认识产生大自然生物多样性的基础。(三)基因组学的意义生物学研究例如:人类疾病基因研究医学生物技术制药工业社会经济生物进化伦理,法律及社会人类疾病基因研究疾病的遗传学基础。致病基因及相关基因的克隆在基因组学研究中占据着核心位置。对疾病的预防,诊断,治疗等有重要意义。人类基因组计划的直接动因是要解决包括肿瘤在内的人类疾病的遗传学基础问题。人类疾病基因研究单基因病疾病基因研究例如血友病。多基因病疾病基因研究例如心脏病,糖尿病,癌症等。单基因病疾病基因研究人类基因组计划使我们了解基因组序列。现在采用定位候选克隆方法极大地提高了发现疾病基因的效率。定位候选克隆通过遗传分析等方法将疾病基因定位到染色体区段上。对人类基因组图上该区段内的基因进行功能分析,并筛选出疾病基因定位候选克隆单基因病疾病基因克隆导致了亨廷顿舞蹈病、遗传性结肠癌和乳腺癌等一大批单基因遗传病致病基因的发现,为这些疾病的基因诊断和基因治疗奠定了基础。多基因病疾病基因研究比单基因病困难,目前疾病基因研究的重点。用比较基因表达谱的方法来识别疾病状态下基因的激活或抑制。癌肿基因组解剖学计划(CancerGenomeAnatomyProject,CGAP)癌肿基因组解剖学计划(CancerGenomeAnatomyProject,CGAP)1996年癌肿基因组解剖学计划开始。主要由美国癌症研究所(Nationalcancerinstitute)开展。•细胞以前是分子黑箱。人们在以前不知道细胞在分子水平的活动。•也不能回答为什么正常细胞会变成肿瘤细胞这样的问题细胞现在是开放的箱子。因为科学技术的进步,科学家们逐步发现细胞在分子水平的活动。•科学家们发现一个正常细胞在经过一定的分子水平的改变以后就会恶变。这样的变化通常要数年才能完成。•癌肿基因组解剖学计划的目的是为研究细胞恶变时发生的分子变化。癌肿基因组解剖学计划研究在基因组内发生的变化。•在癌症细胞中,基因会发生突变,从而导致蛋白质表达异常。•这种变化会导致细胞恶变。人类基因表达具有组织特异性。某一种组织细胞在一般情况下只表达特定的一组基因,称为表达谱。通过比较正常组织与癌变组织的表达谱,可以发现癌变组织基因表达的变化。•癌肿基因组解剖学计划通过测量mRNA水平来比较正常组织与癌变组织的表达谱。•第一步骤分离mRNA。第二步骤将mRNA转变为cDNA。第三步骤创建cDNA文库。科学家们将每一个cDNA都装入一个质粒,并导入一个E.coli细胞内。第四步骤分离单个cDNA。第五步骤cDNA测序测定polyA附近大约400bp的序列就可确认cDNA。这样的序列成为EST(expressedsequencetag)。EST序列信息保存在公共数据库中。总结EST序列代表了细胞内表达的基因。•癌肿基因组解剖学计划对EST序列库的贡献最大。•免费向公众开放。•科学家们可以很快获取某个基因的信息;以前所未有的速度发现新的基因。癌肿基因组解剖学计划帮助科学家们更好地了解癌生物学:1.同一种组织或器官有非常相似的基因表达谱。2.有些基因只在某一特定的组织中表达。3.在癌细胞内,一些基因被破坏或表达被关闭,或新的基因被表达。4.在细胞癌变过程中,基因表达的改变是一个渐变的过程。ResearchersusecDNAstobuildmicroarrays.AmicroarrayconsistsofaglassslideontowhichalargevarietyofcDNAsareplacedinseparatespots.EachspotcontainsmanycopiesofthesamecDNAmolecules.Hereisonesimplifiedexampleinprostatetissueofhowanormalcellmightdifferfromacancerousone.基因芯片•在芯片的不同位置上有大量不同种类的cDNA。•可用于发现组织内基因的表达。Inaverysimplifiedcase,twopatientssuspectedofhavingprostatecancerentertheclinic.ThemRNAsfromeachpatient'sprostatecellsareisolated,labeledwithafluorescentdye,andallowedtobasepairwiththecDNASonseparate,yetidentical,prostate-specificmicroarrays.基因芯片在临床研究中的应用举例:如果患者的前列腺细胞内某一基因有表达,则样本中含有该基因的mRNA。当孵育时,该mRNA则会与芯片上对应同一基因的cDNA结合。能检测到荧光。通过这种方法,可以检测到哪些基因在患者前列腺细胞内得到表达。因此可作出快速准确的诊断。科学家们通过基因芯片的研究发现,表面看起来是一种类型的淋巴瘤在分子水平实际上可分为两种亚型。传统的疗法只对一种亚型有效,而对另一种亚型则效果有限。癌肿基因组解剖学计划帮助全世界的科学家们更好地发现新的基因以及进行基因分析。科学上的进展又可帮助临床学家开发疾病诊断及治疗的新方法。将更进一步地造福人类。(三)基因组学的意义生物学研究例如:人类疾病基因研究医学生物技术制药工业社会经济生物进化伦理,法律及社会基因组学在医学上的应用诊断治疗预防疾病易感基因的识别风险人群生活方式、环境因子的干预有些人既抽烟又喝酒却能活到90岁而不生癌症,而有些人却因为抽烟又喝酒早早地得了癌症。有些女性的乳腺癌经治疗后能得到好转,而有些女性却不能。为什么?人与人之间有很大的不同。这些差异有很大一部分是由基因组的差异所决定的。人与人的基因组99.9%都是相同的。只有0.1%不同。在人类基因组30多亿碱基对中,不同的约有几百万对。正是这不同的部分形成一个人的特性,例如人的相貌,易患的疾病等。基因组差异性的形式大多数基因组的差异对人体没有影响,称为沉默性差异。这种差异大多位于DNA的非编码序列。有一些差异对人体有无害的差异。例如,人外观的不同。有一些差异会给人体带来有害的变化,称为变异。通常位于编码序列或调控序列。造成重要蛋白质功能的改变,导致疾病。•单基因病:单个基因的变异导致疾病发生。如血友病。•多基因病:需多个基因的变异才能导致疾病的发生。如糖尿病,心脏病,癌症等。有一些差异会带来潜在的变化。它们的效果只有在特定的条件下才能显现出来。这种差异可能决定人在特定环境因子影响下对疾病的易感性。另外还可能决定在患病后对治疗的反应性。单核苷酸多态性(SNP)是由于单个核苷酸改变而导致的核酸序列多态。SNP在人基因组中的发生频率比较高,是最常见的基因组差异。SNP和人类的健康有着密切的关系。SNPSNP发生在全部人群的至少1%的人中。SNP在基因组中数量繁多(几百万个),易于检测,有很大的实用价值。•大多数SNP位于非编码序列,不影响基因功能。有些SNP位置靠近特定的基因,可作为基因的标志。•其它的SNP位于编码序列内,可改变基因表达的蛋白质,从而影响人类健康。多肽链是由氨基酸连接而成的。氨基酸具有不同的化学性质。多肽链须折叠成蛋白质的立体结构才能发挥正常的功能。如果多肽链中一个或多个氨基酸发生了改变,则蛋白质折叠和功能可能会发生改变。有些SNP尽管位于编码序列内,但并不改变蛋白质的组成。例:CUG—CUC亮氨酸有些SNP会给蛋白质带来微小而无害的影响。例:GAU—GAG天门东氨酸变成了谷氨酸。两者都是酸性氨基酸。如果发生位置对蛋白质功能影响不大,结果就是无害的。蛋白质还会发挥正常的功能。有些SNP会给蛋白质的功能带来有害的影响,称为变异。例:GUA—GUU天门东氨酸变成缬氨酸。由于化学性质完全不同,会严重地影响到蛋白质的折叠和功能。镰刀形红细胞贫血症血红蛋白基因中单个碱基的改变导致谷氨酸被缬氨酸取代。变异的血红蛋白不能再携氧,导致疾病。有些SNP带来的影响在一般情况下不显现,只有在身体暴露在致病因子时才显现。因为这些SNP所在的基因负责调节有害因子的吸收,代谢,排泄等。基因的微小变化会影响人体对疾病的易感性。例:吸烟—肺癌,过量饮酒—肝癌。当人吸烟时,致癌因子的前体进入肺部细胞内。激活蛋白会将致癌因子的前体转变成致癌因子。致癌因子会被解毒蛋白变成水溶性物质并经尿排出体外。位于激活蛋白基因内的SNP会影响激活蛋白的活性。有些人的激活蛋白活性超强,可以在肺部产生大量的致癌因子,损害细胞的DNA,导致癌