第十三章基因组学第十三章基因工程和基因组学第一节基因组学概述基因组学(genomics):遗传学研究进入分子水平后发展起来的一个分支,主要研究生物体内基因组的分子特征。*研究对象:以整个基因组为研究单位,而不以单个基因为单位作为研究对象。*研究目标:认识基因组的结构、功能和进化;阐明整个基因组所包含的遗传信息和相互关系;充分利用有效资源,预防和治疗人类疾病。基因组(Genome):又称染色体组,是指一个物种单倍体的染色体数目,是生物体全部遗传物质的总和。基因组学(Genomics):对生物体所有基因进行基因组作图(包括遗传图谱、物理图谱、转录图谱)、核苷酸序列分析、基因定位和基因功能分析的一门科学。最终目标:获得生物体全部基因组序列,注解基因组所含的全部基因,鉴定所有基因的功能及基因间相互作用关系,并阐明基因组的复制及进化规律。一、基因组学的概念生物基因组大小(bp)T4噬菌体T4phage2.0×105大肠杆菌Escherichiacoli4.2×106酵母Sccharomycescereviside1.5×107拟南芥Arabidopsisthaliana1.0×108线虫Caenorhbditiselegans1.0×108果蝇Drosophilamelanogaster1.65×108水稻Oryzasativa4.3×108小鼠Musmusculus3.0×109人类Homosapiens3.3×109玉米Zeamays5.4×109小麦Triticumaestivum1.6×1010不同生物基因组大小1.人类基因组计划与曼哈顿原子计划、阿波罗登月计划并称的人类科学史上的重大工程。于1990年首先在美国启动,后有德、日、英、法、中等国的科学家先后正式加入。(一)人类基因组▲1990年,美国国会批准美国的“人类基因组计划”在10月1日正式启动。其总体规划是准备在15年内(1990-2005)至少投入30亿美元,分析人类的基因组30亿个碱基对。▲2003年,6国科学家宣布人类基因组序列图绘制成功,HGP的所有目标全部实现。覆盖人类基因组所含基因区域的99%,精确率达到99.99%,比原计划提前两年多,耗资27亿美元。人类基因组计划人类基因组核基因组DNA的总长约3×109bp,含有24条线性DNA分子,最长的有250Mb,最短的55Mb。30亿个碱基对。线粒体基因组是长度为16569bp的环状DNA分子,每个细胞平均含有800个线粒体,每个线粒体含10个基因组拷贝。以每10cm书写60个字母计算,30亿个碱基对连接的长度可达5000km,相当于北京到香港来回的距离。为人类的基因组研究提供重要的依据。☆1996年,酵母菌基因组测序。☆1998年12月,线虫完整基因组序列的☆2000年3月,果蝇的基因组测序☆2001年12月14日,拟南芥基因组的完整图谱。(二)其他生物基因组我国超级杂交稻(籼稻)基因组计划2001年7月启动2002年4月5日《Science》。☆材料:籼稻“9311”。☆完成单位:华大基因研究中心、中科院遗传与发育生物学研究所等12个单位。☆水平:水稻基因组的总基因数约为46022~55615个,工作框架图序列已覆盖水稻整个基因组92%以上的基因。☆方法:“鸟枪射击法”,利用国产曙光2000、曙光3000超级计算机(1000亿次/秒)对随机DNA碎片进行排序和组装。水稻基因组计划国际水稻(粳稻)基因组计划始于1998年,日本、美国、中国、法国等国家和地区参加。中国负责第4号染色体:36Mb(占9~10%)。国际水稻基因组测序计划2002年12月21日《Nature》,中国第四号染色体。☆材料:粳稻“日本晴”。☆完成单位:中科院国家基因研究中心等4家单位。☆水平:第四号染色体中的总碱基数目为0.35亿碱基对,覆盖全长序列98%的区域,只剩下7个小空洞,碱基序列的精确度达到99.99%。完整测定的着丝粒序列在高等生物中属于首次。国际水稻基因组测序计划水稻是第一个完成基因组全序列测定的农作物,核基因组含有12条染色体,总长约389Mb,1号染色体最大为43.2Mb,10号染色体最小22.6Mb。全基因组预测约含有4万个基因。水稻双链闭环线粒体基因组大小为491kb,叶绿体基因组134.5kbC值:是指一个单倍体基因组中DNA的总量。值悖理(Cvalueparadox):物种的C值和它的进化复杂性之间无严格对应关系的现象称为C值悖理,是复杂生物基因组的一个普遍特征(三)C值悖理和N值悖理(三)C值悖理和N值悖理N值:是指生物体所含有的基因数目。N值悖理(Nvalueparadox):复杂性不同的生物种属所具有的基因数目与其生物结构的复杂性不成比例的现象。如结构比较简单的线虫含有的基因数为1.9万个,比线虫更复杂的果蝇基因数为1.8万个,水稻的基因数约4万个,最复杂的人类其基因总数约3万个。四、基因组学研究内容(一)结构基因组学(structuralgenomics)通过基因作图、核苷酸序列分析确定基因组成、进行基因定位的科学。遗传信息在染色体上,但染色体不能直接用来测序,必须将基因组这一巨大的研究对象进行分解,使之成为较易操作的小的结构区域,这个过程就是基因作图。完成基因组图谱构建之后,就可以利用图谱进行基因组序列测定和组装。四、基因组学研究内容(二)功能基因组学(functionalgenomics)利用结构基因组所提供的信息和产物,研究基因组功能表达的一门分支学科。主要研究内容:基因的识别、鉴定和克隆。包括新策略、新技术、新方法的创立和各种基因组数据的建立;基因结构与功能及其相互关系的研究。包括基因变异体的系统鉴定和目录的绘制;基因表达谱的编制、基因结构与功能关系的鉴定、基因相互作用网络图的编制;基因表达调控的研究四、基因组学研究内容(三)蛋白质组学(proteomics)研究细胞内蛋白质组成及其活动规律。旨在阐明生物体全部蛋白质的表达模式及功能模式,内容包括鉴定蛋白质表达、存在方式、结构、功能和相互作用方式等。基因是遗传信息的携带者,而全部生物功能的执行者却是蛋白质,仅仅从基因的角度来研究是远远不够的。第2节基因组图谱构建基因组计划的目的是获得全基因组序列,并对其进行解读。DNA测序每次反应仅能读取1000bp的长度,因此,基因组测序的基础是基因组图谱的构建。鸟枪射击法(shotgun)基因组序列测定第2节基因组图谱构建基因组测序策略☆重叠群法相互存在重叠序列的一组克隆。根据重叠群的相对位置讲各个克隆首尾相连,长度可达百万级bp。对单个重叠群,采用鸟枪法测序,然后进行组装。这是由上而下(uptodown)的测序策略。☆直接鸟枪法首先进行全基因组鸟枪法测序,再用分子标记为起点强鸟枪DNA片段组装。这是由下而上(bottomtoup)的测序策略。这种方法依赖于高密度分子标记基因组图谱。基因组图谱分为遗传图谱和物理图谱。(一)遗传标记遗传标记就是遗传物质的特殊的易于识别的多态性表现形式,它包括形态标记、细胞学标记、生化标记和分子标记。形态标记:主要指可以观察到的一些性状,如种皮颜色、眼色、株高等。细胞学标记:细胞学标记是指能明确显示遗传多态性的细胞学特征。生化标记:主要是同工酶及种子贮藏蛋白,有时又称蛋白质标记。分子标记:主要指DNA水平上的标记。DNA标记☆以DNA为基础的分子标记主要包括◆基于杂交的分子标记,如RFLP。◆基于PCR的分子标记,如RAPD、AFLP、SSR(又称microsatellite)、AFLP等。◆基于DNA序列和芯片的分子标记,如SNP(singlenucleotidepolymorphism)。RAPD由Williams等(1990)和Welsh等(1990)分别发展起来的分子标记技术。这一技术是以基因组DNA为模板,采用随机设计的单个寡核甘酸序列(一般为10bp)为引物,通过PCR扩增,产生不连续的DNA产物,用于检测DNA序列的多态性。RAPD(RandomamplifiedpolymorphicDNA)☆重复序列◆串联重复序列(tandemrepeatedsequence),其重复单位首尾相连,成串排列(Flavell1986)。◆散布重复序列(interspersedrepeatedsequence),其重复单位与其它无关序列或单拷贝序列相间排列。SSR(simplesequencerepeats)或微卫星(microsatellite)☆微卫星DNA序列或SSR又称短串联重复序列(shortsequencerepeat,STR),它是由几个核甘酸(一般1~6个)为重复单位簇集而成的串联重复序列,可随机的分布在整个基因组的不同位置上。微卫星长度具有高度变异性,并且这种多态性常常表现复等位性,两端的序列多是相对保守的单拷贝序列,因而可以根据两端的序列设计一对特异引物,扩增每个位点的微卫星序列,从而揭示其长度的多态性(simplesequencelengthpolymorphism,SSLP)。SSRISSR是一种新型的分子标记。与SSR相反,直接用同位素标记SSR序列,扩增2个SSR间的单拷贝序列。为了增加扩增的特异性,在引物的5′和3′端分别加入1~2个选择性碱基,引物长度16~18bp。ISSR(inter-ssr)☆AFLP结合了RFLP和RAPD技术的优点。AFLP的基本原理是基于PCR的扩增基因组DNA限制性片段多态性。基因组DNA先用限制性内切酶切割,然后将双链接头(adapter)连接到DNA片段的末端,通过选择在3′端分别添加1~3个选择性碱基的不同引物,选择性地识别具有特异配对顺序的酶切片段并与之结合,从而实现特异扩增。AFLP(Ampliconfragmentlengthpolymorphism)AFLP反应过程示意图☆遗传信息由DNA→mRNA→蛋白质。☆一个典型的真核生物mRNA分子:5′-UTR(5′端转录非翻译区),ORF(开放阅读框架),3′-UTR(3′端转录非翻译区),polyA☆任何一个基因,cDNA的5′端或3′端的有限序列即可特异性地代表生物体某种组织某个时期的一个表达基因。EST的数目可以显示所代表的基因的拷贝数EST(expressedsequencetags)☆从组织细胞中提取总mRNA,构建成标准cDNA文库,然后从中挑取大量克隆,利用载体通用引物测出插入载体的cDNA片段5′端或3′端300-500碱基的序列。☆将测序所得的EST与dbEST等数据库中的数据进行比较分析,根据核酸或蛋白质序列的同源性比较,可以鉴定出哪些EST代表已知基因,哪些EST代表未知基因。EST☆序列标签位点(sequencetaggedsite)是一小段DNA序列。每个基因组仅1个拷贝,很容易分辨。STS要满足2个条件:◆是一段已知的序列,可据此涉及PCR引物来检测不同DNA片断中是否存在这一序列。◆STS在染色体上必须是独一无二的。如果在基因组中有多个位点出现,作图数据将含混不清。☆常见的寻找STS的方法:EST、SSLP、随机基因组序列STS☆单核苷酸多态性是指基因组DNA序列中由于单个核苷酸(A,T,C,G)的替换而引起的多态性。通常SNPs不包括碱基的插入、缺失以及重复序列拷贝数的变化。这种标记只有两种等位基因。人类基因组的编码基因中有20万个SNPs,在非编码区的数目可能还要多10倍以上。☆单倍型:当前常用术语“happlotype”(单倍型)代替术语“allele”(等位基因)。在给定的一条染色体的紧密连锁的位点上多个等位基因的集合,通常3~4个相邻等位基因彼此靠近而构成的单倍型可作为一个整体而遗传(称为单倍型块(haploblock)SNP(singlenucleotidepolymorphism)特性RFLPRAPDSSRISSRAFLP分布普遍存在普遍存在普遍存在普遍存在普遍存在遗传共显性多数显性共显性多数显性多数显性多态性中高高高非常高等位检测是不是是不是不是检测位点数1