第五讲基因组学与人类基因组计划(HGP)曼哈顿原子弹计划阿波罗登月计划人类基因组计划60年代初,美国总统Kennedy提出两个科学计划:登月计划攻克肿瘤计划人类遗传信息的复杂性人类基因组计划(HGP,HumanGenomeProject)目标:整体上破解人类遗传信息的奥秘为什么提出HGP?生命活动三要素:物质、能量、信息DNA:遗传物质(遗传信息的载体)双螺旋结构A,C,G,T四种基本字符的复杂文本基因(Gene):具有遗传效应的DNA分子片段DNA、基因、基因组基因组(Genome):包含细胞或生物体全套的遗传信息的全部遗传物质。原核生物(细菌、病毒等)真核生物(真菌、植物、动物等)人类基因组:3.2×109bp人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息HGP的历史回顾1984.12犹他州阿尔塔组织会议,初步研讨测定人类整个基因组DNA序列的意义1985Dulbecco在《Science》撰文“肿瘤研究的转折点:人类基因组的测序”美国能源部(DOE)提出“人类基因组计划”草案1987美国能源部和国家卫生研究院(NIH)联合为“人类基因组计划”下拨启动经费约550万美元1989美国成立“国家人类基因组研究中心”,Watson担任第一任主任1990.10经美国国会批准,人类基因组计划正式启动JamesWatsonWalterGilbert1995第一个自由生物体流感嗜血菌(H.inf)的全基因组测序完成1996完成人类基因组计划的遗传作图启动模式生物基因组计划H.inf全基因组Saccharomycescerevisiae酿酒酵母Caenorhabditiselegans秀丽线虫1997大肠杆菌(E.coli)全基因组测序完成1998完成人类基因组计划的物理作图开始人类基因组的大规模测序Celera公司加入,与公共领域竞争启动水稻基因组计划1999.7第5届国际公共领域人类基因组测序会议,加快测序速度大肠杆菌及其全基因组水稻基因组计划2001年2月15日《Nature》封面2001年2月16日《Science》封面AttheWhiteHouseonJune26,FrancisCollins(r),DirectoroftheNationalHumanGenomeResearchInstitute,PresidentClinton,andJ.CraigVenter,PresidentofCelaraGenomics,laudedthethousandsofscientistswhocontributedtothegenomesequence.1999.7第5届国际公共领域人类基因组测序会议,加快测序速度2000Celera公司宣布完成果蝇基因组测序国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作2000.6.26公共领域和Celera公司同时宣布完成人类基因组工作草图2001.2.15《Nature》刊文发表国际公共领域结果2001.2.16《Science》刊文发表Celera公司及其合作者结果Drosophilamelanogaster果蝇Arabidopsisthaliana拟南芥HGP的最初目标通过国际合作,用15年时间(1990~2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其它生物进行类似研究。4张图:HGP的终极目标阐明人类基因组全部DNA序列;识别基因;建立储存这些信息的数据库;开发数据分析工具;研究HGP实施所带来的伦理、法律和社会问题。遗传图物理图序列图转录图人类基因组人类基因组的组成线粒体基因组(16.6kb)细胞核基因组(3200Mb)基因外序列基因和基因有关序列约10%约90%专一或中等重复序列Non-codingDNA假基因内含子基因片段10%90%专一的或低拷贝数序列中度至高度重复序列20~30%70~80%分散重复序列串联重复序列/成簇重复序列约60%约40%蛋白编码基因rRNA基因tRNA基因CodingDNA人类基因组构成——24条染色体和线粒体基因识别基因识别(geneidentification)是HGP的重要内容之一,其目的是识别全部人类的基因。基因识别包括:识别基因组编码区识别基因结构基因识别目前常采用的有二种方法:从基因组序列中识别那些转录表达的DNA片段从cDNA文库中挑取并克隆。人类基因组计划的实施意义人类基因组计划为我们研究生物信息的组织、结构、遗传、表达带来了极大的方便,使人类对自身有一个根本的了解。人类是最高级、最复杂、最重要的生物,如果搞清楚人类基因组,那么再研究其它的生物就容易得多。研究多种模式生物基因组将有助于研究地球生物的进化史。基因变异与疾病基因组多态性我国对人类基因组计划的贡献6/1-8/31/99NoCenterRegionSize(Mb)ActualKGenbankKrProjectedKr4/1-11/30/99ProjAccum.Mr.4/99-3/001SangerCentre1,6,9,10,13,20,22,X85013009414200122WIBR(ClonesfromWashU)837296290083WashU2,3,4,7,11,15,18,Y90086555923007.94JGI5,16,1925068746121006.45Baylor1,2,3,X2304622616603.16Riken21,18,11q1601361955202.17IMB8,21,X50180321801.58GenoscopeMostof14851001183001.49U.Wash(Olson)10Beijing3p3012.512.51000.511GTC(Smith)105051500.4512MPIMG17,21,X6.94012400.313GBF21,regof96500.314Stanford(Davis)8231370.2915Keio2,6,8,22,213011751100.2316U.Wash(HoodLAB)14,15267127400.17Total2671Mb4663Kr2950Kr13687Kr32.64Mr又一次成功!——水稻基因研究面对堆积如山的生物学数据……HGP带来的科学挑战•随着实验数据和可利用信息急剧增加,信息的管理和分析成为HGP的一项重要的工作发现生物学规律,解读生物遗传密码认识生命的本质研究基因组数据之间的关系分析现有的基因组数据利用数学模型和人工智能技术各学科参与、协作:生命科学、数学、物理学、化学、计算机科学、材料科学以及伦理、法律等社会科学……首要科学问题如何找到记载在基因组DNA一维结构上控制生命时间、空间的调控信息的编码方式和调节规律。应用数学、复杂系统理论、信息论、非线性科学……催生生物信息学、计算生物学DNA芯片技术交叉性技术领域:物理学、微电子信息技术、生化技术、信息技术……结构生物学前沿领域之一:生物物理学、生物化学、晶体学、波谱学、光谱学以及X射线晶体衍射技术、核磁共振技术……生命信息的组织、传递、表达物理化学分子生物学遗传学信息技术功能基因组学HGP的完成,使我们进入“后基因组学”(post-genomics)时代基因组学研究重心已开始从揭示生命的所有遗传信息转移到在分子整体水平对功能的研究上,即功能基因组学(functionalgenomics)功能基因组的任务是进行基因组功能注释(Genomeannotation)认识基因与疾病的关系掌握基因的产物及其在生命活动中的作用功能基因组学的研究内容进一步识别基因,识别基因转录调控信息,分析遗传语言。注释所有基因产物的功能,这是目前基因组功能注释的主要层次。研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图。比较基因组学研究,在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能。人类基因组与其它生物基因组比较例:人与鼠染色体的差别Structure&FunctionPathways&PhysiologyPopulations&EvolutionEcosystemsGenomesGeneProducts后基因组时代蛋白质结构与功能关系的研究蛋白质结构蛋白质序列蛋白质功能关系基因组计划的不断推进,其结果不仅导致DNA序列数据的迅速增长,也导致蛋白质序列数据的迅速增长。生物信息学在蛋白组学研究中的主要任务是产生和分析蛋白质的结构,并将结构知识应用于生物学、医学、药学等生命科学领域。蛋白质空间结构预测。蛋白质结构是合理药物分子设计的基础。蛋白质结构是蛋白质工程的基础。生物信息学研究蛋白质结构及功能关系研究蛋白质的进化问题,研究不同蛋白质之间的进化关系研究蛋白质的性质……新的生物学研究模式的出发点应该是理论的。科学家将从理论推测出发,然后再返回到实验中去,追踪或验证这些理论假设。……生物学家不仅必须成为计算机学者,而且也要改变他们研究生命现象的途径。——W.Gilbert,TowardsAParadigmShiftinBiology,Nature,349(1991)99传统生物学:实验科学现代生物学的发展:1、高通量数据获取日益实现自动化、半工业化从数据库中实现数据挖掘、知识发现2、海量数据难以完全依赖实验手段对新数据进行分析,必须借助计算机实现分析和筛选3、更复杂层次的生物学问题复杂的基因调控网络、代谢网络;细胞间信号转导过程;生物个体全部基因表达变化……分析、筛选大量新数据生物中的复杂网络、复杂过程、复杂现象理论生物学计算生物学实验永远起着决定作用计算/理论生物学的发展离不开实验生物学的贡献实验生物学日益依赖计算/理论生物学的指导21世纪生命科学理论计算实验数学与物理科学