第七章基因组分析一.一.什么是基因组什么是基因组(genome)?(genome)?二.二.基因组分析及数据库建立路线基因组分析及数据库建立路线三.三.原核生物基因组的特征及其分析原核生物基因组的特征及其分析四.四.真核生物基因组的特征及其分析真核生物基因组的特征及其分析五.五.功能基因组学功能基因组学六.六.比较基因组学比较基因组学第一节第一节什么是基因组什么是基因组(genome)?(genome)?¾基因组(基因组(genomegenome))是指包含在一种生物的DNA(部分病毒是RNA)中的全部遗传信息。¾绝大部分基因组,包括所有的细胞生命形式的基因组,是由DNA组成;一些病毒具有RNA基因组;¾真核生物真核生物:指一个物种的单倍体染色体所含有的一整套基因和非编码DNA;¾原核生物原核生物:一般只有一个环状DNA分子,其上所有的基因和非编码DNA为一个基因组;¾真核生物细胞中的细胞器(如叶绿体、线粒体等)中的DNA也为环状,构成叶绿体基因组、线粒体基因组。¾基因组的大小用碱基对(basepair,bp)的数量来表示:103为kb,106为Mb。基因组大小与物种基因组大小与物种的关系的关系¾基因组的大小大致上与物种进化的复杂性相关;¾大多数真核生物的基因组都比原核生物的基因组大,比原核生物的基因组复杂;¾随着动物或植物进化程度的上升,每个单倍体的DNA含量一般趋于增加,但是存在例外(C值佯谬);¾思考:为什么会出现“C值佯谬”?基因组基因组基因组大小基因组大小(kb)(kb)型式型式病毒病毒MS44单链单链RNARNASV40SV4055环状双链环状双链DNADNAΦΦX174X17455环状单链环状单链DNADNASARSSARS--CoVCoV3030单链单链RNARNA单纯疱疹病毒单纯疱疹病毒152152线性双链线性双链DNADNAT2T2、、T4T4、、T6T6165165天花天花267267细菌细菌支原体支原体(M.(M.hominishominis))760760大肠杆菌大肠杆菌(E.coli)(E.coli)4,6004,600环状双链环状双链DNADNA真核生物真核生物单倍体染色体数目单倍体染色体数目酵母酵母(S.(S.cerevisiaecerevisiae))13,00013,0001616线虫线虫(C.(C.eleganselegans))100,000100,00066拟南芥拟南芥(A.thaliana)(A.thaliana)100,000100,00055果蝇果蝇(D.(D.melanognatermelanognater))165,000165,00044人人(H.sapiens)(H.sapiens)3,000,0003,000,0002323玉米玉米(Z.(Z.maysmays))4,500,0004,500,0001010蝾螈蝾螈(A.(A.sppspp.).)76,000,00076,000,0001414不不同同生生物物基基因因组组大大小小的的比比较较基因数目与物种的关系基因数目与物种的关系¾基因数目的多少大致上与物种进化的复杂性相关;¾在高等动植物中,巨大的基因组并不意味着有巨量的基因数目。¾人类究竟有多少个基因?¾理论上:根据基因组的大小,可具有106个基因¾“生物体的复杂性并不是简单地与基因数量相关联的。”(G.Rubin)¾5万À,6万À,7万À,8万À,14万!……?¾4万Â,3万Â,……?¾打赌!基因数目猜奖基因数目猜奖((GeneSweepstake)GeneSweepstake)生物学家们为人类基因的数目打赌生物学家们为人类基因的数目打赌生物学家们对基因组里到底有多少基因的猜测一直有极大的不同。2000年,在纽约冷泉港召开的一个会议上,他们设立了一美元一个(次)的基因数目赌注。胜者将于2003年揭晓,他除了可获得全部赌金外,还可得到一本由J.Watson亲笔签名的皮革封面《双螺旋》一书。如果基因组是生命的天书,那么基因就是写成这本书的词汇。生物学家们一直假设,微生物的故事较短,而人类的故事则是一部巨作,人类拥有8万到10万个基因。但是UCBerkly的果蝇基因组计划的主任G.Rubin指出,果蝇的基因比我们所认为的最简单的线虫少了5,000个。他警告说:“生物体的复杂性并不是简单地与基因数量相关联的。。”德国分子生物技术研究所的A.Rosenthal说,我们得出的结论是整个基因组有不多于4万个基因。法国的分子遗传学家H.R.Crollius通过比较现有的人类基因序列与淡水河豚基因序列,提出了更低的人类基因数估计:在27,700与34,300之间。华盛顿大学的基因学家P.Green提出人类基因数大约为35,000。美国国家人类基因组研究所主任F.Collins表示他同意Green的估计,将他1美元的赌金下在48,011个基因上。但Rockville的基因组研究所(TIGR)的J.Quackenbush根据TIGR的人类基因指数的估计,将他的1美元赌在118,259个基因上。加州IncyteGenomics公司的S.LaBrie赌的基因数是153,478个,该公司在1999年9月曾宣布人类基因至少有14万个。但是支持人类基因数目是一个较小数的科学家们也不灰心,他们争论说生物体的复杂性来自于基因如何被管理或表达的,而不是基因数目本身。Rosenthal解释说:“我们不需要那么多的基因成为高等动物,”他赌的是38,000个。你赌多少呢?基因轮盘赌基因轮盘赌(GeneSweepstake)(GeneSweepstake):¾Itcosts$1tomakeabetin2000,$5in2001and$20in2002.¾Betsareforonenumber.Closestnumberwins,andincaseofties,thepotissplit.¾Ageneisasetofconnectedtranscripts.Atranscriptisasetofexonsviatranscriptionfollowed(optionally)bypre-mRNAsplicing.Twotranscriptsareconnectediftheyshareatleastpartofoneexoninthegenomiccoordinates.Atleastonetranscriptmustbeexpressedoutsideofthenucleusandonetranscriptmustencodeaprotein.¾AssessmentofthemethodusedtodeterminethegenewilloccurbyvotingatColdSpringHarborGenomeMeeting2002.Researcherswillbeinvitedtosubmittheirmethodstothecommunityatthistime.¾Assessmentofthegenenumberwilloccuronthe2003CSHLGenomemeeting.¾Peoplebettingshouldwritetheirname,emailandnumberintheGeneSweepstakebook,heldatColdSpringHarbor.¾Onebetperperson,peryear.Yeardefinedasacalendaryear.¾Nopencilbets(ie,youcan'tchangeyournumber).Bets165Mean61,710Lowest27,462Highest153,478LastLastGenesweepGenesweepVotesVotedistributionVotesVotedistributionWhoswepttheGeneSweepstake?WhoswepttheGeneSweepstake?Thewinnerwasannouncedatlastweek'sHomoSapiensgeneticsmeetingatColdSpringHarborLaboratory,NewYork.Thegenechamp,LeeRowen,whodirectsasequencingprojectattheInstituteforSystemsBiologyinSeattle,Washington-beat460otherhopefulstotakehomepartofthecashpot.Rowen'swagerat25,94725,947isclosesttothecurrentreckoninginageneticdatabasecalledEnsembl,of24,84724,847.Likeallgoodgamblers,hernumberwasastab;onerunner-uppicked27,46227,462becausethe27April,1962washisbirthday.Recognizinggenes-regionsofDNAthatcodeforproteins-hasprovedtougherthanexpected.Onereasonisthatpredictorprograms,whichtrawlthroughDNAforlandmarksequencescharacteristicofagene,arenotoriouslyunreliable.HumangenenumberwagerwonGeneticistsdrawsweepstakedespiteuncertaintyoverfinaltally3June2003人类基因数目之谜人类基因数目之谜¾目前已经发现和定位了26,000多个功能基因,其中尚有42%的基因尚不知道功能。¾原先曾经预测人类约有14万个基因,Celera公司现将人类基因总数定在26,383到39,114个之间,只是线虫或果蝇基因数量的两倍,人有而鼠没有的基因只有300个。根据Ensembl数据库得到的计算结果,目前的最新估计数目是24,847。¾基因组的大小和基因的数量在生命进化上可能不具有特别重大的意义;¾人类的基因较其他生物体更“有效”。¾人类的复杂性更主要的体现在蛋白质的复杂网络中,即蛋白质就是构成生命的基本构件。Celera公司首席科学家Venter认为:“大部分的生物学行为发生在蛋白质水平,而不是基因水平。”种类种类数目数目备注备注古古细菌细菌((ArchaeaArchaea))35/35/5353真真细菌细菌(Bacteria)(Bacteria)421/421/619619其中有的测定了其中有的测定了22个以上的菌株个以上的菌株真核生物真核生物((EukaryoEukaryo))47/47/7676包括酵母、线虫、果蝇、蚊子、拟南芥、包括酵母、线虫、果蝇、蚊子、拟南芥、人等人等病毒病毒(Virus)(Virus)1,275/1,275/15271527包括不同亚类或不同株系包括不同亚类或不同株系类类病毒病毒((ViroidViroid))39/39/4747包括不同亚类或不同株系包括不同亚类或不同株系噬菌体噬菌体(Phage)(Phage)347/347/426426包括不同亚类或不同株系包括不同亚类或不同株系细胞器细胞器(Organelle)(Organelle)1,097/1,097/14121412包括线粒体和叶绿体包括线粒体和叶绿体质粒质粒(Plasmid)(Plasmid)480/480/597597(,2007年2月/2008年3月)目前已完成测序4,000多个基因组许多其他物种的基因组测序已经完成