微生物基因组学胡松年husn@big.ac.cn北京基因组研究所•微生物基因组研究概况•微生物基因组的特点•微生物基因组研究的意义微生物基因组学一微生物基因组研究概况微生物基因组重要纪事年限事件1994年美国DOE启动MGP1995年《Science》发表了第一株细菌-流感嗜血杆菌全基因组1995年发表了集胞藻菌株PCC6803的测序和注释1996年《Science》发表了第一个完成的古细菌-詹氏甲烷球菌全基因组序列1996年酵母基因组序列发表1997年大肠杆菌K-12基因组序列发表已发表微生物基因组数量图。数据由NCBI微生物基因组数据库提供,截至2009年5月9号0204060801001201401601802001995年1996年1997年1998年1999年2000年2001年2002年2003年2004年2005年2006年2007年2008年2009年已发表的微生物基因组数系列1研究现况及内容细菌研究内容代表菌株病原菌毒力因子、致病岛、耐药基因、耐药机制以及与寄主的关系等肺炎链球菌、致病性大肠杆菌、沙门氏菌等极端环境生长的细菌极端环境下的生存机制,如嗜热菌的热稳定性詹氏甲烷球菌、热自养甲烷杆菌、甲烷嗜热菌、腾冲嗜热菌等工业和环境有影响的细菌CO2固定、固氮、硫氧化和氢代谢等单细胞蓝细菌、丝状蓝细菌、原绿藻等二微生物基因组的特点•原核生物基因组的大小•原核生物基因组的编码序列(CDS/ORF)•原核生物染色体结构•GC含量•重复序列•DNA链组成的非对称性•最小基因组微生物基因组的特点类别特征染色体结构多为一条环状闭合双链DNA基因组大小从0.16-13Mb编码序列占基因组总长度的90%,平均为1Kb左右GC含量16.6%-74.9%DNA链组成的非对称分布GCskew、ATskew、基因方向性偏好、密码子使用偏好1.原核生物基因组的大小--基因组较小的原核生物•ProkaryocyteGenome(kb)ORF•MycoplasmagenitaliumG-37B0580468•Buchnerasp640583•BuchneraaphidicolaSG641545•Glossinabrevipalpis679621•Ureaplasmaurealyticumserovar3B0751613•MycoplasmapneumoniaeM129B0816677•Mycoplasmapulmonis963782•BorreliaburgdorferiB31B1910853•TreponemapallidumNicholsB11,1381,041•ChlamydiatrachomatisserovarD1,042894•ChlamydiatrachomatisMoPnB11,069924•ChlamydiapneumoniaeJ1381,2281,070•ChlamydiapneumoniaeAR39B11,2291,052•ChlamydiapneumoniaeCWL029B11,2301,052•RickettsiaconoriiMalish71,2681,374•RickettsiaprowazekiiMadridEB11,1118341.原核生物基因组的大小--基因组较大的原核生物•ProkaryocyteGenome(kb)ORF•Xanthomonascampestris5,0764,182•Xanthomonasaxonopodis5,2734,386•MethanosarcinaacetivoransC2A5,7514,540•RalstoniasolanacearumGMI10005,8105,120•EscherichiacoliO157:H7.Sakai5,9965,448•PseudomonasaeruginosaPAO1B66,2645,570•Nostocsp.PCC71206,4135,366•Sinorhizobiummeliloti6,6906,205•MesorhizobiumlotiMAFF3030997,0366,752•StreptomycescoelicolorA3(2)8,6677,8251.原核生物基因组的大小--真核生物基因组的大小•Chr.Genome(kb)ORF•Guillardiatheta3551464•Encephalitozooncuniculi12,5001,997•SaccharomycescerevisiaeS288C1612,0696,294•Schizosaccharomycespombe314,0004,824•Caenorhabditiselegans697,00019,099•Arabidopsisthaliana5115,42825,498•Drosophilamelanogaster6137,00014,100•OryzasativaL.ssp.Indica12420,00050,000•Oryzasativassp.Japonica12420,00050,000•Homosapiens243,000,00030,000•DictyosteliumdiscoideumChr.268,0002,799•LeishmaniamajorFriedlinChr.13625779•Plasmodiumfalciparum3D7Chr.3141,060220•Plasmodiumfalciparum3D7Chr.2149472052.原核生物基因组的编码序列(Codingsequence)•占原核生物基因组总序列的90%•基因的平均大小为1kbORF2.原核生物基因组的编码序列--不同生物编码序列的比较OrganismGenome(kb)ORFsORFsizeCodingSequence(%)Buchnerasp64058398890Aquifexaeolicus1,5511,51295693Saccharomycescerevisiae12,0696,2941,09257Schizosaccharomycespombe14,0004,8202,03370Caenorhabditiselegans97,00019,0991,31127Arabidopsisthaliana115,42825,49846029Homosapiens3,000,0003,1001,3402基因组编码序列的注释•确定编码序列序列同源性比较,如BLAST概率型方法,基于隐马尔可夫模型的GENSCAN•基因的功能注释已知功能的蛋白质基因的序列已知功能蛋白质的motif/domain有同源序列的未知基因无同源序列的疑是基因2.原核生物基因组的编码序列--ORF的注释OrganismDateGenome(kb)ORFsknownhypo.uniqueHypo.MycoplasmaGenitalium95-10580470318(68%)56(12%)96(20%)Brucellasuis02-102,1602,1751,333(61%)623(29%)219(10%)Clostridiumperfringens02-013,0312,6601,492(56%)502(19%)666(25%)MethanosarcinaAcetivorans02-075,7514,5242,226(49%)908(20%)1,390(31%)2.原核生物基因组的编码序列--DistributionofE.coliproteinsamong22functionalgroupsFunctionalclassNumberPercentage•Regulatoryfunction451.05•Putativeregulatoryproteins1333.10•Cellstructure1824.24•Putativemembraneproteins130.30•Putativestructuralproteins420.98•Phage,transposons,plasmids872.03•Transportandbindingproteins2816.55•Putativetransportproteins1463.40•Energymetabolism2435.67•DNAreplication,recombination,modification,andrepair1152.68•Transcription,RNAsynthesis,metabolism,andmodification551.28•Translation,posttranslationalproteinmodification1824.242.原核生物基因组的编码序列--DistributionofE.coliproteinsamong22functionalgroups(continued)FunctionalclassNumberPercentage•Cellprocesses(includingadaptation,protection)1884.38•Biosynthesisofcofactors,prostheticgroups,andcarriers1032.40•Putativechaperones90.21•Nucleotidebiosynthesisandmetabolism581.35•Aminoacidbiosynthesisandmetabolism1313.06•Fattyacidandphospholipidmetabolism481.12•Carboncompoundcatabolism1303.03•Centralintermediarymetabolism1884.38•Putativeenzymes2515.85•Otherknowngenes(geneproductorphenotypeknown)260.61•Hypothetical,unclassified,unknown163238.06•Total4288100.002.原核生物基因组的编码序列--原核生物(高温菌)基因组的内含子SulfolobussolfataricusP2:18个tRNA基因含有单个内含子一个胱氨酸tRNA基因含有2个内含子A.pernixtRNA基因中发现14个内含子Staphylothermusmarinus和运动脱硫球菌23SrRNA基因中也发现内含子3.原核生物染色体结构大多数原核生物:一条环状闭合双链DNABrucellasuis1330:两条环状闭合双链DNA2,107,792bp(ChrI)1,207,381bp(ChrII)Vibriocholerae:两条环状闭合双链DNA2,961,146bp(ChrI)1,072,314bp(ChrII)BorreliaburgdorferiB31:910,725bp(linearChromosome)21linearandcircularplasmidsTreponemapallidum:一条环状闭合双链DNA1,138,006bp4.GC含量•原核生物基因组GC含量为:25.5-67.9%•嗜温菌基因组GC含量与rRNA、tRNA的GC含量成正比•嗜热菌rRNA、tRNA的GC含量与基因组GC含量不成正比,但与OGT成正比•tRNAGC含量总是大于rRNA的GC含量4.GC含量-嗜温菌基因组G+C含量(%)•OrganismGenomerRNAtRNAUure25.545.452.9Buch26.348.153.3Mpul26.646.254.8Bbur28.646.754.5Rpxx29.048.255.2Cjej30.548.156.4Cace30.950.555.1Mgen31.745.652.5SaurN32.850.557.64.GC含量--嗜温菌基因组G+Ccontent(%)(续)OrganismGenomerRNAtRNAX