微生物基因组测序分析研究对象简单基因组(质粒、支原体、衣原体等)、细菌、真菌、环境Meta研究领域:研究层面:基因组(DNA)、转录组(RNA)、表观(组蛋白修饰和DNA甲基化)相关仪器:Hiseq2000/2500/4000,Miseq(Illumina);CG;Opticalmapping(Opgen);TripleTOF5600、ABSciexQTRAP5500,etc...BGITrans-omics基因组学基因组学研究真菌细菌基因组调查精细图重测序ITS测序基因组调查精细图完成图重测序16srDNA测序第一部分基因组从头测序细菌基因组注释分析编码基因预测方法基因组注释方法基因组重测序宏基因组学分析Conten基因组从头测序产品概述从头测序即denovo测序,不需要任何参考序列资料即可对某个物种进行测序,用生物信息学分析方法进行拼接、组装,从而获得该物种的基因组序列图谱。全基因组序列图谱完成后,可以构建该物种的基因组数据库,为该物种的后基因组学研究搭建一个高效的平台,为后续的基因挖掘、功能验证提供DNA序列信息。Schematicoverviewoftheassemblyalgorithm基因组从头测序基因组从头测序1、基因组调查目的:1、检查是否样品污染;2、调查基因组情况(GC含量、重复序列、基因组大小、杂合度等);3、为后续改善组装提供依据。基因组从头测序1、基因组调查GC含量与Depth关联分析K-mer分析基因组从头测序真菌denovo组装组装结果非编码RNA预测rRNA&tRNA重复序列分析重复序列基因预测组装结果评价ORFs参考基因共线性分析基因家族分析基因功能预测KEGG/COG/SwissProt/TrEMBL/NR/GOCleanReads分泌蛋白预测基因组调查:只进行粗略组装,一次调试,不承诺组装指标。精细图:进行精细组装,多次调试,承诺组装指标。基因组从头测序真菌denovo基因组调查精细图研究平台Hiseq2000Hiseq2000测序深度50X100X测序策略91PE91PE建库策略500bp170bp+500bp+5kb承诺指标无ScaffoldN50≥300kb信息分析简单评估精细组装+高级项目周期40工作日70工作日基因组从头测序Denovo组装Non-codingRNA注释重复序列注释基因预测组装结果评价共线性分析基因家族分析基因功能注释基因组环形图分析测序数据CRISPR预测前噬菌体预测基因组岛预测Ref_geneCOG注释KEGG/COG/SwissProt/TrEMBL/NR/GO组装结果ORFsrRNA&tRNARepeat精细图:进行精细组装,多次调试,承诺指标:scaffold45完成图:进行精细组装,多次调试、补洞,承诺指标:1contig,0gap基因组调查:只进行粗略组装,一次调试,不承诺组装指标。细菌denovo基因组从头测序细菌denovo基因组调查精细图完成图研究平台Hiseq2000Hiseq2000Hiseq2000+(454)+(OM)+Sanger测序深度100X150X150X测序策略91PE91PE91PE建库策略500bp500bp+2K/5kb170bp+500bp+2K/5kb承诺指标无ScaffoldNo.≦601contig,0gap信息分析简单评估精细组装+高级完整组装+高级项目周期40工作日45工作日75工作日基因组从头测序细菌denovo细菌完成图(1contig,0gap)多种策略综合运用:1、Hiseq1小2大片段数据组装2、Opticalmapping(可选)3、454(可选)4、补洞及验证(sanger平台)…基因组从头测序FAQQ1:什么是Read、Contig、Scaffold?Read:测序读到的碱基序列片段;Contig:由reads通过对overlap区域拼接组装成的没有gap的序列段;Scaffold:通过pairends信息确定出的contig排列,中间有gap。Q2:什么是N50,N70,N90?把组装出的contigs或scaffolds从大到小排列,当其累计长度刚刚超过全部组装序列总长度50%时,最后一个contig或scaffold的大小即为N50的大小,N50对评价组装序列的连续性、完整性有重要意义;N70和N90的计算方法与N50类似,只是百分数变为70%或90%。Q3:如何了解研究物种是否有参考基因组序列?查询网址:=基因组从头测序细菌基因组注释分析编码基因预测方法基因组注释方法基因组重测序宏基因组学分析Conten细菌基因组注释意义自然现象个体功能(表型)个体特征个体特有物质特有基因基因:有遗传效应的DNA片段,是控制生物性状的基本遗传单位。特有基因的存在导致个体有特殊的功能。基因组学(genomics。研究基因组的结构、功能及表达产物的学科。)括两方面的内容:以全基因组测序为目标的结构基因组学(structuralgenomics)和以基因功能鉴定为目标的功能基因组学(functionalgenomics),又被称为后基因组(postgenome)研究。功能基因组学的主要任务之一是进行基因组功能注释(genomeannotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用等。利弊细菌基因组注释意义基因组序列基因预测基因组注释•重复序列预测•ncRNA预测•基因功能注释•基因岛预测细菌基因组注释流程基因组从头测序细菌基因组注释分析编码基因预测方法基因组注释方法基因组重测序宏基因组学分析Conten•以给定的序列本身来进行基因预测•基因信号(GeneSignals):包括起始、终止密码子,内含子剪接信号,转录因子结合位点,核糖体结合位点以及Poly-A等。•基因内容(GeneContent):对编码区的统计学上的描述。可以由概率模型:马尔科夫模型或隐马尔科夫模型检测到这一特征,用以区别编码与非编码区。从头预测(Denovo预测)•以检索序列与已知基因的序列最大的匹配为基础。同源预测基因预测的方法Denovo预测的主要依据是基因的结构模型。原核生物基因结构:原核生物基因组小,基因密度高,很少存在重复序列,一个基因是由编码一个蛋白质或RNA的开放阅读框构成,中间没有间断。起始密码子:ATG,GTG,TTG(ATT,ATC,ATA,GTG)终止密码子:TAA,TAG,TGADenovo预测1、确定密码子,起始、终止密码子2、识别开放阅读框开放阅读框(openreadingframe,ORF):是一段起始密码子和终止密码子之间的碱基序列,ORF是潜在的蛋白质编码区。Denovo预测工具网站通用性ORFFinder通用GeneMark原核Glimmer原核Generation原核FGeneSB=fgenesb&group=programs&subgroup=gfindb细菌(基因结构)原核生物ORF分析识别工具优势预测时间短,一个5M的细菌基因组序列进行基因预测,只需要几分钟就完成;资源消耗非常少,信息量大;对于细菌基因组,准确性已达到98%以上。局限性存在假阳性,预测到的基因需要经过实验验证;软件参数选择难以控制,需要对所研究菌株基因组有深入的认识。Denovo预测Glimmer3Glimmer3适用于微生物基因组基因预测,尤其对细菌、古细菌和病毒,预测效果极佳,能正1.确确定出98%的基因。2.Glimmer3利用的是IMM(内插马尔科夫模型)来工作的,模型中利用了3—8阶马尔科夫模型的综合,依据其预测能力给每个模型赋予适当的权重。算法上采用的是动态规划算法。基因预测常用工具介绍GeneMarksGeneMarkS也是使用隐马尔科夫模型及步进算法来工作。GeneMarkS结合了GeneMark.hmm(prokaryotic)和GeneMark(prokaryotic)两个模型,通过自身训练的过程来决定这两个模型的参数。基因预测常用工具介绍同源预测是基于相似性的预测方法(需要高度同源的参考基因序列)基于的假设:具有功能相同或相似的基因在氨基酸水平上相似度很高。同一物种的基因组的基因在氨基酸水平上应该一样。包括长度、编码的蛋白质。同源预测protein1protein2——基于比对,寻找相似的序列的过程1.选取参考的基因。2.基因组序列与参考基因蛋白序列进行蛋白水平的比对。基因组序列为核酸序列,比对时需要选取适当的参数设置为核酸序列与蛋白序列的比对。3.选取完整的基因,可能存在单氨基酸的突变。起始密码子、终止密码子都存在。同源预测过程protein1protein2优势具有针对性。想了解所测菌中是否存在某基因,就直接进行基因的比对,节省资源,结果呈现直观。准确性高,假阳性低。局限性参考序列要非常同源,受已测的基因个数、类型限制。特有基因和相似度不高的基因不能被预测出来。同源预测ref:4972query:53644402同源预测准确性高但个数少使用两个大肠杆菌的序列,以“EscherichiacoliO111:H-str.11128”的蛋白序列作为参考(ref),来预测“EscherichiacoliO26:H11str.11368”基因组序列的基因(query)。结果:对query预测到了4402个基因。StrainGenomelengthGCcontentGenenumberEscherichiacoliO111:H-str.111285,371,07750%4972EscherichiacoliO26:H11str.113685,697,24050%5364EscherichiacoliO103:H2str.120095,449,31450%5054Salmonellaentericasubsp.entericaserovarParatyphiCstrainRKS45944,833,08052%4574Salmonellaentericasubsp.entericaserovarParatyphiBstr.SPB74,858,88752%5591StreptococcusmutansUA1592,032,92536%1960StreptococcuspasteurianusATCC431442,100,07737%1869StreptococcuspyogenesSSI-11,894,27538%1859经过基因预测,发现了各种菌株基因组中存在的基因个数;同一物种不同菌株的基因个数的差异。为后续的功能分析、比较分析提供指导性意义。基因组从头测序细菌基因组注释分析编码基因预测方法基因组注释方法基因组重测序宏基因组学分析Conten意义:通过生物信息学的方法解读细菌的基因组信息,使人们迅速得获得一个细菌的大部分基因功能信息;利用获取的信息与已知的近缘细菌基因组进行比较分析,进一步挖掘序列背后的生物学意义,为生物学家提供指导。重复序列预测ncRNA预测基因功能注释基因组注释重复序列影响着生命的进化、遗传、变异;同时它对基因表达、转录调控、染色体的构建以及生理代谢都起着不可或缺的作用。它们的功能及演化也正在被逐步阐明。根据重复的序列在基因组上的分布,把重复序列分为两大类,分散重复序列、串联重复序列。重复序列串联重复序列STR(短串联重复序列)VNTR(数目可变重复序列)分散重复序列LTR