人体微生物组学研究的实验和分析工具主要内容人体微生物综述目的及意义分子生物学一般研究策略人体微生物的研究方法人体微生物•人体内有两个基因组,一个是从父母那里遗传来的人基因组,编码大约2.5万个基因;另一个则是出生以后才进入人体、特别是肠道内的多达1000多种的共生微生物,其遗传信息的总和叫“微生物组”。•人体微生物与人体有着密不可分的联系。人体与其菌群之间进行着活跃的代谢交换以及“co-metabolism”过程,因此在人体病理学等研究中,必须考虑人体微生物群体的组成及其行为对宿主的影响。•人体微生物学的重要性日益凸显,用来识别和分析微生物群落组成技术的新进展很大程度上提高了我们对微生物群落以及它们不同生活环境的认识,包括人类。•在过去的2年中,人体微生物的研究已经开始如:HumanMicrobiomeProject和MetaHIT,这些研究获得了大量的临床数据,并使用先进的算法,联系微生物特征与临床状态,以期探明微生物与人体生理状态之间的联系。研究方法•微生物研究的方法越来越多样化,这些方法包括微生物识别(区系调查)、与人类相关的微生物群落分析以及微生物相关的基因方法(如宏基因组学)。•同时也对RNAs、蛋白质和代谢物质等进行研究,这些也可以为人体微生物学研究提供具有参考价值的数据,尤其是将它们与区系调查和宏基因组数据进行结合分析。综述主要内容及意义主要内容主要叙述以DNA为基础的分子学研究方法。目的在微生物研究的实验设计和分析工具的使用以及当实验者进行研究调查时涉及到微生物方面时可以提供指导。正如人类基因组测序能帮助我们分析个体基因如何保护,或者干扰机体一样,人体微生物组的研究也能用于解析人类健康的风险。人体微生物分析流程一以DNA为基础的微生物研究DNA为基础的微生物研究通常分为两类。1.特异性扩增方法,其研究集中在一个或少数几个标记基因,并使用这些标记基因揭示微生物的组成和多样性。这种方法优势在于提高了微生物群落中特异性的分辨率。2.宏基因组策略,由于获得的基因组序列是随机的,有时也会被称为鸟枪宏基因组学,能在微生物群落中具有潜在功能方面研究提供更为丰富的数据,但分辨率较低。两种分析策略的路径二.微生物目标基因的选择微生物群落的研究通常会涉及系统发育信息标记基因的特异性扩增,16SrRNA基因是微生物分子生态学最常用的标记序列。其优点有:•16SrDNA存在所有的活体细胞中。•核糖体基因同时包含了慢进化区域和快进化区域,可以设计广谱PCR引物等。•16SrDNA基因可以覆盖多种标记基因,能在许多基因库中进行比对,如greengenes,SILVA,theRibosomalDatabaseProject。因此可通过比较基因之间的序列差异反映不同种类之间的进化。1.通用PCR引物的选择PCR引物的设定应该考虑以下因素:•生物分类学覆盖的需要•扩增片段产生的系统发育信息的长度•测序平台对片段长度的兼容性•与宿主序列相比,微生物扩增序列的特异性程度•根据分析的需要,使特定区域中分类学上的和系统发育上的信息都要得到反应,如16SrDNA中V6可变区对于全长序列的分类地位反应较低。引物选择对目标基因扩增测序的影响2.真核生物及病毒的扩增•利用高通量分析与人体相关的真核生物和寄生生物是非常有限的,并且难以避免宿主基因的扩增。可能的解决这一问题的方案是通用引物和阻碍寄主序列扩增探针的联合使用。•在人体微生物中,病毒是不可忽视的。多数病毒普遍缺乏一个基因,对病毒基因的完整扩增结果不能作为描述病毒特征的依据。可以使用特定分支的病毒基因来识别病毒的亚型。三.生物样品的处理及DNA的提取1.样品采集,这是与人类相关微生物研究的限制步骤,具有争议。它需要人类研究机构的批准以及志愿者的同意,要求抽样过程尽量降低感染几率,同时采取微创刮取法(如胃、肠道的取样)。2.DNA提取,基本步骤有细胞溶解、去除非核酸的大分子物质以及DNA收集。细胞溶解步骤值得注意,溶解的强度可能导致结果偏向特定的分类群体。复杂微生物的溶解可借助多种方法或是采用有效的试剂盒。3.减少污染•防止外源污染,戴手套,尽量在无菌环境中操作并保证仪器的清洁。使用提取试剂盒可减少污染几率。•样品的存放时间也有一定影响,样品长期储存的影响还没有详尽研究,所以样本采集后最好尽快处理。四.DNA的测序方法人体微生物的研究多使用16SrDNA为基础的分类分析以及鸟枪法宏基组分析,其中测序方法有多种:•capillary(Sanger)sequencing(suchastheAppliedBiosystems3730xlDNAanalyser)•焦磷酸测序(suchastheRoche454GenomeSequencerGS,FLXandFLXTitanium)•Illumina’s克隆序列(suchastheIlluminaGAIIxandHiSeq2000).各种测序技术的比较1.分类特性研究•最初的分类特性研究基于Sanger测序法,随后依赖于发展起来的高通量测序方法,其特点是深度更广、成本更低以及更短的读取长度。•理论上,在分类应用中,长序列可以产生更高的分辨率。然而,基因片段尽可能在100bp的基础上时,群落组成的变化才具有代表性地被评估。•在近来的5年中,测序的读取长度从100个碱基到250个碱基,甚至允许几乎整个长度的测序,但由于目前化学方法的限制,读取长度被限制到600个碱基。•为了弥补短读取带来的限制,Illumina测序平台推出了末端配对测序,读取长度为76,101,或125个碱基。但也导致了重复读取和总片段长度增加或是中间序列缺口。•454焦磷酸测序技术使得更大规模的测序成为可能,它实现了样品每百万个读取及每数千次运行,降低每个样品的成本。但同时也需要越来越高水平的自动化样品制备和数据处理软件。图3:如何从各种测序技术中获得最大的分类信息2.功能分析研究•功能分析研究是对微生物基因组DNA所具有的潜在功能的推测。最初研究涉及从微生物群落中分离到的大型插入文库的测序。•理想情况下,大的连续长片段能包含操纵子和系统发育标记基因甚至未培养微生物的整个基因组,因而在功能特性的研究中有更高的分辨率。现在的测序技术更加倾向于产生长片段和与之相关的信息,如随机的鸟枪测序、宏基因组学和单倍体生物基因组学。•使用下一代测序方法使得测序的数据量增加到每个样品数亿个碱基,但它的限制在于这些数据只有小部分的短读取片段可以被拼接成长片段,然而这些长片段大多数也小于2Kb.•更深层次的问题在于这些数据中占优势的不是微生物序列,而是包含了大量的宿主DNA.如:人粘膜部位样品中可以包含超过80%的人DNA。•目前使用的宏基因组研究方法包括通过短距离的复合读取来增加读取长度、重叠末端配对序列或是长读取和短读取结合的混合方法。•尽管Tb级单位的宏基因组在不久的将来会广泛使用,但宏基因组序列组装的问题不是仅仅通过日益增加的测序深度和覆盖面可以解决的。真正的提高依赖于测序原理和数据质量的提高以及新测序技术的发展。3.错误率错误率会影响到下游数据分析,可能会影响物种的丰度,或是新物种的误断,错误率来源分为几种:•微生物基因组的片段可能只被读取一次而随机产生的错误。•基于PCR的嵌合序列的产生。一般来说高错误率的序列会首先被滤除,评价的参数有:测序的平均质量得分、均聚物的数量和长度、引物的不匹配数量等。五.生物信息数据分析工具经过DNA测序后大量的数据需要分析和解读,不同的的扩增方法其分析工具也不尽相同。1.特异性扩增数据的分析工具,使用QIIME,mothur、VAMPS等工具与大量DNA序列数据进行比对。但高通量测序会带来较大的错误率,可使用AmpliconNoise、Denoiser等工具进行降噪处理。2.将扩增序列分类到操作分类单位(OTU),这是从序列推测物种的关键步骤。OTU是把达到或超过给定分类水平上的序列相似性阈值的序列归位一类的分类方法。聚类方法有:•denovoOTUpicking•reference-basedOTUclustering这两种方法相似,但reference-basedOTUclustering的优点是能联合不同16SrDNA基因的不同区域以及将不同测序方法得到的序列进行分类。同时,将序列进行OTU分类操作能减少嵌合序列以及错误序列。•可参考数据库有:VAMPS,MG-RAST,theQIIMEdatabase等。•随着微生物群落序列数据呈指数增长,样本的元信息(寄主临床信息、DNA提取、测序等详细信息)在数据库比对中尤为重要。theGenomicStandardsConsortium最近引入了一套元信息的描述标准,如:(x)序列的最小信息,这套标准已经被theHumanMicrobiomeProject,theEarthMicrobiomeProject所接受。3.推断系统发育关系DNA序列的系统发育关系可以通过数据库比对或软件计算推断,如:•参考公共数据库,greengenes或SILVA•数据推断,NAST和FastTree•系统发育分析:UniFrac和PhylogeneticDiversity•contextofQIIME,mothur或者其他方法。•传统的方法还可以用主坐标分析法将微生物之间的联系可视化。或是使用rarefactioncurves显示群落内的多样性。4.宏基因组数据分析工具宏基因组方法的优点在于能产生与潜在功能如代谢性质、群落动态相关的编码序列。•为了确定微生物群落之间的分类关系,可以用一些免费软件包进行分析,如使用BLAST或interpolatedMarkovmodels进行最佳身份的匹配,然后确定最可能的起源序列。•另一种方法是从宏基因读取中找到并提取系统发育标记,然而物种中缺乏代表性的测序基因组,不能对任意的宏基因组片段进行分类操作。可将16SrDNA分析以及大型的参考数据库作为补充。5.宏基因组序列的功能注释微生物潜在功能可以通过比对大型的新陈代谢注释库来进行分析。theGenomicStandardsConsortium最近在制定一项比对方法的标准。考虑到用户的需要及计算机资源,功能注释方法可以下载并能在本地进行操作,或是通过特殊工具将序列数据上传到服务器进行在线比对,分析工具如MG-RAST,CAMERA或IMG/M。•随着靶基因的研究,对于宏基因组数据的研究一大障碍是不能在群体中识别那些不同的显著特征,但随着各种技术的发展,通过对在基因水平差异的统计来推测代谢途径的不同来区分显著特征。•目前我们对人体微生物的认识还十分浅显。在今后的研究中,用于参考比对基因组的大量积累以及使用共组装的方式从短读取中构建新的基因组是加快人体微生物研究的关键。六.结论与展望•为了阐明基因、微生物、人体生理或疾病状态之间的关系,人体微生物研究需要大量与人类共生的微生物样本。•随着研究模型分辨率的提高,今后许多普遍的微生物只需要几个基因就可以揭示,而对于特殊微生物则需要更深入的分析。这种高灵敏度微生物检测技术,能用于多个方面,比如分析多个条件致病菌,了解这些细菌在侵入机体,引发疾病之前,位于机体的哪个位置。•微生物群落在不同寄主之间的转移和相关联的生理状态已经在不同老鼠之间,甚至在人与老鼠之间被认识(细菌疗法),如粪便的移植可以治疗由梭状芽孢杆菌引起的顽固疾病。然而微生物的研究进展会受到公众传统观念的抵制以及政府的限制,因为要把未经安全性证实并且大量未经临床验证的微生物直接用于疾病治疗是难以接受的。•进一步的工作可以用动物模型替代。今后的一系列研究将揭示基因、微生物与生理生态之间的因果关系,但微生物的副作用也值得考虑。•在本文中侧重点主要集中于16SrDNA和宏基因组研究,未来将发展多元组学以及特殊遗传标记研究。•未来一个令人兴奋的前景是个人微生物图谱的绘制以及动态监测人体微生物的变化,以此来揭示人体内(表)的微生物菌群与人体健康的关系并对体内微生物进行有效操作。人类微生物组研究最终将帮助人类在健康评估与监测、新药研发和个体化用药,以及慢性病的早