BestpracticesforanalysingmicrobiomesExperimentaldesign实验设计molecularanalysistechnology分子分析技术的选择methodsfordataanalysis数据分析方法integratingmultipleomicsdatasets综合多种组学数据集Experimentaldesign•微生物组学分析的普遍方法(Box1)可重复性详细的样品采集方案实验设计数据处理和分析过程记录基因组标准联盟;数据存档;运行命令和数据分析软件跟踪记录Experimentaldesign•考虑不同的微生物组的差异(Box2)•被死亡微生物等DNA遗迹严重污染的样品在提取DNA之前使用物理方法来去除遗迹DNA。•被非微生物DNA严重污染的样品想要获得大量微生物数据,鸟枪法测序是不太可行的。样品类型和环境决定了样品采集、保存方法•宏转录组需要RNA酶抑制剂,宏代谢组需要保存样品的同时不影响其代谢物的提取和数据收集•收集的样本量、样品保存时注意避免污染Experimentaldesign•微生物组实验设计中复杂因素考虑(Fig1)Experimentaldesign•横向研究•纵向研究•干预研究首先,定义实验的范围,选择合适的实验设计,来契合自己感兴趣的科学问题。基于分析计划和特定的科学问题来设计实验可以帮助我们确定样本量采用适当的方法来评估统计能力,辨别技术的可变性以及真实的生物学结果。•PERMANOVA•DirichletMultinomial•随机森林分析Experimentaldesign确定对照和筛选标准动物模型技术差异确定明确的选择和筛选标准,以免混淆新的变量要充分考虑到动物的各种行为效应同一实验技术方法标准化统一化;设置空白对照监测在采样、DNA提取、PCR和测序过程中产生的污染Sequencingtargetsandmethods标记基因测序分析(扩增子)宏基因组测序宏转录组检测样本中某一或几个特定基因片段对样本内所有微生物基因组进行测序的方法通过使用RNA测序来分析微生物组的转录过程,从而提供关于基因表达和微生物组功能活性等信息Sequencingtargetsandmethods方法优点缺点Markergeneanalysis●样品制备和分析速度快、简单、成本较低●与基因组含量的相关性较高●适合于生物量较低、宿主DNA污染程度较高的样品●可用于与现有的大量公共数据集比较●不能区分DNA来源中生物体是否有生命●受到扩增偏好性的影响较大●引物和可变区的选择对结果影响较大●要求对微生物群落有一定的先验知识●物种鉴定分辨率通常限于属水平●需要适当的阴性对照●获得的功能信息有限Sequencingtargetsandmethods方法优点缺点Wholemetagenomeanalysis●可以直接获得微生物功能基因的相对丰度;鉴定分辨率可达物种、甚至菌株水平●不需要微生物群落相关的先验知识(如捕获噬菌体、病毒、质粒以及微小真核生物等)●一般不会产生PCR偏好性●可以估算有参考基因组微生物的原位生长速率●可组装获得群体平均基因组(甚至可以获得其中一些微生物较完整的基因组)●可以挖掘新的基因家族●成本相对较高,样品制备和分析较复杂●来自宿主和细胞器的DNA污染可能会掩盖微生物的特征●病毒和质粒通常无法自动化注释●与其他方法相比,通常需要较高的测序通量(几G-几百G)●不能区分DNA来源于有生命或无生命的生物体●由于受组装影响,平均群体微生物基因组往往不准确Sequencingtargetsandmethods方法优点缺点Metatranscriptomeanalysis●当与标记基因分析结合使用时,可以估算群落中哪些微生物正在进行积极的转录过程●只能鉴定活动生物,排除休眠、死亡微生物及胞外DNA●能够捕捉个体内部的动态变化●直接评估微生物的活性,包括对干扰或者暴露等情况的响应●费用最高,样品制备和分析过程最复杂●必须排除宿主的mRNA、和rRNA污染●样品的收集和存储要十分小心●数据结果对有高转录率的生物体有偏向性●需要与DNA测序结果结合,才能获得细菌丰度变化和转录率如果实验目的是想获到微生物组较高水平、但低分辨率较低的概述,首选标记基因测序。宏基因组测序可以通过分析样品中的总DNA而获得更多的细节,可以在菌株的水平上加以辨别,并提供更多的分子功能信息的基因。对于宏转录组测序,则是更多地用于描述微生物群落中的基因表达。SequencingtargetsandmethodsAnalysesAnalysesOTUs——sOTUssOTUs:sub-operationaltaxonomicunits亚-OTUsESV:exactsequencefeaturesSAV:Ampliconsequencefeatures基于16SrRNA基因测序中位置的特异性信息,来鉴定单碱基变异(SNP)从而加以区分密切相关但又不同的分类群。诸如Deblur和DADA2等算法,根据精确序列特征(标记基因序列)分为了亚-OTUs(sOTUs)。这些方法得到的结果是一个DNA序列表,是每个样品中的不同序列数,而不是OTU群组。Analyses物种分类注释参考数据库(三个最具特色且经常使用的是Greengenes,RDP和Silva)的选择由片段较短的标记基因构建的系统发育树通常结果较差,将标记基因序列插入到基于全长序列的参考序列系统发育树中是一种更好的做法在分析前过滤去除掉去细菌序列物种丰度作图:柱状图、heatmap丰度分析Alpha多样性(AlphaDiversity):是对某个样品中物种多样性的分析。主要有三类:丰富度(richness)的测量常用观测的物种数(ObservedOTU/Richness)和Chao1丰度估计(估计真实物种多样性);均匀度(Evenness)一般是进化距离测量采用信任系统发育多样性(Faith’sphylogeneticdiversity),这两类方法受样本测序深度影响很大;此外还有一类即考虑丰富度,又考虑均匀度的Shannon指数,对测序量不敏感。AnalysesAnalysesbeta多样性(betaDiversity):比较每对样品间特异的差异,产生所有成对样品间的距离矩阵,距离矩阵的选择对结果影响较大。Bray-Curtis,Canberra,Weighted-UniFrac等定量度量标准考虑物种的丰度信息进行计算;binary-Jaccard,Unweighted-UniFrac定性方法仅考虑特征的有无。丰度分析抽样标准化、稀疏曲线Analysesbeta多样性(betaDiversity):beta多样性数据可视化采用排序的方法,常用如主坐标轴分析(PCoA)、主成分分析(PCA)或非度量多维尺度分析(NMDS)。这类方法将复杂的距离矩阵,转换为可观察的2或3维空间,代表样品间距离。无参数的置换(permutation)检验方法如多元方差分析(PERMANOVA)、相似性分析(ANOSIM)用于检验的不同组间beta多样性的显著性,其中PERMANOVA应用于组间变异较大的数据集更好用。丰度分析Analyses相对丰度:组成是影响相对丰度分析的关键:一种微生物过度增长,其他物种不变,但相对丰度却减少,在t检验、ANOVA、相关性分析时会导致假阳性结果。•组成意识(compositionallyaware)•等距对数比例转换(isometriclogratiotransform,ilr)•绝对定量方法丰度分析Higher-levelanalyses目标样本为Sink,微生物污染源或来源的样品为Source;基于贝叶斯算法,根据Source样本和Sink样本的群落结构分布,来预测Sink样本中来源于各Source样本的组成比例。SourceTracker将标记基因和可用的微生物基因组(参考数据库)相联系,用来预测宏基因组,从而微生物群落功能预测功能分析的两个限制:①参考基因组的可用性;②有些细菌家族的表型和基因型上存在差异,但是它们的16SrRNA可变区非常相似,难以区分功能预测分析PICRUST