细菌比较基因组学分析新手指南

zjhzjhzjh1026
1 ℃
2020-05-13

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

新手指南篇：基于二代测序数据的比较基因组分析摘要现在高通量测序既快又便宜，足以被视为细菌研究的重要工具，并且在公共领域有数以千计的细菌基因组序列供比较分析。越来越多不同的群体研究，像临床和公共卫生实验室，进行细菌基因组分析，它们感兴趣与细菌遗传学和进化相关的广泛话题。例如疫情分析及致病性和耐药性的研究。在这个初学者的指南中，我们的目标是，为那些生物信息学背景的个人分析细菌基因组数据提供了一个切入点，让他们来回答自己的研究问题。我们假设读者熟悉遗传学和序列数据的基本性质，但不承担任何计算机编程技能。涉及的主要议题是组装，contig排序，注释，基因组比较及提取共有的输入信息。每个部分均使用公开可用的大肠杆菌数据和免费的软件工具，所有这些都可以在台式计算机上被执行。介绍和目的现在高通量测序既快又便宜，足以被视为细菌研究的重要工具。越来越多不同的群体研究，像临床和公共卫生实验室，进行细菌基因组分析，它们感兴趣与细菌遗传学和进化相关的广泛话题。例如疫情分析及致病性和耐药性的研究。如今细菌的基因组序列，可以在许多实验室内部产生，仅需要使用台式测序仪数小时或数天，如Illumina的MiSeq，IonTorrentPGM或者Roche454FLXJunior。这些许多数据在公共数据库中可用，允许进行广泛的比较分析；例如截止到2013年2月GenBank数据库包含6500细菌基因组，其中2/3是处于草图形式（即呈现为一组片段序列，并非单一序列代表全基因组）。在这个初学者的指南中，我们的目标是，为个人想利用全基因组序列数据进行从头组装基因组回答以在更广泛的研究目标范围内的问题提供一个切入点。该指南并非针对那些希望执行数百个基因在同一时间的自动化处理;在常规的微生物学诊断实验室的使用顺序的一些讨论是在文献中可用的[8]。我们假设读者熟悉遗传学和序列数据的基本性质，但不承担任何计算机编程技能，而我们使用，可以在台式计算机（在Mac，Windows或Linux）上执行的例子。这篇指导并不旨在详尽，而是要介绍一组简单而灵活并且自由的工具，可以用于研究各种常见问题包括：(i)如何用这个基因组比较另一个？(ii)这个基因组是否存在噬菌体或抗体基因？每个部分都包含了到哪儿里去寻找更详细技术资料，替代软件包和更高级的方法的指导。实例和教程在整个指南中，我们将使用大肠杆菌O104：H4作为样例。大肠杆菌O104：H4是溶血性致命尿毒综合症（HUS）2011年在德国爆发主要原食源性原因。通过不同的测序平台（包括llumina公司，IonTorrent和454）从大量的致病菌株读取和组装序列，如今可以从欧洲核酸档案库下载。这个致病菌属于一种肠聚集型大肠杆菌，它已经获得了一种噬菌体编码Shiga毒素（通常与肠出血有关）同时还有多个抗生素抗性基因。在实例中，我们将采用一组O104:H4TY-2482菌株的Illumina双端测序结果，并且包括一些可用的短序列。长的PacificBiosciencereads也是可用的，但是不包含在教程中。工作流被分为五个逻辑部分：装配，contig排序，注释，比较基因组和归类。使用E.coliO104:H4数据的实例被展现在文字，图表中，更详细的介绍在附录中。本教程包含每个阶段所需要使用到的软件程序的具体步骤，以及预期的输入和输出（用于软件安装的说明由每个软件的开发者提供）。虽然原始测序数据的质量控制对于得到用于比较分析的最好的组装结果是至关重要的，但是这个版块可能需要的步骤太多也太复杂，并且不同平台之间的差异也很大。然而，我们建议读者使用与测序平台配套的软件工具检测原始数据的质量，或者使用FastQC评估原始数据。（见教材附件）基因组组装从头组装是将重叠序列reads合并成连续的序列（contig），不需要任何参考基因组作为向导。最有效的短read序列组装通常是采用deBruijn图来产生一个组装。关于deBrujn图如何按顺序组装工作的一个有力解释可以在Compeau的文章中找到。其中的第一个也是最广泛使用的德布鲁因图汇编程序是开源程序Velvet。随着双端测序和和更长的读取进一步发展以提高重复和scaffold的分辨率[20]，Velvet仍然是最常用的一个组装细菌基因组，是最适合llumina序列读取的。IonTorrent平台的数据组装最好使用MIRA,它使用改进的SmithWaterman算法进行局部比对。对于454测序平台的数据，Roche公司提供了一个基于deBruijn图专用的组装软件。当使用deBrujn图组装时，为了产生最佳的重叠群需要考虑一些变量。这可以使用VelvetOptimiser程序有效的自动化选取。问题的关键是选择合适K-mer长度去构建deBruijn曲线图。不同的测序平台产生不同长度和质量的片段，这意味着不同的范围内的K-mer将适用于不同类型的reads。必须找到特异性和灵敏性之间的平衡。其他需要考虑的变量时在运行中基因组预期的覆盖度范围，插入片段的长度，最小深度的临界值等。所有的这些变量都可用VelvetOptimiser自动化选取。如果所获得的平均覆盖率高于20x，错误contig被接受的几率将增加，如组装时不能区分错误与真实变种，如有大量evidence错误。排序和观察已组装的contig一旦将测序reads组装成一系列contigs，下一个步骤便是基于一个合适的参照基因组对这些contigs排序。这或许违反了一开始我们声明的从头组装，但是排序contigs对于后续发现和比较的过程必不可少。最好的参考基因组通常使用最相近的细菌的全基因组，但是对于大肠杆菌O104：H4，这其中可能需要反复试验。可以使用命令行工具来实现排序contigs，如MUMmer，其可以被简化成类似ABACAS程序包。但是我们建议对于初学者最简单的方法就是使用基于Java的图形界面程序Mauve进行排序。这个排序算法使用迭代映射方法以找到与参考基因组的每个contig的最佳拟合。Mauve需要输入fasta格式参考基因组以及组装结果，并输出有序的contigs文件。由于参考基因组和新的基因组之间的进化差异，重复元件的出现，如原噬菌体的存在，加上短read组装的特性，那么几乎肯定会在contigs中存在的装配误差。一个组装的错误率可以通过密切相关的参照基因组来评估。介绍一个很好的选择来评估误差率MauveAssemblyMetrics（见附件1），它可以产生组装质量的报告。另一种方法去探究排序好的组装结果是通过可视化。Mauve提供了通过比对其他序列组装实现可视化的一种方式（见附件1：教程的说明）。另一个选择是使用ACT工具，一个基于Java的开源应用。使用大肠杆菌O104：H4的例子被示于图2和附件文件1：教程。要使用ACT中查看比较，你需要首先识别并生成您的组装集和参考基因组之间的同源性区域的比较文件。然后将其导入到ACT中。可以使用WebACT或DoubleACT网站，或使用自己的计算机上BLAST+生成比较文件（见附件1）。需要注意的是，需要将组件将被转换成一个单一的FASTA序列，然后才可以产生比较文件。这可以在Artemis（图2），或使用命令行工具来完成，如在EMBOSS包中的命令（见附件1：教程详细信息）。基因组注释一旦获得contig的有序集合，那么下一步就是进行基因注释。注释是在基因组中“基因”识别的过程，也包括了核糖体RNA和转运RNA的识别。细菌基因组注释很容易通过上传基因组使用基因Web的在线工具进行自动化注释，如RAST。这儿也有许多命令行注释软件。这些软件包括基于从头预测方法的软件，如Prokka和DIYA，或者基于相似基因组的软件，如RATT和BG-7。最后注释的质量很大程度上取决于所使用的基因数据库的质量，我们更倾向于使用在线注释工具RAST来注释细菌基因组。RAST以排序后的contig作为输入文件，识别开放阅读框作为的基因，并且使用一系列子系统技术（即RAST中的‘ST’）与复杂的数据库中基因或RNA序列进行比对从进行质量的注释。通过RAST在线工具可以查看鉴定出的基因，并与其他的基因组比较。注释结果还提供了多种下载格式，如Genebank。比较基因组分析对于大多数测序实验，与其他基因组或序列进行比较是一个关键的步骤。有时，一般会被问到，“基因组中哪些基因是共有的，哪些基因是独特的？”。在许多情况下，用户也有兴趣去寻找已知具有重要功能的特异基因，如致病基因或具有药抗性基因。对于大多数用户来说，可视化这些生成的比较结果对于理解和解释数据都是重要的。因此，我们建议三个软件工具用于数据分析和可视-BRIG，Mauve和ACT（后面两个上文中已经介绍过）。对于有经验的用户，比较的问题也能通过使用命令行搜索工具，如MUMmer和BLAST。ACT是一个基于Jave的工具的两两全基因组比较工具。如上面概述，BLAST是用于序列比较（它可以在本地进行，或通过Web服务）；两个基因组和BLAST结果，然后加载到ACT的可视化比较（见附件1：教程）。多个成对比较可以同时进行可视化;一个使用到大肠杆菌O104：H4在图2和附件1：教程可以查看。序列同源性的区域是由块，其被标记为红色（相同方向）或蓝色（扭转取向）的联系，与饱和度指示的同源性程度（暗=高度同源性，对光=低同源性）。序列的同源性区域由红色（相同方向）或蓝色（相反方向）的块联系起来，通过饱和度指示同源性程度（暗=高同源性，亮=低同源性）。使用的ACT的优点包括（i）能够灵活地缩小到看全基因组比较情况，（ⅱ）可以放大到检查DNA和/或蛋白质序列的精细比较，以及（iii）也能够对比较后的基因组添加、编辑注释。Mauve是基于Java用于全基因组的多重比对工具，含有一个内置的浏览器和比较基因组信息各种形式输出的参数选择。如上文所述，其对齐功能也可以用于排序和将contig定向到现有的组装。Mauve需要输入的一组组装的基因组，并产生一个多重全基因组比对结果。它识别序列同源性块，并且分配每个块一个独特的颜色。每个基因组可以被可视化为这些有色序列块组成的序列，便于基因组比较的可视化。一个例子在图3中给出。这很容易识别出整个基因组中的保守区域和特有的基因岛区域。教程（附件1）中有如何利用Mauve通过比较EHEC和EAEC染色体序列识别E.coliO104:H4中的独特区域。因为Mauve生成基因组序列的比对，也可以用于鉴别单核苷酸多态性（SNP或点突变），适合于下游系统发育或进化分析（详见淡Mauve的用户指南）。BRIG（BLAST的环形图像生成器）是一个基于Java的工具，用于参考序列和一组查询序列进行比较的可视化。结果绘制成一系列的环，每个环代表一个查询序列，它们通过着色显示被参考序列命中（参见图4）。BRIG是灵活的，并且可以被用来回答广泛的比对问题，这取决于参考和比较序列的选择。然后，要记住的一点是，这是一个基于参考系的特定方法，意味着它能告诉你在查询序列中存在或者不存在参考序列中的区域，但它并不显示参考序列中没有的查询序列区域。因此参考序列的选择对于结果的理解是至关重要的。在图4中有个例子，一个肠出血性大肠杆菌的基因组被用作参考序列，其他病原性大肠杆菌基因组作为查询序列。从图中很容易地看到，疫情菌株和肠出血性大肠杆菌（EHEC）在基因含量上显著同，但共同拥有Stx2噬菌体序列，这段序列在肠聚集性大肠杆菌（EAEC）和肠致病性大肠杆菌股（EPEC）中缺失（图4中突出显示）。教程中包括了一个使用大肠杆菌O104：H4疫情基因组作为比较参考序列的重复例子。分型和公共健康方面的应用：识别抗性基因，序列类型，噬菌体，质粒和其他特定序列全基因组测序越来越多地被用于代替基于PCR的测序或分型方法。在这里，我们，为这些目的列出一些专业工具。本教程包含检查大肠杆菌O104：H4疫情基因组的有关工具说明。抗生素抗性基因的检测是许多研究人员关心的一个问题，特别是在公共卫生和诊断实验室。ResFinder工具[44]，免费提供在线[45]帮助，它