微生物分子分型数据分析(PFGE、MLST、MLVA、wgMLST、宏基因组、全基因组)

lywest
1 ℃
2020-05-18

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

BioNumerics用于微生物数据分析的多种应用上海一贝科技有限公司鲁书林joy@shanghaiep.com管理、分析和探索二代测序数据测序？下一代测序？•测序：分析特定DNA片段的碱基序列•传统测序：Sanger测序–读长较大（约1000bp）–通量低，读长少（1,2,…,96,…）•下一代测序：高通量测序–读长较短（32-400bp）–通量高，读长多（500000,…50000000,…）数据生成：概述•样本DNA的获得：–足够的DNA或者正确的目标DNA•片段化：DNA被碎片化–酶切–超声或其他物理方法•测序：获得ATCG的碱基排列•基本的排除–去除化学反应错误的碱基数据生成：结果•输出：读长及质量•质量：基本的Phred值–表示碱基测序的准确度–其中10表示准确度0.9,20:0.99；30:0.999；……多样本混合测序•多样本同时测序时，每个样本需要添加不同的识别序列，也即标签（MID或barcode）。•标签类型取决于测序平台和样本数NGS数据分析流程•基于NGS数据进行分析和比较时，要考虑–原始数据的质量评估–数据预处理（筛选和剪切）–组装•Denovo•Mapping–组装质量评估–SNP及基因检测二代测序数据分析•微生物全基因组组装及分析–Denovo组装–Resequencing组装•微生物分型–wgMLST•宏基因组•其他应用全基因组数据分析数据导入•SequenceReadSet–新建SRS实验–导入SRS数据•可导入Genebank/EMBL格式文件•可直接从公共数据库导入SRS数据导入•通过导入插件实现–自动识别文件格式–自动配对单独的双末端数据•可完成多样品混合数据分离–自动识别样本量–根据最小相关度和绝对量进行分离质量评估：序列基本信息•SRS实验卡–序列数量–序列长度统计–碱基质量统计–A、C、T、G碱基数–非ACTG碱基数及GC%质量评估：多种模板报告•单个样品分析–位置分析•碱基分布•质量分布–序列分析•读长长度分布•平均质量分布–寡核苷酸分析•质量值GC%及频率•两两样品比较–读长与参考序列比较的详细信息–测序方法的得率•多重样品比较–找到合适样品作为参考–理想Mapping质量的评估预处理：序列筛选序列选择：仅保留符合特定标准的序列•结构–同聚物长度：去除特别长的同聚物–去除过高A%的序列–去除过高或高低GC%的序列•长度–序列长度：长度过短的序列被去除•质量–最小质量：去除最小质量过低的序列–平均质量：去除平均质量过低的序列–低质量碱基替换为N预处理：序列剪切序列剪切：根据特定规则去除序列中的碱基•长度剪切：–序列长度：限制序列的最大长度•质量剪切：–窗口平均质量–平移窗口平均质量–末端质量Denovo组装•Denovo拼接：在没有参考序列的情况下拼接•问题：–测序量–重复区域•概念：–Reads：测序平台产生序列–Contig：overlap拼接–Scaffold：Mate-pair或Paired-endDenovo组装：算法BN7.1Denovo拼接算法•Velvet–适用于单末端和双末端序列–利用覆盖度解决重复区域–生成scaffolds•Ray–平行短读长组装问题–均适用于单末端和双末端序列–尤其可兼容不同测序平台数据组合如何获得好的拼接结果•样品测序深度（50X或更高）–Coverage=N*L/GN=No.reads;L=read平均长度；G=基因组长度•读长较长（无需太长，约100bp）•Scaffold和重复区最好是双末端序列，如果可能的话插入片段长度不同•提供长片段供参考（PacBio,Sanger）•合适的质量筛选和错误检查•N50：基因组拼接结果好坏的判断标准拼接结果评估•拼接重叠群（Contig）与参考序列进行比对，查看结构性差异•读长与Contig进行比对，查看错误拼接，同时使用拼接评估工具Resequencing组装•定义：–参考序列–SRS–根据参考序列确定每个读长的最佳位置并进行比对•问题：–测序错误–重复区域–自然变异：样品与参考序列的差异•Burrows-Wheeler算法Resequencing组装：特征•快速对细菌基因组进行拼接•同时对单末端和双末端读长进行空位校正•有效配对以获得准确的比对•非唯一读长被随机置换，后续可进行筛除全基因组数据：分析•染色体比较窗口序列（长度不限）的比较：基因序列或氨基酸•全基因组比较和聚类•探索新的基因组•研究基因组的组成和结构•突变分析和选定基因分析•子序列和特征搜索wgMLST激活wgMLSTclient插件宏基因组数据分析16SrRNA基因细菌16SrRNA结构，其中紫色是可变区（Variable），棕色是保守区（Conserved），黑色是不变区（Invariable）测序深度•稀释曲线：系统发育多样性随着测序深度的增加而增多。•合适的测序深度是达到稀释曲线的平台期，也即随着测序深度增加，多样性不再增多。但存在以下问题：•功能基因的水平转移或者重要基因片段重组发生时，16SrRNA并不会有体现•一些细菌可能会转移整个16s基因•16SrRNA的保守性跟其他基因组序列没有关系，故只根据16S序列进行物种鉴定不一定准确•每个细菌rRNA操纵子拷贝数不同，一般是1-15；所以定量结果不是特别准确导入SRS多样性分析多样性指数计算稀释曲线根据分类数据库识别微生物种类OTU划分：根据宏基因组序列与分类数据进行比对系统发育树体现的是样品每个OTU的丰度进一步分析结论•BioNumerics软件提供了一个人性化、图表化的操作平台，轻松实现从导入原始序列、剪切等前处理、质量控制到聚类。并提供可视化的OTU丰度及一系列指数计算α-、β-多样性•BioNumerics平台还可以对宏基因组数据进行更深入的分析，比如：聚类、鉴定及统计分析工具等等宏基因组数据处理全面、快速、简便！强大的序列分析功能•序列批量组装•引物设计•比对生成保守序列•翻译蛋白质•序列突变检测•多重比对•邻接法生成无根树•RFLP分析微生物数据分析更多应用更多应用……•抗生素耐药性分析：细菌和HIV•病毒分型（基于序列）•SmartFinder数据•MIRU•MALDI-TOF细菌鉴定•分子监测网络抗生素耐药性分析1.添加折点解释规则2.导入抑菌圈直径或MIC值3.聚类分析及统计病毒分型（基于序列）•基于序列对病毒分型快速、简便•BioNumerics提供强大的数据库分析平台，可同时完成序列的比较和聚类•不同用户和实验室可利用BioNumerics数据库共享工具建立分子监测网络，如：CaliciNet病毒分型（基于序列）•BioNumeric可导入原始序列并批量组装，参考序列可直接从网络数据库导入（FASTA或Genebank）•序列可自动注释•利用多种算法进行多重比对：–Needleman-Wunsch–Wilbur-Lipman–AppliedMathSmartFinder数据•可分析SmartFinder不同试剂盒的溶解曲线•能够与LIMS系统对接，满足医院客户需求MIRU1.MIRU-VNTR插件2.允许自动分配型别，并上传新型MALDI-TOF细菌鉴定•可导入不同制造商的质谱数据（如Bruker,Shimadzu）•建立自己的质谱数据库用于快速鉴定分子监测网络•ODBCconnectivity数据库通用接口•Usermanagement用户管理•Bundles导出压缩包数据•Client-Serversetup客户端/服务器模式•实现数据的上传、并库、联网等PulseNetInternationalTheEuropeanSurveillanceSystem(TESSy)CaliciNetDST:BionumericsServer一套BionumericsServer可以服务于多个数据库一个数据库可以多用户登陆每一个用户都可以有个性化的访问设置哪些数据库可用哪些功能可用每一次访问情况都被详细记录下来下载的数据量鉴定的次数