生物信息学专业级分析平台介绍

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

后基因组时代高通量数据的生物信息学分析—与翔生物信息学分析平台简介张新宇博士前言以生物芯片为代表的高通量生物技术飞速发展,其数据特点为海量、复杂、难于深入分析生物学研究人员要求数据分析更加系统化、个性化,具创新性商业版和免费版分析软件繁多,而缺乏专业的、系统的、扩展性高的数据分析平台专业公司的服务相对于团队建设周期短,投资少与翔公司高通量数据分析平台基因组学–ArrayCGH–DNA甲基化芯片–TilingArray(ChIP-chip)–SNP芯片(genotype/LOH/CN/GWAS)–高通量DNA测序(454/Solexa/SOLiD)–基因组注释转录组学–DNA芯片(mRNA/microRNA)–SAGE/EST文库–高通量RNA测序蛋白质组学/代谢组学–双向电泳/HPLC质谱–蛋白质结构及其功能预测系统生物学–基因网络/相互作用分析–异质和异源数据整合分析编程环境:Linux和MySQL编程语言:C++,R,Perl,Python,Matlab,Java所有流程已本地化并经过unit测试Tilingarray(ChIP-chip)分析系统(Client-Servermode)SDK流程MAT流程ChIP-chip结果IGB/UCSC视图IGBUCSCSNP芯片分析系统(Client-Servermode)Genotype分析LOH分析CN分析GWAS分析CN/LOH结果IGB全基因组视图CNLOHSNP芯片分析系统(Client-Servermode)Genotype分析LOH分析CN分析GWAS分析关联分析主要目的是寻找生物标志物和标志谱要求有足够多的样本和足够多的候选位点通过表型和基因型关联度的分析手段,在提高预测准确率的同时对候选位点进行降维处理通过建立数学模型,可以准确的预测未知样本的表型,发现表型相关基因目前最为流行的关联分析是全基因组关联分析(GenomeWideAssociationStudy,GWAS)与翔GWAS平台主要方法不同类型的高通量数据(CN,SNP,表达谱等),有不同的流程HWEχ2检验:筛选符合Hardy-Weinberg平衡的位点(只针对SNP数据)χ2test/Fisher’sexacttest/t-test:筛选显著差异的位点KNN:交叉验证PCA/MCA:主成分分析RandomForestSVMANNGeneticAlgorithm:用于降维以及提高预测准确率三种机器智能学习算法,用于建模和预测孤独症GWAS研究实例数据:567套GEOGSE9222数据集为孤独症(ASD)样本;270套AffymetrixMapping500KHapMapGenotype数据集作为对照已解决的GWAS难题:–样本种群差异导致的系统误差–预测子的显著性排序(传统的按卡方检验P值排序不可靠)–适用于连续变量和不连续变量的统计学模型–遗传算法的局部收敛问题结果:得到由37个SNP组成的一个标志谱,对437个独立样本的预测准确率为92%Manhattan基因组视图显著结果假阳性和阳性结果的基因型密度分布图种群差异所致假阳性阳性主成分分析(PCA)和ROC曲线对独立样本的预测准确率为91.53%交叉验证的准确率为95.75%PNTPTNFPFNSensitivitySpecificityAcCCModelingResult20020019319010796.5%95%95.75%0.9151PredictionResult367703356553291.28%92.86%91.53%0.7426线下面积为0.9558Shietal.,submittedRNA高通量测序microRNA分析mRNA分析microRNA测序项目分析目标完成高通量测序数据的预处理和标准化鉴定出物种特异的miRNA和物种间保守的miRNAmiRNA:*miRNA双链体的鉴定miRNAclusters的鉴定系统发生学方法基于miRNA研究物种进化microRNA分析路线原始reads数据去除低质量序列、接头序列、重复序列Mapping参考基因组跟据比对情况调整匹配容忍度匹配序列不匹配序列可能的miRNAreads符合结构特征的miRNA前体物种间保守的miRNA不放弃由于基因组不兼容性而遗漏的目标搜索miRBase13.0全基因组发夹结构搜索位置和自由能筛选高可信度miRNA前体物种特异的新的miRNA保守的miRNAmiRNA比对筛除假的pre-miRNA物种特异的编码成熟miRNA的基因miRNA的表达筛选最合适的参考物种拓展分析关键问题及解决方案近似参考基因组mapping造成有用信息流失可能会有更多的不匹配序列应对策略:根据进化关系和注释完整程度挑选参考基因组按照不同域值调试匹配容忍度获取最佳参数不匹配序列是否位于miRNA的种子区域增加不匹配序列的miRBase搜索降低假阴性物种间比较提高准确性和确定功能重要的miRNAs拓展分析miRNA表达谱聚类分析以及进化分析(例图)miRNA的靶标预测和功能分析–需定制分析策略与mRNA表达数据的整合–构建miRNA-mRNA调控网络–miRNA前体预测miRNA数据库全面而系统的本地化miRNA数据库–SangermiRBase–UCSCTargetScanStrack–TarBase,约1300个实验验证的miRNA-mRNA作用关系,Papadopoulosetal.NAR2009.–miRecords,约1135个实验验证的miRNA-mRNA作用关系,Xiaoetal.NAR2009.–MirZ,从线虫到人的多物种miRNA表达数据库,Hausseretal.NAR2009.基于数据库可以进行系统全面的表达调控检索多套多物种的3’UTR序列数据库miRNA靶标预测平台结合序列互补、保守性、自由能等–TargetScan5.0–PicTar–DIANA-microT3.0–PITA–HOCTAR结合基因或蛋白质表达谱等–Bayeslearning策略:有配套数据多种算法联合单一算法单一数据库miRNA-靶标相互作用网络基于表达负相关的miRNA-targetnetwork–miRNAco-target–Multipletargets–miRNAclustersmiRNA-TFRegulatoryCircuits表达谱芯片分析系统(GEAVS)生数据标准化(Rawdatanormalization)芯片质量控制(Qualitycontrol)差异表达分析(DEGanalysis)聚类分析(Clustering)基因注释(GO/pathwayannotation)富集分析(Enrichmentanalysis)全基因组表达谱视图(Genomebasedvisualization)基因网络/相互作用分析(Network/Interactionanalysis)异质和异源数据整合分析(Integrativeanalysis)双通道芯片质量控制差异表达分析统计学方法LimmaSAMT-testFisher’sexacttest……聚类分析Hierarchicalclustering(heatmap)SOMclusteringK-meansclustering基因GeneOntology(GO)注释GO:0050896response_to_stimulusCOL6A3overCOL6A3GO:0050896response_to_stimulusHADHAoverHADHAGO:0050896response_to_stimulusHSPA5overHSPA5GO:0043933macromolecular_complex_subunit_organizationHBA-A2underHBA-A2GO:0032502developmental_processHBA-A2underHBA-A2GO:0032502developmental_processCSRP3overCSRP3GO:0032501multicellular_organismal_processHBA-A2underHBA-A2GO:0032501multicellular_organismal_processCSRP3overCSRP3信号通路注释信号通路数据库KEGGBioCartaGenMappReactome……表达谱芯片分析系统(GEAVS)生数据标准化(Rawdatanormalization)芯片质量控制(Qualitycontrol)差异表达分析(DEGanalysis)聚类分析(Clustering)基因注释(GO/pathwayannotation)富集分析(Enrichmentanalysis)全基因组表达谱视图(Genomebasedvisualization)基因网络/相互作用分析(Network/Interactionanalysis)异质和异源数据整合分析(Integrativeanalysis)富集分析基于统计学检验的case/control高通量分析方法揭示生物学样本(case相对于control)中被显著激活或显著抑制的功能应用于各种数据库,与翔可以提供对GO、KEGG、BioCarta、疾病相关基因、肿瘤相关基因模块等数据库进行富集分析。富集分析方法定性富集分析:只考虑差异表达的性质(即显著表达上调或者下调),不考虑差异表达的倍数;代表分析方法为Fisher’sexacttest;定量富集分析:同时结合表达性质和表达量的分析方法;代表分析方法为GSEA定性富集分析GO树形图统计学检验结果定量富集分析同时提供重要蛋白列表GSEA富集分析图谱KEGG信号通路富集分析转录因子结合位点富集分析疾病富集分析表达谱芯片分析系统(GEAVS)生数据标准化(Rawdatanormalization)芯片质量控制(Qualitycontrol)差异表达分析(DEGanalysis)聚类分析(Clustering)基因注释(GO/pathwayannotation)富集分析(Enrichmentanalysis)全基因组表达谱视图(Genomebasedvisualization)基因网络/相互作用分析(Network/Interactionanalysis)异质和异源数据整合分析(Integrativeanalysis)GEAVS全基因组表达谱视图矢量图(PDF格式),可无限放大不损失分辨率按照染色体定位排列,非聚类分析结果GEAVS系统分析所得肺鳞癌(SCC)3号染色体差异表达基因表达图谱SCC肿瘤组织中,3p常见DNA缺失,3q常见DNA扩增。DNA异常影响到mRNA水平,可以观察到天然的聚类现象表达谱芯片分析系统(GEAVS)生数据标准化(Rawdatanormalization)芯片质量控制(Qualitycontrol)差异表达分析(DEGanalysis)聚类分析(Clustering)基因注释(GO/pathwayannotation)富集分析(Enrichmentanalysis)全基因组表达谱视图(Genomebasedvisualization)基因网络/相互作用分析(Network/Interactionanalysis)异质和异源数据整合分析(Integrativeanalysis)系统生物学网络分析流程生物网络构建定量数据①计算每两个基因之间的相关系数②取相关系数的阈值(threshold)③建立基因相关网络图。相关系数大于阈值的两基因存在一条边。定性数据•通过基因互作数据库搜索;文本挖掘技术;对感兴趣的基因蛋白构建网络。转录因子调控网络构建基于Transfac7.0数据库结合NCBIProteinProt

1 / 53
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功