收藏级资源|肿瘤数据库汇总现如今,随着人们生活方式和环境的改变,恶性肿瘤已经成为疾病死亡病因之一。肿瘤在全球呈现发病率增高,以及发病年龄年轻化的趋势。2019年,ACancerJournalForClinicians杂志发布了最新的数据。该报告估计,2019年美国将有1,762,450例新的癌症病例和606,888例与癌症相关的死亡。传统化疗是对抗癌症的常见方法,但它会攻击全身,造成不必要的副作用,如脱发,恶心和疲劳。靶向治疗选择性地杀死癌细胞而不影响健康组织。靶向药物开发将成为治疗癌症的重要手段。图1肿瘤靶向治疗高通量检测技术迅速发展,使得与肿瘤相关的组学数据迅速积累。这些数据对于研究肿瘤的发生发展机制具有重要意义。对数据的挖掘能够确定许多与疾病有关的基因,为治疗和发病机制的研究提供新的思路。如何有效利用和存储这些信息就显得尤为重要。肿瘤的生物信息学数据库的建立提供了有效的解决方案,对肿瘤基础研究的发展、临床治疗水平的提高具有极大的推动作用。以下是一些肿瘤相关的数据库分类和大致的信息。1.综合性肿瘤数据库2.肿瘤基因组数据库3.肿瘤DNA甲基化数据库4.肿瘤转录组数据库5.肿瘤蛋白组数据库6.肿瘤相关基因的数据库7.肿瘤与药物数据库1.综合性肿瘤数据库综合肿瘤数据库汇总如表1所示。表1综合性肿瘤数据库DatebaseDescriptioncanEvolveWebportalforintegrativeoncogenomicscBioPortalcBioPortalforCancerGenomicsCGAPCancerGenomeAnatomyProjectCGHubCancerGenomicsHubCGWBCancerGenomeWorkBenchCOSMICCatalogueOfSomaticMutationsInCancerICGCInternationalCancerGenomeConsortiumTCGATheCancerGenomeAtlasUCSCGenomeBrowserUCSCCancerGenomicsBrowser以下是对数据库的简要概述1.1canEvolve[1]canEvolve存储的信息包括:基因、microRNA(miRNA)和蛋白质表达谱、多种癌症类型的拷贝数变化(CNAs)以及蛋白质-蛋白质相互作用信息。1.2cBioPortalforCancerGenomics(cBioPortal)[2]cBioPortalforCancerGenomics是一个癌症基因组数据探索、可视化及分析平台,可用于多个癌症基因组学数据集的交互式探索。该数据库可提供CNA、基因突变信息。针对每个基因,它可给出多个信息,主要包括:基因的CAN信息、基因突变在样本中的分布、突变位点和频率、共表达基因以及生存曲线等。对于用户提供的基因列表,还可生成互作网络并提供已知的相互作用的药物。cBioPortal在发现肿瘤相关突变、分析基因的生物学功能以及药物选择等方面的研究中具有重要推进作用。图2cBioPortal数据库的主页1.3CancerGenomeAnatomyProject(CGAP)[3]CGAP网站主要提供了cDNA克隆、文库、基因表达、SNP以及基因组变异等信息。CGAP收集的数据包括正常组织、前癌组织以及癌细胞的基因表达水平。图3CGAP的主页1.4CancerGenomicsHub(CGHub)[4]CGHub是美国国家癌症研究所(NCI)测序项目的在线存储库,其数据来源包括癌症基因组图谱(TCGA)、癌症细胞系百科全书(CCLE)和产生有效治疗(目标)项目的治疗应用研究(TARGET)3个国家癌症协会项目,数据来自25种不同类型的癌症。1.5CancerGenomeWorkBench(CGWB)[5]CGWB提供了一系列工具来挖掘、整合以及可视化TCGA等数据库中的基因组和临床数据,它是第一个将临床肿瘤突变谱与参考人类基因组整合在一起的计算平台。用户可快速地比较患者临床信息与基因组的变异及甲基化等。1.6CatalogueofSomaticMutationsinCancer(COSMIC)[6]COSMIC是世界上最大最全面的有关肿瘤的体细胞突变以及其影响的资源库。它主要提供多种肿瘤细胞基因组中的CNA、甲基化、基因融合、SNP及基因表达等信息。这些突变信息是从科学文献中手工整理的。图4COSMIC的主页1.7InternationalCancerGenomeConsortium(ICGC)[7]ICGC的目标是获取包括胆道癌、膀胱癌、血癌等多达50种肿瘤及其亚型的基因组、转录组和表观遗传的全部信息。这些数据可促进癌症的机理和治疗研究。图5ICGC的主页1.8TheCancerGenomeAtlas(TCGA)[8]TCGA是由美国国立癌症研究所(NCI)和国家人类基因组研究所资助,关注与癌症的发生和发展相关的分子突变图谱。该数据库主要对样本进行外显子组和基因组测序分析,所提供的数据包括:基因组拷贝数变化、表观遗传、基因表达谱、miRNA等。图6TCGA的主页1.9UCSCCancerGenomicsBrowser[9]UCSCCancerGenomicsBrowser是一个可以对癌症基因组学和临床数据进行整合、可视化、分析的网络分析工具。它保存癌症基因组及临床数据并收集了样本的多种信息,包括基因表达水平、CNA、通路信息等。在UCSC的癌症基因组浏览器中,可实现不同样本以及癌症类型之间的比较,分析基因组变异与表型之间的相关性。图7UCSC癌症基因组浏览器主页2.肿瘤基因组数据库肿瘤细胞的基因组中都存在着大量的变异,主要包括染色体结构的变异、CNA、基因融合以及SNP等。拷贝数改变(CNAs)在很大程度上有助于癌症发病机制和进展。肿瘤基因组数据库汇总如表2所示。表2肿瘤基因组数据库DatebaseDescriptionarrayMapReferenceresourceforgenomiccopynumberimbalancesBioMutaIntegratedsequencefeaturedatabaseCanGEMCancerGEnomeMineCasSNPCopynumberalterationsofcancergenomefromSNParraydataCGPCancerGenomeProject2.1ArrayMap[10]ArrayMap提供预处理过的肿瘤基因组芯片数据以及CNA图谱。在ArrayMap数据库中,用户可搜索自己感兴趣的样本,并在此基础上分析感兴趣的基因或基因组片段上的CNA;用户还可以比较两个样本之间的CNA的差异。图8ArrayMap的主页2.2BioMuta[11]BioMuta数据库存储了癌症细胞中基因的非同义单核苷酸变异,这些突变会影响基因的正常功能。BioMuta中的数据来源于COSMIC、ClinVar、UniProtKB以及一些文献中。用户可搜索感兴趣的基因,获得该基因在癌细胞中的突变位点及其分布频率。图9BioMuta的主页2.3CancerGEnomeMine(CanGEM)[12]CanGEM是一个公共的数据库,用于存储定量微阵列数据和临床肿瘤样本数据。它主要利用ArrayCGH芯片来发掘基因的拷贝数变异。图10CanGEM的主页2.4CancerGenomeProject(CGP)[14]CGP提供了肿瘤中的CNA及基因型信息,该数据库的主要目标是利用人类基因组序列和高通量的突变检测技术识别体细胞突变,进而发现人类肿瘤发生过程中重要的基因。该数据库还提供了一些识别突变、CNA的软件,如BioView、GRAFT等。图11CGP主页3.肿瘤DNA甲基化数据库DNA甲基化修饰是表观遗传学的一种重要形式,它调节基因的转录水平,对维持细胞的正常功能起着重要作用。DNA甲基化模式的改变可能导致癌症。肿瘤DNA甲基化数据库汇总如表3所示。表3肿瘤DNA甲基化数据库DatebaseDescriptionDiseaseMethHumandiseasemethylationdatabaseMENTMethylationandexpressiondatabaseofnormalandtumortissuesMethDBCommonresourceforepigeneticphenomenonMethHCDNAmethylationandgeneexpressioninhumancancerMethyCancerHumanDNAMethylationandCancerNGSmethDBNext-generationsequencingsingle-cytosine-resolutionDNAmethylatio3.1DiseaseMeth[15]DiseaseMeth是一个人类疾病甲基化数据库,其重点是对各种疾病的DNA甲基化数据集进行有效的存储和统计分析。它涉及的疾病包括癌症、神经发育和退行性疾病、自身免疫疾病等。在DiseaseMeth中可以比较疾病与疾病之间、基因与基因之间以及疾病与基因之间的甲基化关系。图12DiseaseMeth的主页3.2MENT[16]MENT数据库收集和整合了来自GeneExpressionOmnibus(GEO)和TCGA的DNA甲基化、基因表达水平数据,同时将DNA甲基化和基因表达水平关联起来。图13MENT的主页3.3MethHCMethHC是一个集成数据库,包含大量DNA甲基化数据和mRNA/microRNA在人类癌症中的表达谱。这些数据可以帮助研究人员确定表观遗传模式。图14MethHC的数据生成流程[17]3.4MethyCancer[18]该数据库拥有来自公共资源的高度整合的DNA甲基化数据、癌症相关基因、突变和癌症信息,以及我们大规模测序得到的CpGIsland(CGI)克隆。MethyCancer可用于研究DNA甲基化、基因表达与癌症的相互作用。图15MethyCancer的主页除了上述针对癌症基因组甲基化的数据库外,还有一些数据库搜集和整理更为广泛的甲基化数据,如MethDB和NGSmethDB。MethDB是较早的DNA甲基化数据库,主要集中于环境因子对甲基化的影响;NGSmethDB叫基于高通量测序数据,最近更新中还包含了SNP信息,以便后续分析。4.肿瘤转录组数据库肿瘤细胞具有较强的生长和繁殖能力,生命活动旺盛,因此与正常细胞相比,基因的转录水平和模式也存在较大的差异。表4肿瘤转录组数据库DatebaseDescriptionArrayExpressMicroarraygeneexpressiondataChiTaRSChimerictranscriptsandRNA-sequencingdataGEOGeneExpressionOmnibusmiRCancerMicroRNAcancerassociationdatabaseOncomineCancermicroarraydatabaseOncomiRDBExperimentallyverifiedoncogenicandtumor-suppressivemicroRNAsSomamiRSomaticmutationsimpactingmicroRNAfunctionincancer4.1ArrayExpress[19]ArrayExpress是基于微阵列和高通量测序(HTS)的功能基因组实验的主要知识库之一。ArrayExpress中的所有数据都以MAGE-TAB格式提供。图16ArrayExpress的主页4.2ChiTaRS[20]ChiTaRS数据库包含嵌合转录本和RNA-Seq数据。ChiTaRS嵌合转录本和RNA-Seq数据数据库是由GenBank、ChimerDB、dbCRID、TICdb和其他用于人类、小鼠和苍蝇的数据库的表达序列标记(ESTs)和mRNA识别的嵌合转录本集合。图17ChiTaRS的主页4.3GeneExpression