TCGA数据库介绍专题上海尔云-云生信团队2015.9.20前言2.数据产生历程5.目前已有的癌症种类3.barcode4.Datatypesanddatalevels6.数据下载解读目录前言01癌症种类丰富,样本量大34kindsofcancer325samplesonaverage数据产生历程02数据的产生历程:1.组织样本和临床数据来源网站(TSS)收集的数据发送到Biospecimen核心资源(BCRs)。2.BCRs提交临床数据和元数据到数据协调中心(DCC)和测序中心(GSCs),获取组织变异数据,然后提交给DCC。3.GSCs提交跟踪文件,序列比对后文件到癌症基因组学中心(CGHub)。4.提交给DCC和CGHub的数据可供研究团队和基因组数据分析中心(GDACs)使用。5.分析pipeline以及由GDACs产生的数据结果通过DCC保存到研究社区(community)中。解读03详细请见:://单个样本的低级数据Notnormalized未标准化2ProcessedNormalizedsinglesampledata标准化的单个样本Interpretedforpresenceorabsenceofspecificmolecularabnormalities解释异常的个体3Segmented/InterpretedAggregateofprocesseddatafromsinglesample单个样本整合在了一起Groupedbyprobedlocitoformlargercontiguousregions(insomecases)根据probe的位置分组4Summary/RegionsofInterest(ROI)Quantifiedassociationacrossclassesofsamples量化关联类的样本Associationsbasedontwoormore两个或多个的关联Molecularabnormalities分子水平的异常Samplecharacteristics样本特性Clinicalvariables临床变异DATALEVLES注意:低水平的测序数据存储在CGHub申请下载时需要DUNSnumber.TheCancerGenomicsHub(CGHub)isasecurerepositoryforstoring,cataloging,andaccessingcancergenomesequences,alignments,andmutationinformationfromtheCancerGenomeAtlas(TCGA)consortiumandrelatedprojects.目前已有的癌症种类05癌症种类丰富,样本量大34kindsofcancer325samplesonaverage详细见:TCGApublicationguideline,数据下载及解读06最简单的方法:第1封邮件通知下载申请已经提交第2封给出下载链接Step4Step4文件内容File_manifest.txt,对所下载文件的说明临床数据解读CDE:CommonDataElements://