SuZhouInstituteofSystemMedicineChineseAcademicofMedicalScienceCenterofSystemMedicine组学大数据平台在肿瘤精准医疗中的应用秦晓峰中国医学科学院医学生物信息大数据中心苏州系统医学研究所医疗行业产生大量数据非结构化文本病案记录检查报告手术记录病历报告图像照片等二维图像病理学切片扫描CT、MRI等三维图像电生理数据无创脑电图术中脑电监护SEEG结构化文本病案首页医嘱视频显微镜视频信号内镜视频信号24小时脑电检测视频组学数据微生物组基因组代谢组蛋白组表型组临床数据来源和分析•临床数据来源:年龄性别过敏情况药物测试疾病详情家族史药物接受和排斥曾使用剂量水平生存率诊断测试手术•临床数据分析:生存分析预测组学数据来源和分析全基因组全外显子组/靶向测序转录组mRNA测序甲基化组学测序ChiP-seq测序小插入/缺失点突变拷贝数变异结构变异差异分析融合基因可变剪切RNA编辑甲基化位点组蛋白修身转录因子结合位点突变的功效分析功能,网络和通路分析整合分析理解病理机制并应用于临床技术数据分析数据整合及解读患者蛋白质组学磷酸化组学差异分析磷酸化位点分析新生/新肽段分析16srDNA测序,宏基因组测序其他微生物组学物种及功能组成物种差异分析功能差异分析与疾病的关联分析宏基因组深度挖掘挖掘组间物种、功能差异样品聚类分析(肠型)拷贝数变异:挖掘功能变化从宏基因组数据中组装单菌菌群、表型、临床数据关联分析耐药基因挖掘CAG/MGS/MLG分析:从种或菌株层级挖掘物种变化多组学联合分析微生物组在肿瘤免疫治疗中的应用•期刊:Science•发表时间:2017.11•实验设计:249名接受过抗PD-1免疫疗法的肺癌、肾癌等多种不同的癌症;免疫治疗前69名患者接受了抗生素的治疗;•研究技术:粪便宏基因组测序•验证:无菌小鼠FMT(粪菌移植)验证;•结果:1)抗生素治疗的患者,癌症很快出现复发,生存时间也更短;2)恢复较好的患者体内,Akkermansiamuciniphila的益生菌丰度更高,对癌症免疫疗法还有促进作用;3)接受了“起效者”粪便的小鼠对于PD-1抑制剂的反应要明显优于接受了“无效者”粪便的小鼠,后者在口服Akkermansiamuciniphila后,能恢复对免疫疗法的反应。医生目前面临决策的信息维度大大增加HawgoodS,Hook-BarnardIG,O’BrienTC,YamamotoKR.Precisionmedicine:Beyondtheinflectionpoint.Sciencetranslationalmedicine2015;7:300ps17.癌症专家助手阅读和记忆学习医疗文献、临床指导和医学指南将病人和临床试验方案进行匹配持续不断的学习从不断增加的病人的组学数据和临床数据中不断学习依据最新用药指导推荐潜在的治疗选择方案Watson医生•由IBM公司开发•人工智能系统•询问病人的病征、病史•人工智能技术•自然语言的处理和分析技术•从各个渠道搜集到的信息和数据•迅速给出诊断提示和治疗意见针对个人进行纵向密集数据收集可以揭示分子疾病标志物•前瞻性•108个人•全基因组测序分析•临床检测分析•蛋白质组学分析•代谢组学分析•微生物群落分析(对16SrRNA进行测序)•参与者配戴活动跟踪器监测日常活动•创立相关性网络•关联分析•鉴定已知和候选标志物•Meta分析PriceND,MagisAT,EarlsJC,etal.Awellnessstudyof108individualsusingpersonal,dense,dynamicdataclouds[J].NatureBiotechnology,2017,35(8):747.在癌症治疗中的联合用药•不同癌症分期的医学研究•基因和分子诊断•肿瘤信息学•传统中药•数学分析•治疗毒性评价•个性化用药利用深度学习和关联规则挖掘预抗癌药物反应•数据来源:药物基因组689个癌症细胞系和139种抗癌药物。来自CCLP和GDSC.•规则关联挖掘•深度学习•预测药物反应深度挖掘数据中心检测方案数据资源库(DataBase)数据分析平台(PipeLine)知识库(KnowledgeBase)精准医疗平台(组学数据+临床数据)•荧光定量PCR、基因芯片、SNP分型、二代测序组学大数据平台与精准医疗用药指导药物推荐联合用药指导药物不良反应评估辅助诊疗预测生存期发现新疗法治疗方案预后方案辅助科研致病基因肠道菌群药物代谢/靶标肿瘤驱动基因临床数据年龄性别过敏情况药物测试疾病详情家族史药物接受和排斥曾使用剂量水平生存率诊断测试手术组学检测数据基因组转录组蛋白组代谢组表观组微生物组暴露组临床数据数据脱敏标准化结构化Pipleline组学数据分析注释整合公共数据库整合TCGAICGCGOKEGGParmGKBGEODO数据库知识库深度学习数据模型知识图谱文献收集临床指南诊断路径用药指导组学大数据平台在肿瘤精准医疗中的应用医院业务数据非结构化电子病历外部文件HIS系统EMR系统LIS系统…..系统PACS系统医院业务系统及数据源医院数据中心医院数据来源数据汇聚数据抽取数据整合数据关联数据存储结构化处理数据汇聚整合服务非结构化抽取服务数据转换清洗与标准化服务数据比对数据清洗标准化处理医院标准化数据中心备份库(ODS)临床主题库经营主题库管理主题库……主题库非标准化临床数据中心A病种标准主题库B病种标准主题库…….标准主题库专题统计库专题分析库专题应用库标准化数据中心医院级临床数据智能采集系统统计分析可视化呈现搜索导航深度挖掘互联互通常规共享应用服务专题应用定制服务……深度挖掘分析服务医疗大数据应用服务医疗大数据来源左侧中央型肺鳞癌并纵膈淋巴结转移原发性支气管肺癌左上肺中央型肺癌1234左肺小细胞癌广泛期原发性支气管肺癌左下肺腺癌例如:左侧中央型肺鳞癌并纵膈淋巴结转移1.诊断名称:肺癌2.部位分型:中央型3.病理类型:鳞癌4.病灶部位:左侧5.转移部位:纵膈淋巴结将不同描述的诊断转化成统一的标准化诊断,并且保留诊断中的重要信息。医学术语标准化患者不慎摔伤,伤后神志不清约30余秒,后可唤醒,体温正常(36.5℃),感头痛明显,左侧鼻腔内有少量鼻血。于我院行腹部B超及胸片,未见明显异常。入院体格检查:肠鸣音正常,约4次/分。现有电子病历检查描述指标名称结果摔伤有神志不清30余秒体温36.5℃头痛明显左侧鼻腔少量流血腹部B超未见明显异常胸片未见明显异常处理后的结构化检查描述将自然语言描述的电子病历转化成结构化、标准化的电子病历临床数据结构化覆盖各种可能的组学组学数据•基因组学数据•转录组学数据•蛋白组学数据•表型组学数据•代谢组学数据•微生物组学数据•……组学数据格式fasta/fastq/vcf/sam/bam/gff3/gff2/gtf/bed/…MetabolicNetworksRepli-SeqSystermsBiologyPhenomicsChlp-SeqDNA-SeqRNA-SeqExome-SeqSmallRNA-SeqPopulationGeneticsMicroarrayGWASMetagenomicsProteomics组学数据来源•荧光定量PCR•基因芯片•SNP分型•二代测序•……检测组学数据汇集组学数据来源•TCGA癌症基因信息的数据库•TGDB肿瘤基因数据库•ICGC国际癌症基因组联盟•Oncomine肿瘤基因芯片数据库•CGAP癌症基因数据库•MethylCancerDNA甲基化与癌症数据库•……•NCBI美国国家生物技术信息中心美国国家健康研究所、国家医学图书馆•EBI欧洲生物信息研究所欧洲分子生物学实验室•DDBJ日本DNA数据库•日本研究机构•BIGD生命与健康大数据中心北京科学院北京基因研究所•……综合数据库肿瘤相关数据库组学数据分析处理流程用药指导药物推荐联合用药指导药物不良反应评估辅助诊疗预测生存期发现新疗法治疗方案预后方案辅助科研致病基因肠道菌群药物代谢/靶标肿瘤驱动基因临床数据年龄性别过敏情况药物测试疾病详情家族史药物接受和排斥曾使用剂量水平生存率诊断测试手术组学检测数据基因组转录组蛋白组代谢组表观组微生物组暴露组临床数据数据脱敏标准化结构化Pipleline组学数据分析注释整合公共数据库整合TCGAICGCGOKEGGParmGKBGEODO数据库知识库深度学习数据模型知识图谱文献收集临床指南诊断路径用药指导组学大数据平台在肿瘤精准医疗中的应用辅助诊疗医生初步检查根据类似患者信息,精确匹配最佳诊疗方案,快速诊断、准确用药、提高诊疗水平。最佳诊疗方案推荐辅助诊疗•预测生存期•发现新疗法•治疗方案•预后方案病历系统疾病知识图谱疾病病史检验用药症状预后组学诊疗“统计关联网络”病史采集患者候选疾病:患病概率高于阈值诊断模型主诉:XXX现病史:XXX家族史:患病概率低于阈值推荐采集更多信息辅助诊断动态辅助诊断确诊检测系统•致病基因•肠道菌群•药物代谢/靶标•肿瘤驱动基因辅助科研疾病医生患者药品表型—药效关系药品研发改进疾病史分析用药效果分析治疗效果分析合理用药疾病医生患者药品表型—药效关系药品研发改进疾病史分析用药效果分析治疗效果分析合理用药•药物推荐•联合用药指导•药物不良反应评估用药指导深度挖掘数据中心检测方案数据资源库(DataBase)数据分析平台(PipeLine)知识库(KnowledgeBase)精准医疗平台(组学数据+临床数据)•荧光定量PCR、基因芯片、SNP分型、二代测序组学大数据平台与精准医疗乳腺癌组学数据分析与可视化平台BCIP建立了以基因为中心的乳腺癌数据分析平台。分析处理了来自TCGA、metabric、GEO三大数据库中的30个数据集的数据,包含9000多个组织样本。样本的临床数据包括癌症分型、分期、是否绝经、预后、ER+/-、PR+/-、Her2+/-、P53突变、年龄等。方便生物医学工作者,对关注的基因进行检索,从差异表达分析、生存分析、共表达分析、KEGG代谢通路等多个层次进行分析并可视化展示。辅助识别乳腺癌的调控和驱动基因,找到乳腺癌研究和治疗的潜在的生物标志物。平台简介网址:文章:BCIP:agene-centeredplatformforidentifyingpotentialregulatorygenesinbreastcancer[J].ScientificReports,2017,7.DOI:doi:10.1038/srep45235影响因子:4.259PMID:28327601案例成果文章发表于2017年ScientificReports乳腺癌数据库平台网站•15个临床特征•三阴/非三阴型•PAM50型•组织学分级•病理分期•转移状态•淋巴结转移•ER+/-•PR+/-•Her2+/-•TP53突变•是否绝绝经•年龄•肿瘤大小•疗效•预后临床特征抽提生存分析•MELK的过量表达与较差预后相关•表明MELK与基底样乳腺癌相关拷贝数变化•在METABRIC数据集PAM50亚型中拷贝数减少和增加的百分比情况差异表达分析•肿瘤组织相比于周围正常组织,MELK的表达量要高出许多•PAM50型乳腺癌中的基底样乳腺癌,MELK的表达量最高。共表达分析•分析MELK影响基底样乳腺癌的机理•在基底样乳腺癌的METABRIC数据集中,MELK与包括CDCA5,TPX2和CEP55在内的78个基因共表达。•一些研究已经阐述了TPX2和CEP55是参与乳腺癌转移、侵袭、增殖和扩散的关键分子。CDCA5也被报道在肺癌中起关键作用,并可作为口腔鳞细胞癌的治疗靶点。•这些结果都可以作为挖掘MELK在乳腺癌中的潜在功能和机制的有用线索。•肿瘤组织相比于周围正常组织,MELK的表达量要高出许多miRNA靶相互作用分析•发现hsa-miR-193b-3pandhsa-miR-372-5p与miRNA靶相互作用有关KEGG通路