国家卫生信息共享技术及应用工程技术研究中心精准医学时代的医疗健康大数据研究与应用冯东雷博士教授级高级工程师万达信息总裁助理国家卫生信息共享工程中心执行副主任HL7China副主席,技术指导委员会TSC副主任国家卫计委卫生信息标准专业委员会专家科技部现代服务业专家中国卫生信息学会理事、卫生信息标准专委会常务委员中国医院协会信息管理专业委员会CHIMA委员中国电子学会健康物联网专家委员会专家国家卫生信息共享技术及应用工程技术研究中心精准医学与医疗健康大数据发展概况国家卫生信息共享技术及应用工程技术研究中心国家卫生信息共享技术及应用工程技术研究中心医疗服务模式面临转变国家卫生信息共享技术及应用工程技术研究中心•在大样本研究获得疾病分子机制的知识体系基础上,以生物医学特别是组学数据为依据,根据患者个体在基因型、表型、环境和生活方式等各方面的特异性,应用现代遗传学、分子影像学、生物信息学和临床医学等方法与手段,制定个性化精准预防、精准诊断和精准治疗方案。精准医学概念国家卫生信息共享技术及应用工程技术研究中心图解精准医学——精准医学与个体为中心的数据知识网络以及疾病分类关系国家卫生信息共享技术及应用工程技术研究中心•随着生命科学和生物技术研究、特别是系统生物学(各种组学)研究的广泛开展,生命科学中的“大数据”成为十分突出、引人注目的现象–难以想象的庞大数据群–人类基因组测序——30亿个DNA碱基序列,–肠道菌群的宏基因组数据——是人类基因组数据的10倍以上–人的一生基因表达的变化——基因组的信息只是人的一个遗传蓝图的信息。人的一生(怀孕、胚胎发育、出生、成长、死亡)这个蓝图的表达一直在变化,每次变化都有数据提供出来–每个个体变化的数据大科学和“大数据”——生命科学中的“大数据”国家卫生信息共享技术及应用工程技术研究中心数据结构多样价值密度多维数据规模大数据可信性数据增长快数据安全海量积累3D影像和组学数据加速医疗健康大数据指数级增长(医疗数据一个大脑的CT扫描图要让它分辨率很高,微米的数据量产生是4.5TB的数据)上海区域医疗信息平台每月的新增数据大约为100G,年增数据1.2T。便携式可穿戴医疗检测设备,实时监测产生动态数据记录型的结构化数据(EHR/EMR)纯文本或PDF格式的非结构化和半结构化文档数据DICOM格式的影像数据新型的组学数据诊疗数据质量高,错误率低要求数据处理及分析方法精准医疗数据隐私保护要求更高医疗大数据的特点国家卫生信息共享技术及应用工程技术研究中心工作基础—国家政策及各级地方政府引导2015年9月5日国务院发布了《促进大数据发展行动纲要》(国发[2015]50号)建设医疗健康管理和服务大数据应用体系,优化形成规范、共享、互信的诊疗流程。鼓励和规范有关企事业单位开展医疗健康大数据创新应用研究,构建综合健康服务应用。在健康医疗、养老服务、社会保障等领域全面推广大数据应用,利用大数据洞察民生需求,不断满足人民群众日益增长的个性化、多样化需求。2015年3月国务院发布《国务院办公厅关于印发全国医疗卫生服务体系规划纲要(2015-2020年)的通知》鼓励互联网企业与医疗机构合作建立医疗网络信息平台,充分利用大数据等手段,提高重大疾病和突发公共卫生事件防控能力。2015年7月国务院发布《国务院关于积极推进“互联网+”行动的指导意见》鼓励互联网企业与医疗机构合作建立医疗网络信息平台,充分利用大数据等手段,提高重大疾病和突发公共卫生事件防控能力。积极探索互联网延伸医嘱、电子处方等网络医疗健康服务应用。国家卫生信息共享技术及应用工程技术研究中心医疗健康大数据研究面临的问题及对策国家卫生信息共享技术及应用工程技术研究中心国家卫生信息共享技术及应用工程技术研究中心医院整体业务分解主要问题数据类型和结构复杂而多样•业务数据vs外部数据:–除了目前采集的临床和健康数据外,还将融合其他外部数据,例如体检数据、个人采集的健康数据、互联网数据、气象/环境数据、基因数据等。这些数据具有多源、异构、多粒度、可信度不同等特点。•业务数据vs知识数据:–对于大数据处理,除了目前的业务数据,还需要医疗健康知识数据。•结构化数据vs非结构化:–目前数据中心主要存储关系型数据,在大数据时代,非结构化数据越来越多。•数据库vs大数据存储:–目前数据中心主要基于关系型数据库,针对大数据,需要新型的NoSQL大数据存储,例如Hadoop等。主要问题国家卫生信息共享技术及应用工程技术研究中心医院整体业务分解主要问题从技术到业务有巨大的鸿沟•1)缺乏面向医疗健康领域的分析和挖掘算法库、模型库。–以Google流感预测为例,Google研究团队筛选了近百个模型后,才选择了目前投入使用的预测模型。因此这是一项艰巨的任务。•2)缺乏医疗健康知识库支撑。–在临床决策支持等基于医疗健康大数据的应用中,需要基于对医生输入的数据内容的理解,才能做出必要的决策支持。对于数据内容的语义处理,必须基于医疗健康知识库。主要问题国家卫生信息共享技术及应用工程技术研究中心医院整体业务分解主要问题技术本身的挑战•1)医疗健康语义知识库构建。–传统的知识库基本是非结构化和半结构化的。在医疗健康大数据分析和挖掘中,需要结构化和语义化的知识库。医疗健康是一个知识密集型领域,以SNOMED-CT为例,有几十万个概念几百万个关系。用目前纯手工的方法难以建立和维护。因此语义化的医疗健康知识库构建是一个关键技术问题。•2)非结构化数据的语义处理。–目前大部分医疗健康数据中心采集和存储的是结构化的信息。在临床中,还有大量的电子病历文书是非结构化和半结构化的。如何将这些数据结构化语义化是一个关键技术问题。•3)传统分析和挖掘技术的并行化。–传统的数据分析和挖掘算法在Hadoop的并行环境中如何高效率的执行,也是一个关键技术问题。主要问题国家卫生信息共享技术及应用工程技术研究中心医院整体业务分解传统临床研究vs基于大数据的临床研究循证医学RCT大数据利用RWS主要问题1)基于现有数据如何利用?2)基于研究需求,及现有数据,进一步应该收集哪些信息?对该问题的研究,将有可能改变临床科研范式。对传统循证医学至少是补充,甚至是颠覆——基于大数据的新型循证医学。对策——方法学国家卫生信息共享技术及应用工程技术研究中心医疗健康大数据中心架构设计医疗健康大数据数据资源目录•数据资源索引•数据索引知识模型•医疗健康知识库•医疗健康领域模型健康信息•健康物联网数据•个人健康记录PHR外部数据•体检数据医疗健康数据•EHR索引•EHR数据•EMR索引•EMR数据•医学影像索引•医学影像数据•组学数据•环境、气象、地理数据•医保、新农合、健康保险数据•互联网及社交媒体数据对策——精准医学背景下的医疗健康大数据中心架构设计业务数据全个体数据全外部数据全专科数据全国家卫生信息共享技术及应用工程技术研究中心大数据应用领域医疗健康大数据研究、分析、应用领域•生物医学大数据科研:–临床药物研究、临床诊疗方案研究、疾病预后研究、基因大数据研究、疾病负担研究……•临床大数据分析与应用:–就诊人群分析、病种分析、临床质量分析、影像特征搜索服务、临床知识库/知识图谱、临床辅助决策系统、智能分析诊疗方案、预测病情进展、疗效评估……•公共卫生大数据分析与应用:–疾病危险因素监测、疾病监测、疾病管理评估、死因分析、突发公共卫生预警……•医药大数据分析与应用:–临床药物应用分析、药品不良反应监测预警、供应链分析、药学文献数据挖掘……国家卫生信息共享技术及应用工程技术研究中心大数据应用领域医疗健康大数据应用领域•医疗保险大数据分析与应用:–医保费用异常预警、医保费用影响因素分析、医保费用预测、保险精算服务……•卫生管理大数据分析与应用:–业务量监控、医疗费用监控、医疗安全监管、绩效考核评价、医改重点政策决策支持……•基于大数据的健康服务:–个人日常健康管理档案服务、慢性病高危人群筛检、慢性病患者筛检、健康风险预测评估、健康处方制定、个性化健康管理知识推送、日常健康信息异常提醒服务、全科(家庭)医生远程健康管理、基于物联网和移动互联网的健康档案动态更新、就医辅助服务、个性化医疗……国家卫生信息共享技术及应用工程技术研究中心医疗健康大数据应用系统开发23大数据与物联网、移动互联网、云计算•大数据与物联网–健康物联网、可穿戴设备为大数据提供数据–运动、睡眠、饮食、体征……•大数据与移动互联网–移动互联网为大数据提供数据,并接收基于大数据的反馈–运动、睡眠、饮食、用药、生理周期、心理、社交……•大数据与云计算–大数据依托云平台建立、运行、使用医疗健康大数据应用领域国家卫生信息共享技术及应用工程技术研究中心万达信息医疗健康大数据工作进展国家卫生信息共享技术及应用工程技术研究中心国家卫生信息共享技术及应用工程技术研究中心工作基础上海已有医疗资源整合基础——医联工程上海申康与万达信息股份有限公司合作于2006年10月开始建设市级医院临床信息共享项目(即上海医联工程)。目前,医联工程发行1300万张医联卡,覆盖本市覆盖38家三级医院、3900万就诊人群,数据规模达150TB,数据正确率超过95%,形成国际上最大的电子健康档案信息库。获得奖项等级最高数量最多:2013年国家科技进步奖二等奖2011年上海市科学技术奖一等奖2011年中国医院协会科技创新奖一等奖2010年中国国际工业博览会银奖(计算机类最高奖项)2008年区域信息平台方案获得卫生部评比一等奖2008年上海市信息化优秀应用成果奖2011年获得科技部十一五支撑计划优秀项目团队已有工作基础国家卫生信息共享技术及应用工程技术研究中心工作基础万达区域医疗卫生信息化基础万达区域卫生信息化市场份额平均年增长率超过70%;承建的区域平台系统信息规模最大,所承建系统所服务的对象近4亿人口;目前万达的客户已经覆盖华东、华南、华中、西部、华北共计14个省、22个地市以及100多个区县,其中包含了广州、成都、武汉、西安、南京等特大型城市,累计经济效益超过10亿元。全国有代表性:上海医联工程、上海健康信息网工程、湖南、贵州、江西;技术上有代表性:广州;业务上有代表性的:佛山;区域上有代表性:华东:上海、南京、宁波、无锡,华南:广州、佛山,华中:武汉、湖南,西部:四川、成都,北方:鄂尔多斯、烟台;特大型城市:上海、广州、成都、武汉、西安、南京、宁波等;各地标杆性示范项目已有工作基础国家卫生信息共享技术及应用工程技术研究中心医院整体业务分解主要问题已有工作基础健康物联网、移动互联网区域卫生平台医疗机构上海市民健康管理云大数据第三方健康管理机构2014年12月19日,上海卫计委与万达信息签约“上海健康管理云”国家卫生信息共享技术及应用工程技术研究中心大数据服务开放平台大数据基础设施环境大数据计算支撑平台大数据资产管控平台大数据分析利用平台万达大数据整体解决方案大数据标准规范/管理体系医疗大数据分析应用系统居民个性化健康管理医生医疗卫生服务政府部门精准化卫生管理科研机构医疗科研企业大数据利用国家卫生信息共享技术及应用工程技术研究中心分布式消息队列Kafka日志文件汇聚Flume集群资源监控ganglia账户管理LDAP用户认证Kerberos列式数据库Hbase分布式文件系统HDFS批量计算MapReduce统一资源调度YARN数据挖掘DataMining数据仓库Hive流计算Streaming数据抽取工具Kettle文件上传FTPOverHDFS关系型数据库数据抽取Sqoop数据抽取数据存储与计算运行监控安全控制分布式环境实时OLTP、OLAP、batch集成Rstudio等拥有并行算法库工具内存计算SQL引擎优化消息队列Kafka分布式环境hadoop(批处理框架Map/Reduce2,协作服务Zookeeper)分布式计算框架Spark内存扩展SSDWondersManager(存储、计算、配置、安全、监控)批处理Pig机器学习Mahout工作流Oozie基于分布式计算框