2014年7月28日星期一区域卫生大数据分析利用黄晓琴博士1华为区域卫生大数据分析解决方案案例共享3区域卫生大数据分析概述12目录2区域卫生信息平台的特性标准化互联互通数据中心3区域卫生信息平台核心数据居民体检信息诊疗收费信息检验检查信息临床诊疗信息疾病管理信息预防保健信息患者基本信息卫生人力信息卫生资源信息4区域卫生大数据分析洞察难题数据可信度到底有多高?是否能为卫生管理者制定政策提供决策依据?为医生/公卫工作者提供服务?为居民健康提供支撑?21分级存储统一管理互为备份3数据质量数据建模优化模型评估异构数据数据清洗数据标准化5区域卫生大数据分析IT挑战—云计算架构传统IT架构云计算架构高投入难维护可扩展性弱高效的管理可拓展性强易维护低适应海量6区域卫生大数据分析与价值区域卫生大数据分析提高管理效率:综合临床和运营相关的有价值的数据提高医疗服务质量:使得临床策支持系统更为智能的为诊疗提供支持。如药品不良反应、过度使用抗生素等的提醒提高临床科研效率:如采用大数据进行比较效益研究,评价不同质量方案对患者的疗效差异医疗大数据分析带来的价值临床指导(临床路径优化)1卫生决策分析2疾病预防控制(流行病分析)3公众健康服务(区域医务管理)4科研分析(新药研究)5医学经研究(诊疗费用分析)6降低医疗成本:利用患者疾病、诊断、用药、治疗、疗效和费用数据,基于成本-效益分析模型7目录华为区域卫生大数据分析解决方案案例共享3区域卫生大数据分析概述218区域卫生大数据分析的关键技术数据获取DataCollect数据存查UserProfile客户洞察UserInsight客户ProfileUserProfile业务分析应用DataFarm多数据源分布式收集实时清洗数据驱动实时响应不同主题插件框架应用解耦特征管理、模型管理并行计算平台迭代计算平台文本挖掘深度学习机器算法自然语言基础特征网络特征文本特征多源数据可视知识图谱展示高可靠性高扩展性数据安全实时查询复杂关联存储利用率医院、社区、公卫健康档案、电子病历行为分析用户刻画业务主题分析基础数据层(只读)标签客户视图全量数据分析处理标签(批更新)数据操作(主题)--数据服务洞察临床操作付款/定价科研研发新的商业模式公众健康DW/DM数据导入导出工具Web服务器Flume业务系统流处理(可读写)结构化数据诊疗、检查非结构化数据影像、日志…9区域卫生大数据分析挖掘平台系统架构数据交换中心数据仓库业务数据临床诊疗、疾病管理、区域协同….LoaderHDFSZookperHive/Phoenix机器学习算法库(聚类、分类、回归、文本分析、图分析)FusionInsightHadoop特征工程(医疗行业特征库)分析建模(医疗行业)特征管理医疗大数据应用(App)SparkYarnMapReduceHBaseOozie特征选取规则管理建模分析部署与调度模型生命周期管理Miner数据可视化控件临床辅助决策个体医疗临床路径优化疾病预防控制公众健康服务医疗保险卫生决策服务诊疗行为分析医疗费用分析糖尿病分析10华为FusionInsighthadoop软件架构11区域卫生大数据分析实施步骤业务理解明确业务分析需求应用效果评估应用效果评估数据采集与理解数据采集导入模型构建特征选取模型构建搭建分析环境软件硬件及分析工具102475模型评估模型评估、优化数据预处理数据预处理3模型应用挖掘分析结果展示612区域卫生大数据分析实施路径(0)—搭建分析环境搭建分析环境软件硬件及分析工具013业务理解明确业务分析需求1区域卫生大数据分析实施路径(1)—业务理解卫生管理循证决策方面临床医学方面糖尿病就诊费用分析(卫生局用)糖尿病就诊行为(医院选择)分析(卫生局用)糖尿病人群身体状况分析(社区医生)糖尿病用药等诊疗手段与疗效的分析(医院医生)从糖尿病开始分析,后续模型与方法可拓展到其他疾病(如常见疾病—上呼吸道感染,消化系统疾病等,或重大疾病—肿瘤等。总结14区域卫生大数据分析实施路径(2)—数据采集与理解数据采集与理解数据采集导入2RMDBHadoop•HDFS•HBaseSFTPServerNFSServerOtherDataSourceLoader提供与外部数据源(如数据交换中心)、HDFS文件系统之间的数据抽取、转换和加载功能提供RESTAPI接口对接第三方调度系统,方便对作业和任务进行集中管理和监控15数据预处理数据预处理3区域卫生大数据分析实施路径(3)—数据预处理数据预处理过滤不真实数据(非糖尿病患者)删除冗余属性缺省字段处理(填默认值、填平均值、删除)过滤不符合目标硬性条件的数据分类算子功能描述特征管理(数据预处理)Jion两张表的Jion操作ReplaceMissing表中缺省值和控制的替换处理ReplaceSpecialVale表中特殊值的替换处理Sort表的排序SortParallel表的排序,支持并行全排序,只支持单列Filter根据条件对数据集进行样本过滤16模型构建特征选取模型构建4区域卫生大数据分析实施路径(4)—特征提取特征管理是指将原始数据预处理后,在特征库中生成新特征及对特征进行维护的过程Miner的特征工程包括:特征管理特征选取规则管理特征管理分类算子功能描述特征管理(新增特征)SetRlole设置特征角色TransformAttributes将选取的属性按照所给枚举值生成属性GenerateID生成一个ID特征。Normalize对一个特征或者多个特征进行标准化。SelectAttributes选取一个特征或者多个特征。Samplebypercent按照比例抽取样本。SamplebyabsoluteSize按照给定的行数进行取一份样本数据集。特征选取InformationGainRatio信息增益率算子,根据数据每个特征与目标特征的相关度来计算特征权重。InformationGain特征排序SelectWeightedAttributes基于特征权重,将需要的属性选择出来。规则管理GenerateAttributes通过对特征进行数据计算、逻辑运算、字符串转换、日期转换生成一个新特征。Aggregate对一个特征或者多个特征进行聚合,或者在特征的分组上进行聚合。17模型构建特征提取模型构建4区域卫生大数据分析实施路径(4)—模型构建分析建模指选取合适的模型算法,通过特征化的训练集作为输入进行训练生成评估模型,并对准确率和识别率进行评价。Miner的分析建模包括:模型构建部署与调度模型生命周期管理18模型构建特征提取模型构建4区域卫生大数据分析实施路径(4)—模型构建案例输入验证方式输出个体基本特征、患病病情状况、不同的治疗手段及其用药、疗效等特征变量基于测试集数据由预测模型给出当前病人的治疗手段与用药建议基于测试集数据由预测模型给出当前病人的治疗手段与用药建议,和有实际疗效的糖尿病病人的治疗方式与用药情况进行比对糖尿病用药等诊疗手段与疗效的分析(医院医生)19区域卫生大数据分析实施路径(5)—模型评估5模型评估模型评估、优化根据作业运行结果,分析应用模型是否满足实际业务需求的过程。如果评估结果不理想,需要重新进行数据理解再构建模型模型准确率评估模型转化率评估业务需求评估反馈模型评估根据作业运行效果,发现结果有偏差,可通过对模型进行优化,重新构建模型进行优化,重新构建模型后再应用的过程。通过调整参数更换算子模型优化20区域卫生大数据分析实施路径(6)—模型应用模型应用挖掘分析结果展示6数据分析结果展示多维性可视性交互性21区域卫生大数据分析实施路径(7)—应用效果评估应用效果评估应用效果评估7临床辅助决策临床路径优化疾病预防控制公众健康服务医疗保险个体医疗卫生决策服务诊疗行为分析医疗费用分析糖尿病分析22华为Fusioninsighthadoop大数据产品介绍HDFS:分布式文件系统MapReduce:并行计算处理Hbase:NoSQL数据库Hive:SQL转MR处理工具Spark:迭代并行处理Impala:基于HBaseSQL查询引擎Oozie:工作流处理Zookeeper:分布式系统协同OMServer:操作维护与管理2013年ApacheHadoop开源社区最新贡献量在社区贡献的基础上,华为公司于2011年推出了企业级大数据解决方案FusionInsight。华为FusionInsight是企业级大数据存储、查询、分析的统一平台23FusionInsight:企业级大数据处理、分析挖掘平台优势运营商金融FusionInsight大企业海量存储OceanStore9000云平台FusionSphere融合一体机FusionCubeX86服务器Miner数据洞察:百万维特征管理与建模、算法并行化离/近线内存迭代实时流处理Storm•智慧全量建模,深刻洞察存储自动分级•实时在线实时处理领先的存储性能•可信全组件HA,异地容灾全分布式架构,N+M数据保护•易用数据全生命周期管理自定义Dashborad、二次开发助手大数据管理中心APIAPIAPIAPI数据服务封装大数据基础设施医疗24华为FusionInsight端到端竞争力构筑数据收集存储和计算全融合架构本地化IO提升性能快照、异步远程复制全文检索OceanStor9000采纳社区精华做企业增强SQLonHBase实时交互查询搜索引擎UserProfile分析挖掘的使能框架特征管理,模型管理Spark、Shark、MTLib文本挖掘交互式探索UserInsight联合客户孵化数据服务平台RTMQ实时流Storm生命周期管理服务治理二次开发DataFarm分布式、实时、多协议文本搜索DataCollect做大数据生命周期的加速器诺亚/香农云存储社区带动存储、云计算数据中心、电信应用等销售FusionInsight25华为大数据:数据分析和挖掘领域的顶尖人才,多项创新成果美国、香港、深圳、西安Dr.HangLi李航•中央研究院NoahArkLab首席科学家•原微软亚洲研究院主任研究员•多个国际会议领域主席•个人拥有二十多项美国发明专利Prof.QiangYang杨强•中央研究院NoahArkLab主任•世界级数据挖掘和人工智能专家•香港科技大学教授•IEEEFellow,IAPRFellowWenyuanDai戴文渊•中央研究院NoahArkLab主任研究员•负责大数据相关的计算金融、、推荐引擎、计算视觉的研究倾向预测人物画像主题提取关系估计特征管理分析自动特征构建26云及大数据解决方案—华为全系列可扩展和高可靠的IT产品中小企业/分支机构全球企业E6000BladeX6000forDC4U4S/8U8SRH5885V2RH2485V22U4SES3000SSDCardS2200TS5600TS5800TDorado2100G2N8000UDSDorado5100可扩展性/可靠性E9000Blade融合架构RH2285V2RH2288V22U2SRH1288V21U2SX8000RackServerFusionCubeFusionSphereFusionAccess微数据中心模块化数据中心集装箱数据中心云数据中心ManageOne数据中心管理S2600TFusionInsightOceanStor18000系列(HVS85T/88T)OceanStor900027目录华为区域卫生大数据分析解决方案案例共享3区域卫生大数据分析概述2128华为云计算和大数据已覆盖国内全行业客户媒资教育金融公共部门福建工商云吉林社保上海海事大学广东海事局能源&大企业凤凰卫视中央电视台广东广电新华社香港Infocast大港油田中国银行中信信托华中科技大学上海中学国家电网榆林神华沈飞集团深交所西安铁路局清远职业学院Copyright©2012HuaweiTechnologiesCo.,Ltd.AllRights