新技术应用专栏XINJISHUYINGYONGZHUANLAN296①卫生部统计信息中心,北京市,100044②《中国卫生信息管理杂志》社,北京市,100005③中国卫生信息学会,北京市,100191作者简介:周光华(1985),男,硕士学位;研究方向:卫生信息管理;E-mail:zhough@moh.gov.cn通讯作者:李岳峰(1968),男,博士学位,副研究员,卫生部统计信息中心综合办公室主任;研究方向:卫生统计与信息管理,卫生经济;E-mail:liyf@moh.gov.cn△通讯作者周光华①辛英①张雅洁②胡婷③李岳峰①△文章编号:1672-5166(2013)04-0296-06中图分类号:R-37文献标志码:A摘要关键词StudyonBigData’sApplicationsinMedicalandHealthFieldZhouGuanghua,XinYing,ZhangYajie,HuTing,LiYuefengCenterforStatisticsandInformationofMinistryofHealthofthePeople’sRepublicofChina,Beijing100044,ChinaAbstractHealthinformationtechnologyhasdevelopedrapidlyinrecentyears,themedicalandhealthfieldisinevitablyjoinedthebigdataera.Inthispaper,theconceptandcharacteristicsofbigdatatechnologyisdescribed,theapplicationsofbigdatainvarioussectorsaresummarized,thecurrentsituationofmedicalhealthdataresourcesinChinaissummarized,combinedwiththeapplicationsituationofdomesticandforeigndatainmedicalandhealthfield,theopportunityandchallengeofChina'shealthfieldisanalyzedinthefaceofbigdataera,toprovidereferenceforthehealthadministrationandacademiccircles.KeywordsBigdata,Healthandmedical,Informationization,Application医疗卫生领域大数据应用探讨doi:10.3969/j.issn.1672-5166.2013.04.04XINJISHUYINGYONGZHUANLAN新技术应用专栏2971近年来,信息技术和互联网的快速发展,推动着卫生统计工作和部分业务服务及监管信息从手工报告向网络报告,从统计报表向个案数据报告方式转变,重要卫生信息平台和业务系统也正在建立完善,积累了丰富的统计信息大数据资源[1,2]。随着大数据(BigData)技术的兴起,提供了一种新的看待世界的方法,不再完全依赖于随机采样,不再热衷于追求精确度,不再热衷于寻找因果关系,通过大数据,分析挖掘出小数据无法提取的有价值信息,服务于经济社会发展,大数据技术被称为引领未来繁荣的三大技术变革之一[3],大数据必将对医疗卫生领域带来重大影响。2随着物联网、云计算、移动互联网、手机、平板电脑、PC以及遍布各处的各式各样传感器的涌现,数据源呈现指数级增长,信息数量及复杂程度快速扩大,从海量数据中提取信息的能力正快速成为战略性发展方向和要求。大数据可以在大规模数据的基础上挖掘分析获得新的认知、创造新的价值,并以此改变市场、组织机构,以及政府与公民关系[4]。大数据同过去海量数据的区别不仅仅在于数据量大[5,6],更在于数据类型繁多[7]、价值密度低[8]、处理速度要求快[9]和时效性要求高[10],大数据与传统数据挖掘有着本质的不同。目前大数据技术在经济、金融、农业、交通和科研等领域都有广泛应用。在经济和商业领域,互联网新闻中影响制造业的480项经济数据,被用于构建经济预测指标,分析经济发展趋势。印第安纳大学采用心情分析工具,利用千万条网上留言预测道琼斯工业指数的变化。购物网站的顾客评论也被利用,分析企业产品销售状况[11,12]。一些企业利用大数据分析实现对采购和合理库存量的管理,通过分析网上数据了解客户需求、掌握市场动向。通过分析销售数据,能够了解到顾客购物习惯,细分顾客群体,提供个性化服务。华尔街某公司分析了3.4亿微博账户留言,分析判断买入或卖出公司股票。英国创业者与大学联手对Twitter上每天超过3亿条信息进行抽样,预测证券市场趋势[13]。根据在某网上中小企业的交易状况,财务健康和讲究诚信的企业能够被筛选出来,据此对其发放无需担保贷款。在社会安全管理领域,通过对手机数据的挖掘,可以分析实时动态的流动人口来源、出行,实时交通客流信息及拥堵情况。利用短信、微博、微信和搜索引擎,可以收集热点事件,挖掘舆情,还可以追踪造谣信息的源头。美国麻省理工学院通过对10万多人手机的通话、短信和空间位置等信息进行处理,提取人们行为的时空规律性,进行犯罪预测[14]。另外,在科学研究领域,基于密集数据分析的科学发现成为继实验科学、理论科学和计算科学之后的第四个范例,基于大数据分析的材料基因组学和合成生物学等正在兴起。在农业领域,有公司从美国气象局等数据库中获得几十年的天气数据,预测农场来年产量。交通方面也有大数据的经典应用,通过融合传感器、监控视频等设备产生的海量数据,与气象监测设备等数据相结合,提取出有效信息推送给用户。33.1医疗卫生数据资源现状近年来,我国医疗卫生领域吸纳了国内外当前先进的信息技术,信息化程度得到很大提高[1,15,16]。我国卫生统计建起了覆盖国家、省、市、县、乡、村六级的从业人员达10万人的工作网络,90余万家医疗卫生机构通过统计直报系统上报了年报及月报,建立了动态的医疗卫生机构、卫生人力等信息库,卫生资源与卫生服务利用、疾病报告与健康监测等大型数据资源库。自1993年开始,每5年在全国范围内开展的国家卫生服务调查,现已建立连续性的,覆盖全国31个省20万人口的家庭基本信息、人口基本信息、患病、就医、基本医疗卫生服务利用等200余项指标的数据库,形成了可进行时间序列分析的系列海量数据。目前,县及县以上医院基本建立了医院信息系统,20%的县及县以上医院建立起以病人为中心、以新技术应用专栏XINJISHUYINGYONGZHUANLAN298电子病历为基础的挂号、收费、处方、治疗一体化管理信息系统。全国县级新农合管理信息系统基本建成,省、市级监管平台正在逐步完善,各级新农合管理部门、经办机构、定点医疗机构以及其他相关部门间建立计算机网络联接和数据资源共享。深化医改以来,各地基本建立了基本药物监测评价管理系统,实现对各地基本药物和增补药物品种数量、采购情况、缺失的基本药物品种数量、销售价格、配备使用、补偿及报销情况的监管时,产生了大量数据资源。国家卫生综合管理信息平台是我国卫生信息资源管理的重要组成部分,实现了医疗卫生机构统计数据和各级卫生行政部门在线汇总数据,仅在当前开始运行阶段,就已采集传染病信息5千多万条、突发公共卫生事件信息20多万条、近5百万人电子健康档案数据、3百多万人新农合数据近4千万条、1千多万人的诊疗数据。北京、上海、安徽等12个省份也已建立电子健康档案资源库。另外,国家传染病与突发公共卫生事件网络直报系统的建立,实现了全国所有疾病预防控制机构、96.98%的县和县级以上医疗机构、82.21%的乡镇卫生院网络直报。国家级卫生监督信息系统建设也已启动。妇幼保健业务信息系统围绕新生儿出生登记、死亡和就诊等业务,也在逐步建立完善。这些重要的卫生信息系统运行产生的数据,就占据了我国医疗卫生领域数据总量的大部分。大数据的数据来源主要分为运营式系统阶段、用户原创内容阶段和感知式系统阶段。我国医疗卫生服务、卫生统计调查和各种医疗卫生行业信息系统产生了巨量数据,以每个CT图像含有大约150MB的数据、每个基因组序列文件大小约为750MB、每个标准病理图则接近5GB计算,乘以我国人口数量和平均寿命,那么每个社区医院或中等规模制药企业均可以生成和累积达数个TB甚至数个PB级的结构化和非结构化数据。医疗卫生“大数据”的数据资源包括医疗服务的EHRs数据,医院与医保的结算与费用数据,医学研究的学术、社会、政府数据,医疗厂商的医药、医械、临床实验数据,居民的行为与健康管理数据以及政府的人口与公共卫生数据,连同我国公共社会经济生活中网络产生的数据,构成了医疗卫生领域大数据的初期数据资源。而随着医改的不断深入,卫生统计和信息化建设得到了进一步加强,统计方法不断改进、多种信息系统广泛使用,医疗和健康数据急剧扩容并几何级增长,利用包括影像数据,病历数据、检验检查结果、诊疗费用等在内的各种数据,搭建合理先进的数据服务平台,将为广大患者、医务人员、科研人员及政府决策者提供服务和协助方面发挥主要作用。3.2医疗卫生大数据应用分析大数据应用类型主要处理模式可以分为直接处理的流处理(StreamProcessing)[17]和先存储后处理的批处理(BatchProcessing)[18]。流处理即实时处理,数据流的理论及技术研究目前是研究领域热点,很多实际系统也已开发和得到广泛应用,如Storm、Yahoo和Kafka等。批处理模式较有代表性的是MapReduce[19]编程模型。大数据的应用类型很多,特别是在医疗卫生领域实际的数据处理过程中,常常是将多种应用类型相互结合起来。目前大数据在医疗卫生领域有广为所知的应用。公共卫生部门可以通过覆盖全国的患者电子病历数据库进行全面疫情监测。5千万条美国人昀频繁检索的词条被用来对冬季流感进行更及时准确的预测。学术界整合出2003年H5N1禽流感感染风险地图,研究发行此次H7N9人类病例区域。社交网络为许多慢性病患者提供了临床症状交流和诊治经验分享平台,医生借此可获得院外临床效果统计数据。基于对人体基因的大数据分析,可以实现对症下药的个性化治疗。我国卫生统计信息发展为大数据技术在医疗卫生领域中的发展和应用提供了广阔空间。在技术层面:传统基于数据仓库的BI和数据挖掘应用可以迁移到大数据环境,结合非结构化数据的分析、挖掘,结合传感器技术产生的大量实时监测数据的分析;在业务层面:涵盖面向医生的临床辅助决策和科研,面向管理者的管理辅助决策、行业监管、绩效考核,面向居民的健康监测,面向药品研发的统计学分析、XINJISHUYINGYONGZHUANLAN新技术应用专栏299就诊行为分析等方面都大有可为。同时,国内外正趋向成熟的大数据技术研究会推动卫生统计信息步入更高的发展阶段,实现“数据+环境(产生数据的环境及其条件因素)→信息+规律(信息变化的规律性、学习效应及其总结)→知识+思想(利用知识的逻辑框架及其知识库建立)→智慧”这样一个螺旋式学习提升和价值发现过程。3.2.1大数据技术的战略意义在于对各方面医疗卫生数据进行专业化处理。如对患者甚至大众的行为和情绪的细节化测量成为可能,挖掘其症状特点、行为习惯和喜好等,找到更符合其特点或症状的药品和服务,并针对性地调整和优化。在医药研究开发部门或公司的新药研发阶段,能够通过大数据技术分析来自互联网上的公众疾病药品需求趋势,确定更为有效率的投入产出比,合理配置有限研发资源。除研发成本外,医药公司能够优化物流信息平台及管理,更快地获取回报,一般新药从研发到推向市场的时间大约为13年,使用数据分析预测则能帮助医药研发部门或企业提早将新药推向市场。3.2.22012年,我国高血压发病率接近18%,患者接近2亿,糖尿病患者约5千万,血脂异常患者1.6亿。通过健康云平台对每个居民进行智能采集健康数据,居民可以随时查阅,了解自身健