36·ChinaDigitalMedicine,Eec.2015,Vol.10,No.8时空大数据分析技术在传染病预测预警中的应用屈晓晖①袁武*袁文②胡建平①孟群①摘要建立在泛在网络与空间信息技术之上的时空大数据为传染病预测预警提供了新的数据获取渠道和先进的数据处理方法,能够突破传统预测方法的局限,达到快速、及时、动态预测预警的目的,从而有效提高疫情防控的效率和效果。结合大数据技术原理,针对传染病疫情发生时蕴含在泛在网络中海量的时空信息,利用时空语义关联信息获取技术、时空信息处理及存储技术以及基于自然语义的文本时空动态分析技术,构建一种基于泛在网络的全方位、多视角、多层次、深入快捷的传染病疫情信息立体获取途径,与直报系统互补,为提高传染病疫情的预测预警及防控能力提供了一种新的技术和手段。关键词 时空大数据传染病预测预警泛在网络Doi:10.3969/j.issn.1673-7571.2015.08.012[中图分类号]R183;TP391[文献标识码]AApplicationofSpatio-temporalBigDataAnalysisTechnologiesinForecastingandEarlyWarningofInfectiousDiseases/QUXiao-hui,YUANWu,YUANWen,etal//ChinaDigitalMedicine.-201510(8):36to39AbstractTechnologiesofspatio-temporalbigdatabasedonubiquitousnetworkandspatialinformationtechnologyprovideanewwaytogetdataandanadvancedmethodtoprocessdata,whichcouldbreakthroughthelimitationsoftraditionalpredictionmethodtoachieverapid,timelyanddynamicforecastingandearlywarningsoastoeffectivelyimprovetheefficiencyandeffectofepidemicpreventionandcontroltoprovideabroadapplicationprospects.Withthetheoryofbigdataandsometechnologiessuchasspatio-temporalsemanticsassociatedinformationretrieval,handling,storageandthenaturalsemanticbasedspatio-temporaldynamicanalysisofthetext,weexploreaspeedily,comprehensive,multi-perspective,multi-levelandthree-dimensionalaccessingapproachtoimprovethepreventionandcontrolabilityforthemonitoringandearlywarningofinfectiousdiseasesepidemicsituation.Keywordsspatio-temporalbigdata,infectiousdiseases,predictionandearlywarning,ubiquitousnetworkCorrespondingauthorComputerSchool,BeijingInstituteofTechnology,Beijing100081,P.R.C.1引言传染病预测预警是根据传染病的发生、发展规律及有关因素,利用各种模型或算法对传染病的发生、发展做出预测,进而对传染病的流行趋势及影响范围进行预警。它是疾病预防控制中的一项重要工作,对提高传染病防控的针对性、预见性和主动性,以及制定卫生决策都具有十分重要的意义。我国自上世纪80年代开始对传染病的预测预警方法进行研究,在过去几十年传染病防治工作已取得很大成绩[1]。然而目前为止,多限于理论研究和模型建立,对传染病预测预警方法及实践应用尚未有深入探讨[2],尤其利用信息系统进行直观自动精准的预测预警更为少见。传统的预测方法在准确性和敏感性方面的缺陷,以及难以获取基于个体的时间和空间定位问题,已难以满足当今传染病防控工作的需要。近年来,新的技术和计算模式层出不穷,云计算、大数据、物联网和移动互联网等新技术的出现使具有空间位置的自然环境与社会经济数据呈现快速增长态势,从而形成海量的时空数据集,大数据时代的来临使大数据技术成为各行业不可*通讯作者:北京理工大学计算机学院,100081,北京市海淀区中关村南大街5号①国家卫生计生委统计信息中心,100038,北京市西城区北礼士路甲38号②中国科学院地理科学与资源研究所,100101,北京市朝阳区大屯路甲11号信息化论坛InformationForum拜耳医疗保健支持——利用信息技术改进医疗服务《中国数字医学》2015年第10卷第8期·37规避的研究热点,而大数据技术的核心就是预测,这对传染病预测预警工作无疑是一把利器。如何利用这把利器,使之在传染病预测预警工作中发挥有效作用,是本文探讨的首要目的。2时空大数据2.1时空大数据的概念、技术与特点时间和空间是现实世界最基本最重要的属性,有研究表明,现实世界中的数据超过80%与地理位置有关[3]。在我国,遥感和地理信息系统技术的发展经历了四十余年历程,随着对地观测技术在精度和频度上的不断提高,具有空间位置的自然环境和社会经济数据在近几年呈现出快速增长态势,多年的积累已形成海量时空数据集和时空大数据[4]。针对时空大数据,目前业内尚无明确定义,但可以在大数据的定义上冠以时空维度来简单理解为,时空大数据就是具有空间位置和时间序列特征的规模巨大到无法透过传统软件工具在合理时间内达到抓取、管理和处理的大型数据集。时空大数据包含空间、时间、专题属性三维信息,具有多源、海量、更新快速的综合特点。而时空大数据技术则是空间信息技术与大数据技术的结合。2.2时空大数据技术颠覆传统的预测预警模式时间和空间信息对传染病的预测预警具有重要意义,因为传染病的发生、发展、时空分布与地理地貌、生态景观、人文环境有密切关系[5]。特别在全球气候变化和经济全球化背景下,自然环境及人类社会活动对传染病病原体-宿主交互作用的影响越来越重要。“3S(RS、GIS、GPS)”技术的发展与应用,成为从时间和空间上跟踪、监测传染病蔓延、传播的重要手段,尤其是涉及大范围、多因素的动态研究,多源、多时相、多尺度的空间数据就更能体现出其独特优势。时空大数据技术的发展,使得传染病预测预警方式由过去的手工、单一、静态、以定性为主的监测分析方法,发展为多时相、多因素、时空结合、定性定量相结合的综合监测分析方式。时空大数据技术的应用能够突破传统预测方法的局限,达到快速、及时、动态预测预警的目的,从而有效提高疫情防控的效率和效果。3应用时空大数据进行传染病预测预警利用时空大数据进行传染病预测预警是时间、空间信息和传染病疫情信息的多维搜索。检索、处理和分析这些与空间位置有关的疫情信息是利用时空大数据实现传染病预测预警的关键,这里需要解决一些关键技术问题。3.1关键技术分析3.1.1传染病疫情时空信息搜索技术传染病疫情时空信息的搜索基于通用的网络爬虫技术,而通用的网络爬虫技术受到数据存储大小限制,检索服务性能不佳,且无法满足带有语义分析和数据挖掘任务的需求[6]。因此需要研发新的面向专有领域及语义分析的智能聚焦网络爬虫算法,这种算法不追求大的信息采集覆盖率,而是有选择地搜寻网络,定向抓取与传染病疫情时空信息相关的网页资源,范围涵盖国内外主要新闻网站、BBS、微信和博客等,为面向主题的用户查询准备确实有效可用的数据资源。这里需要解决三个主要问题:一是对传染病疫情信息的描述和定义,二是对网页或数据的分析与过滤,三是对URL的搜索策略。传染病疫情信息的描述和定义是决定网页分析算法与URL搜索策略如何制定的基础,而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在,这两部分的算法是紧密相关的。解决办法有两个:一是结合目标网页特征、目标数据模式和领域概念等特征描述方式,定义空间信息采集目标;二是基于网页正文内容对网页进行语义分析和主题过滤,滤除不相关网页或相关度较低的网页。前者是通过领域概念定义,建立目标领域的本体或词典,确定采集目标的基本数据集和基本特征、规则,并明确不同特征的语义相关程度。然后利用互联网已有分类体系,如Yahoo分类结构等,基于目标网页特征(包括网页内容特征和网页链接特征),采集相关网页资源,进行重组处理,使之与领域概念定义相一致,并结合领域概念特征描述,建立一定规模的互联网相关数据训练集,通过模式分类和机器学习技术确定目标数据模式。后者是结合可视正文区块卷积模型和自动模板抽取技术,建立面向新闻、论坛和微博等不同类型网页的正文自动提取技术,过滤广告链接等噪声数据,为语义分析和分类处理提供有效数据。3.1.2传染病疫情信息抽取技术信息抽取技术是指直接从自然语言文本中抽取事实信息,主要针对事件的抽取,目的是把人们感兴趣的,用自然语言描述的事件信息(涵盖社会、经济、政治、军事、文化以及自然界所发生的事件及活动)以结构要素化的形式呈现出来。其要素包括事件主体(人或物)、时间、地点、事件性质等。利用传染病本体技术建立事件模型,明确其基本要素,并采用语义要素模型描述事件的自然语言属性,结信息化论坛InformationForum拜耳医疗保健支持——利用信息技术改进医疗服务38·ChinaDigitalMedicine,Eec.2015,Vol.10,No.8合基于模板的方法与基于机器学习的方法实现信息抽取。通过传染病信息抽取技术可以获取文本中所能提供的疫情细粒度信息,这里需要解决三个问题:一是位置相关的多种自然语言表达形式(即空间定位方式,如地名、地址、邮编、电话号码、机构名称、人员姓名、建筑物名称和街道名称等);二是有效处理地名的歧义性和模糊性,如同名异地、同地异名、地名语义的相对性以及空间关系的表达;三是对未有登录地名的估计,如对于消失地名或未有收集的地名,通过文本关联分析技术获取。解决办法是:通过自然语言处理技术和知识运算(时间、空间和领域,人/物),解析出基本事件要素;根据事件要素之间的语法距离及语义关系,重构事件实例;针对各个事件要素,通过语义要素模型建立相应的自然语言结构模型,也可通过基于模板的方法并结合机器学习来实现。3.1.3传染病疫情文本分类技术传染病文本自动分类是筛选传染病疫情信息关联数据的关键步骤。文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,其主要任务是在预先给定的类别标记集合下,根据文本内容判定其类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域有着广泛应用。在信息采集阶段,文本分类主要解决判断网页是否与空间信息相关,而信息分析处理阶段需要知道其具体的子类归属。针对信息分析领域,要建立分类标准及相关体系,并根据领域知识建立相应的本体和语义要素模型;面向PU分类问题,采用半监督学习机制构建分类模型。具体方法包括:建立与语义要素相适应的文本表示模型,减少冗余特征,降低特征空间维数;引入基于语义要素相关度卷积的特征加权方法,考虑语义要素之间的语法结构和编辑距离,提高文本分类的准确性;结合领域概念特征描述,通过网络爬虫建立一定规模的互联网相关数据训练集,通过分类学习算法确定分类模型。文本分类和信息抽取技术都是建立在自然语言处理技术之上,其中,分词技术是最关键的部分。为提高系统处理效能,所涉及到的其他关键技术包括新型语义要素模型技术和新型高效汉字词典管理技术。前者是用来构建面向主题的语义要素模型和构建面向语义要素的汉字词分类及要素结构分析技术