软件学报ISSN1000-9825,CODENRUXUEWE-mail:jos@iscas.ac.cnJournalofSoftware,2014,25(9):1909−1936[doi:10.13328/j.cnki.jos.004645]©中国科学院软件研究所版权所有.Tel/Fax:+86-10-62562563大数据可视分析综述∗任磊1,杜一2,马帅3,张小龙4,戴国忠51(北京航空航天大学自动化科学与电气工程学院,北京100191)2(中国科学院计算机网络信息中心科学数据中心,北京100190)3(北京航空航天大学计算机学院,北京100191)4(CollegeofInformationSciencesandTechnology,PennsylvaniaStateUniversity,USA)5(人机交互北京市重点实验室(中国科学院软件研究所),北京100190)通讯作者:任磊,E-mail:renlei@buaa.edu.cn,:可视分析是大数据分析的重要方法.大数据可视分析旨在利用计算机自动化分析能力的同时,充分挖掘人对于可视化信息的认知能力优势,将人、机的各自强项进行有机融合,借助人机交互式分析方法和交互技术,辅助人们更为直观和高效地洞悉大数据背后的信息、知识与智慧.主要从可视分析领域所强调的认知、可视化、人机交互的综合视角出发,分析了支持大数据可视分析的基础理论,包括支持分析过程的认知理论、信息可视化理论、人机交互与用户界面理论.在此基础上,讨论了面向大数据主流应用的信息可视化技术——面向文本、网络(图)、时空、多维的可视化技术.同时探讨了支持可视分析的人机交互技术,包括支持可视分析过程的界面隐喻与交互组件、多尺度/多焦点/多侧面交互技术、面向Post-WIMP的自然交互技术.最后,指出了大数据可视分析领域面临的瓶颈问题与技术挑战.关键词:大数据;可视化;信息可视化;可视分析;人机交互;云计算中图法分类号:TP311中文引用格式:任磊,杜一,马帅,张小龙,戴国忠.大数据可视分析综述.软件学报,2014,25(9):1909−1936.:RenL,DuY,MaS,ZhangXL,DaiGZ.Visualanalyticstowardsbigdata.RuanJianXueBao/JournalofSoftware,2014,25(9):1909−1936(inChinese).,DUYi2,MAShuai3,ZHANGXiao-Long4,DAIGuo-Zhong51(SchoolofAutomationScienceandElectricalEngineering,BeiHangUniversity,Beijing100191,China)2(ScientificDataCenter,ComputerNetworkInformationCenter,TheChineseAcademyofSciences,Beijing100190,China)3(SchoolofComputerScienceandEngineering,BeiHangUniversity,Beijing100191,China)4(CollegeofInformationSciencesandTechnology,PennsylvaniaStateUniversity,USA)5(BeijingKeyLaboratoryofHuman-ComputerInteraction(InstituteofSoftware,TheChineseAcademyofSciences),Beijing100190,China)Correspondingauthor:RENLei,E-mail:renlei@buaa.edu.cn,:Visualanalyticsisanimportantmethodusedinbigdataanalysis.Theaimofbigdatavisualanalyticsistotakeadvantageofhuman’scognitiveabilitiesinvisualizinginformationwhileutilizingcomputer’scapabilityinautomaticanalysis.Bycombiningtheadvantagesofbothhumanandcomputers,alongwithinteractiveanalysismethodsandinteractiontechniques,bigdatavisualanalyticscan∗基金项目:国家自然科学基金(61103096);国家高技术研究发展计划(863)(2013AA041302);国家重点基础研究发展计划(973)(2014CB340300);中央高校基本科研业务基金收稿时间:2014-04-08;定稿时间:2014-05-141910JournalofSoftware软件学报Vol.25,No.9,September2014helppeopletounderstandtheinformation,knowledgeandwisdombehindbigdatadirectlyandeffectively.Thisarticleemphasizesonthecognition,visualizationandhumancomputerinteraction.Itfirstanalyzesthebasictheories,includingcognitiontheory,informationtheory,interactiontheoryanduserinterfacetheory.Basedontheanalysis,thepaperdiscussestheinformationvisualizationtechniquesusedinmainstreamapplicationsofbigdata,suchastextvisualizationtechniques,networkvisualizationtechniques,spatio-temporalvisualizationtechniquesandmulti-dimensionalvisualizationtechniques.Inaddition,itreviewstheinteractiontechniquessupportingvisualanalytics,includinginterfacemetaphorsandinteractioncomponents,multi-scale/multi-focus/multi-facetinteractiontechniques,andnaturalinteractiontechniquesfacedonPost-WIMP.Finally,itdiscussesthebottleneckproblemsandtechnicalchallengesofbigdatavisualanalytics.Keywords:bigdata;visualization;informationvisualization;visualanalytics;human-computerinteraction;cloudcomputing当前,我们的世界已经迈入大数据(bigdata)时代.随着互联网、物联网、云计算等信息技术的迅猛发展,信息技术与人类世界政治、经济、军事、科研、生活等方方面面不断交叉融合,催生了超越以往任何年代的巨量数据.遍布世界各地的各种智能移动设备、传感器、电子商务网站、社交网络每时每刻都在生成类型各异的数据.截至2012年,全世界每天产生2.5EB(2.5×1018)的数据().大数据具有4V特征,即:体量巨大(volume)、类型繁多(variety)、时效性高(velocity)以及价值高密度低(value),给人们带来了新的机遇与挑战.《Nature》于2008年出版了大数据专刊“bigdata”,专门讨论了巨量数据对于互联网、经济、环境以及生物等各方面的影响与挑战[1].《Science》也于2011年出版了如何应对数据洪流(datadeluge)的专刊“DealingwithData”[2],指出如何利用宝贵的数据资产推动人类社会的发展.如今,大数据已成为新兴的学术研究热点,并被认为是继云计算和物联网之后又一个具有革命性的信息技术.大数据分析是大数据研究领域的核心内容之一[3].Google首席经济学家、UCBerkeley大学HalVarian教授指出:“数据正在变得无处不在、触手可及;而数据创造的真正价值,在于我们能否提供进一步的稀缺的附加服务.这种增值服务就是数据分析[4].”数据的背后隐藏着信息,而信息之中蕴含着知识和智慧.大数据作为具有潜在价值的原始数据资产,只有通过深入分析才能挖掘出所需的信息、知识以及智慧.未来人们的决策将日益依赖于大数据分析的结果,而非单纯的经验和直觉.美国《时代》杂志于2012年11月指出,奥巴马的成功连任背后所依托的关键即是两年来对大数据的分析与挖掘(),例如,通过对海量选民微博的分析得出选民对总统候选人的喜好.中国移动“大云”也是根据对7亿3千万以上用户的数据进行分析,对用户偏好和关注热点等进行归类,用于改善用户体验和辅助市场决策.当前,大数据分析方法论以及支撑技术的研究成为大数据领域的核心焦点之一.通常,数据的分析过程往往离不开机器和人的相互协作与优势互补.从这一立足点出发,大数据分析的理论和方法研究可以从两个维度展开:一是从机器或计算机的角度出发,强调机器的计算能力和人工智能,以各种高性能处理算法、智能搜索与挖掘算法等为主要研究内容,例如基于Hadoop和MapReduce框架的大数据处理方法[5]以及各类面向大数据的机器学习和数据挖掘方法等,这也是目前大数据分析领域的研究主流;另一个维度从人作为分析主体和需求主体的角度出发,强调基于人机交互的、符合人的认知规律的分析方法,意图将人所具备的、机器并不擅长的认知能力融入分析过程中,这一研究分支以大数据可视分析(visualanalyticsofbigdata)[6,7]为主要代表.一幅图胜过千言万语.人类从外界获得的信息约有80%以上来自于视觉系统[8,9],当大数据以直观的可视化的图形形式展示在分析者面前时,分析者往往能够一眼洞悉数据背后隐藏的信息并转化知识以及智慧.如图1所示是互联网星际图(),将196个国家的35万个网站数据整合起来,并根据200多万个网站链接将这些星球通过关系链联系起来,每一个星球的大小根据其网站流量来决定,而星球之间的距离远近则根据链接出现的频率、强度和用户跳转时创建的链接.我们可以立即看出,Facebook以及Google是流量昀大的网站.这些“一眼”识别出的图形特征(例如异常点、相似的图形标记)在视觉上容易察觉,而通过机器计算却很难理解其涵义[10].因此,大数据可视分析是大数据分析不可或缺的重要手段和工具.事实上,在科学计算可视化领域以及传统的商业智能(businessintelligence,简称BI)领域,可视化一直是重要的方法和手段[11].然而,这些研究领域并未深入地结合人机交互的理论和技术,因此难以全面地支持可视