第37卷计算机学报Vol.372014论文在线出版号No.113CHINESEJOURNALOFCOMPUTERSOnlinePublishingNo.113————————————本课题得到国家自然科学基金(No.61272060,No.61379114);重庆市自然科学基金重点项目(No.CSTC2013jjB40003)资助.徐计,男,1979年生,博士生,高级工程师,CCF学生会员(E200012919G),主要研究领域为数据挖掘、粒计算、软件工程,E-mail:xuji1979@126.com.王国胤,男,1970年生,博士,教授,博士生导师,IEEE高级会员,CCF高级会员,主要研究领域为粗糙集,粒计算,认知计算,智能信息处理,数据挖掘,智能信息安全,E-mail:wanggy@ieee.org.于洪,女,1972年生,博士,教授,研究方向为粗糙集、智能信息处理、Web智能、数据挖掘等.E-mail:yuhong@cqupt.edu.cn.基于粒计算的大数据处理徐计1),2),3),王国胤3),于洪2)1)(西南交通大学信息科学与技术学院,成都610031)2)(重庆邮电大学计算智能重庆市重点实验室,重庆400065)3)(中国科学院重庆绿色智能技术研究院电子信息技术研究所,重庆401122)摘要在大数据时代,如何充分挖掘出蕴藏于数据资源中的价值正在成为各国IT业界、学术界和政府共同关注的焦点.使用云计算平台分布式地存储和分析大数据已经成为共识并且得到了广泛应用,但这并没有完全解决大数据的3V特性带来的问题.全面应对大数据的挑战需要来自存储技术、下一代网络、处理器、计算模型等各领域的创新.粒计算是在求解问题过程中使用“粒”的理论、方法、技术和工具的集合,适用于近似求解有不确定性和层次结构的问题.本文综述了大数据处理的研究现状,分析当前大数据处理研究存在的局限性;根据运用粒计算方法解决问题的不同特征,归纳了粒计算的三种基本模式,回顾了各种模式的相关研究工作;讨论粒计算应用于大数据处理的可行性与优势,并探讨在大数据的粒计算处理框架中需要解决的各个关键问题.关键词粒计算;大数据;云计算;深度学习中图法分类号TP181论文引用格式徐计,王国胤,于洪,基于粒计算的大数据处理,计算机学报,2014,Vol.37:在线出版号No.113XUJi,WANGGuo-Yin,YUHong,ReviewofBigDataProcessingBasedonGranularComputing,ChineseJournalofComputers,2014,Vol.37:OnlinePublishingNo.113ReviewofBigDataProcessingBasedonGranularComputingXUJi1),2),3),WANGGuo-Yin3),YUHong2)1)(SchoolofInformationScience&Technology,SouthwestJiaotongUniversity,Chengdu610031,China)2)(ChongqingKeyLaboratoryofComputationalIntelligence,ChongqingUniversityofPostsandTelecommunications,Chongqing400065,China)3)(InstituteofElectronicInformationTechnology,ChongqingInstituteofGreenandIntelligentTechnology,CAS,Chongqing401122,China)AbstractInbigdataage,peoplefromITindustry,academiaandgovernmentaretakingefforttofindoutthevaluebehindthedataresources.Usingcloudcomputingplatformtostoreandprocessbigdatadistributedlyhasbeenacommonsenseandbeenputintopracticeextensively.However,thisisfarfromsolvingtheproblemscompletelycausedbythe3V-features(volume,varietyandvelocity)ofbigdata.Theproblemsrequirejointeffortsofresearchersfromthefieldsofstoragetechnology,Internet2,processors,andcomputingparadigm,etc.Granularcomputing(GrC)isalabelofthefamilyofanytheories,methodologies,techniques,andtoolsthatmakeuseofinformationgranulesinproblemsolving,especiallywhentheproblemiswithuncertainty,ofhierarchicalstructureandcanbeapproximatelysolved.Thispapersurveystheresearchesonbigdataprocessingandanalyzesthelimitationincurrentbigdataprocessingresearches,summarizesthreebasicmodesofGrCaccordingtothewaysinwhichGrCisusedtosolveproblemsandreviewstherelatedworksofeachmode.The2014-11-2819:00计算机学报2014年feasibilityandadvantagesofapplyingGrCtoprocessbigdataarediscussedsubsequently,andtherelatedkeyproblemsrisinginGrC-basedbigdataprocessingframeworkarediscussedatlast.Keywordsgranularcomputing;bigdata;cloudcomputing;deeplearning1引言随着人类对客观世界各领域数字化程度的不断提高,每天都有大量的数据产生,并且其产生的速度也越来越快.这些数据来源广泛,其中最主要的有:科学研究(天文学、生物学、高能物理等)、社交网络、电子商务、物联网、移动通信等[1].根据IDC公司的研究,全球数字信息总量将在2009年到2020年期间增长44倍,达到大约35.2ZB[2].对于如此急剧增长的数据,各个国家、各个领域的人们都意识到了其中蕴含着的巨大价值;同时,信息技术领域的研究者也感受到由此带来的巨大挑战.传统的计算平台、通信网络、DBMS都变得难以满足需求的时候,人们需要在存储技术、下一代网络、处理器、编程语言和计算模型等领域寻求新的解决方案.粒计算作为一种方法论,旨在有效地建立基于外部世界、并以用户为中心的概念,进而简化我们对物理世界和虚拟世界的认识.并以此为基础,在求解问题的过程中,用粒度合适的“粒”作为处理对象,从而在保证求得满意解的前提下,提高解决问题的效率.自1979年Zadeh发表第一篇关于信息粒度的论文以来,国内外研究人员对粒计算理论和模型进行了深入的研究,同时也将这些理论和模型与其他计算智能、机器学习的技术相结合,取得了大量研究成果.合适的粒度常常是由问题本身及问题背景决定的,这一点对设计基于粒计算的数据处理框架有重要意义.举一个关于时间的例子.例如张先生问他的朋友:“你什么时候回国的”,回答这个问题所选择的时间粒度其实是由他朋友回国的时间到现在有多久决定的.如果没超过一天,那么他会说:“昨天中午”;如果有十天左右了,他可以说:“上周”;再如果是朋友回国好几年了,张先生才得知消息,那么“2009年”就可以是一个满意的答案了.注意到上面几个答案具有不同的粒度,分别是午、周和年.如果不采用合适的粒度,统一都用计算机上常见的时间戳格式来回答,如:“2013年4月29日下午3时25分”,就不太合理,让人觉得别扭.人工智能和计算智能等学科的诞生,是因为人们试图从人类思维和生物界的一些规律中得到启发,创建相应的计算模型,应用到信息科学中去.人工神经网络、基因计算、群体智能等都是成功的范例.粒计算则在更高层次上模拟了人类的思维规律,也可以将其运用到当前世界面临的大数据挑战中.最近,如何将粒计算应用于大数据处理得到了国际国内粒计算研究者的重视.2大数据2.1大数据的定义为了应对数据大规模增长带来的机遇和挑战,美国《Nature》杂志在2008年9月4日率先提出“大数据”的概念[3].Gartner公司将大数据定义为:大数据是巨量、高速和多样性的信息资源,它需要合算地、创新地进行信息处理以增强洞察力和决策.维基百科对大数据的定义是:大数据是这样大而复杂的数据集的汇集,以致使用当前的数据库管理工具和数据处理应用程序很难有效地处理它.另外,IBM也从数据量大、增长快速和来源多样的角度对大数据进行了描述性的定义①.从上述的定义中,我们不难发现大数据的特征有以下三点:(1)数据量大.虽然有人认为数据量大并不是大数据的本质,但提到大数据时,数据的大小通常都在PetaBytes到ExaBytes,至少在GigaBytes以上②.(2)高速增长.每天都有2.5EB(2.5×1018Bytes)的数据产生出来,目前世界上90%的数据都是在过去两年中产生的.除了数据量急剧增大,还要求数据处理要“及时”甚至“实时”.(3)结构多样.大数据中的数据,结构多种多样.如文本、声音、视频、传感器信号以及点击流数据等等.多种数据交织在一起,由此带来处理的困难.以上三点就是公认的大数据3V特性(Volume,Velocity,Variety).如果说大数据的特性还包含第四个V,对其含义就有不同的解释了.微软认为是“价值”(Value),IBM认为是“真实性”(Veracity),还有学①Whatisbigdata?②论文在线出版号No.113徐计等:基于粒计算的大数据处理研究3者认为是“灵活性”(Vitality).虽然这些观点不同,但都反映了对大数据处理的某种要求.最近,吴信东教授[4]提出了大数据的HACE法则,认为大数据的特征是异构(heterogeneous)、自治(autonomous)、复杂(complex)和演化(evolving).2.2大数据带来的挑战与机遇大数据的3V特性给信息技术的各个领域带来了重大挑战.不少文献对此进行了详细介绍[5]-[8]归纳起来,主要包括以下几个方面:(1)存储与检索.数据量的急剧增长,给数据存储带来了巨大的挑战.虽然随着存储技术的发展,单个磁盘的容量越来越大,单位容量的价格也越来越低.然而无限制地存储所有产生或采集到的数据显然给自然资源、社会资源(生产存储设备)和电力能源形成极大的压力.同时,数据量的增长,必然增加了检索有价值信息的难度.(2)通信.Internet和移动Internet在很大程度上催生了大数据;同时,大数据也使得在网络上传输的数据量急剧增加,对网络基础设施形成了巨大的压力.(3)处理.大数据的价值只有经过处理才能体现.处理流程包括:数据获取→抽取/清洗→集成