2015041-1STUDY研究大数据时代的数据挖掘——从应用的角度看大数据挖掘1.南京邮电大学计算机学院南京210023;2.美国佛罗里达国际大学迈阿密33199;3.厦门大学自动化系厦门361005摘要关键词doi:10.11959/j.issn.2096-0271.2015041DataMiningintheEraofBigData:FromtheApplicationPerspectiveLiTao1,2,ZengChunqiu1,2,ZhouWubai1,2,ZhouQifeng3,ZhengLi1,21.SchoolofComputerScience&Technology,NanjingUniversityofPostsandTelecommunications,Nanjing210023,China;2.SchoolofComputerScience,FloridaInternationalUniversity,Miami33199,USA;3.DepartmentofAutomation,XiamenUniversity,Xiamen361005,ChinaAbstractThetechnicalcharacteristics,tasks,anddifficultiesofdatamininginbigdataerawereintroduced.Thesystemarchitectureoflarge-scaledataminingwasanalyzed.Then,thedevelopedFIU-Minerwhichisafast,integrated,anduser-friendlysystemfordatamining,wasintroduced.FIU-Minersupportsuser-friendlyrapiddataminingtaskconfiguration,flexiblecross-languageprogramintegration,andeffectiveresourcemanagementinheterogeneousenvironments.Finallythreesuccessfulreal-worldapplicationsofFIU-Miner:advancedmanufacturingdatamining,spatialdatamining,andbusinessintelligencedatamining,werepresentedtodemonstrateitsefficacyandeffectiveness.Keywordsbigdata,datamining,FIU-Miner,advancedmanufacturing,spatialdatamining,businessintelligenceBIGDATARESEARCH大数据2015041-21对大数据的理解和认识大数据(bigdata)一词经常被用以描述和指代信息爆炸时代产生的海量信息。研究大数据的意义在于发现和理解信息内容及信息与信息之间的联系。研究大数据首先要理清和了解大数据的特点及基本概念,进而理解和认识大数据。1.1大数据的特点“4V+4V”从数据的表现形式看,业界普遍认为大数据具有如下的“4V”特点[1]。●volume(大量):数据体量巨大,从TB级别跃升到PB级别。●variety(多样):数据类型繁多,如网络日志、视频、图片、地理位置信息等。●velocity(高速):处理速度快,实时分析,这也是和传统的数据挖掘技术的本质上的不同。●value(价值):价值密度低,蕴含有效价值高,合理利用低密度价值的数据并对其进行正确、准确的分析,将会带来巨大的商业和社会价值。上述“4V”特点描述了大数据与以往部分抽样的“小数据”的主要区别。然而,实践是大数据的最终价值体现的唯一途径。从实际应用和大数据处理的复杂性看,大数据还具有如下新的“4V”特点。●variable(变化性):在不同的场景、不同的研究目标下数据的结构和意义可能会发生变化,因此,在实际研究中要考虑具体的上下文场景。●veracity(真实性):获取真实、可靠的数据是保证分析结果准确、有效的前提。只有真实而准确的数据才能获取真正有意义的结果。●volatility(波动性):由于数据本身含有噪音及分析流程的不规范性,导致采用不同的算法或不同分析过程与手段会得到不稳定的分析结果。●visualization(可视化):在大数据环境下,通过数据可视化可以更加直观地阐释数据的意义,帮助理解数据,解释结果。1.2对大数据的理解国内外不同的专家和学者对大数据有不同的理解,中国科学院计算技术研究所李国杰院士认为:大数据就是“海量数据”加“复杂数据类型”[2]。维基百科对大数据的定义是:“大数据是由于规模、复杂性、实时性而导致的使之无法在一定时间内用常规软件工具对其进行获取、存贮、搜索、分享、分析、可视化的数据集合”1。Gartner咨询公司给出的定义是:“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”2。而互联网数据中心将大数据定义为:“为更经济地从高频率、大容量、不同结构和类型的数据中获取价值而设计的新一代架构和技术”3。结合上述大数据的“8V”特征,笔者认为大数据的核心和本质是应用、算法、数据和平台4个要素的有机结合,如图1所示。大数据是应用驱动的,大数据来源于实践,海量数据产生于实际应用中。数据挖掘源于实践中的实际应用需求,用具体的应用数据作为驱动,以算法、工具和平台作为支撑,最终将发现的知识和信息用到实践中去,从而提供量化、合理、可行、能够产生巨大价值的信息。另外,挖掘大数据所蕴含的有用信息,需要设计和开发相应的数据挖掘和机器学习算法。算法的设计和开发要以具体的应用数据为驱动,同时也要在实际问题中得到应1://://研究用和验证,而算法的实现与应用需要高效的处理平台。高效的处理平台需要有效地分析海量的数据及对多源数据进行集成,同时有力支持数据挖掘算法以及数据可视化的执行,并对数据分析的流程进行规范。总而言之,这个应用、算法、数据和平台相结合的思想是对上述大数据的理解和认识的一个综合与凝练,体现了大数据的本质和核心。建立在此架构上的大数据挖掘,能够有效处理大数据的复杂特征,挖掘大数据的价值。本文在此框架下,从应用的角度探讨了大数据时代的数据挖掘的机遇与挑战,介绍了研究团队开发的大数据挖掘平台FIU-Miner以及成功应用该平台实现的高端制造业数据挖掘、空间数据挖掘和商务智能3个大型、复杂数据挖掘案例。2大数据时代的数据挖掘2.1数据挖掘在大数据时代,数据的产生和收集是基础,数据挖掘是关键。数据挖掘是大数据中最关键也最有价值的工作。通常,数据挖掘或知识发现泛指从大量数据中挖掘出隐含的、先前未知但潜在的有用信息和模式的一个工程化和系统化的过程。数据挖据可以用以下4个特性概括[3]。(1)应用性:数据挖掘是理论算法和应用实践的完美结合。数据挖掘源于实际生产生活中应用的需求,挖掘的数据来自于具体应用,同时通过数据挖掘发现的知识又要运用到实践中去,辅助实际决策。所以,数据挖掘来自于应用实践,同时也服务于应用实践。(2)工程性:数据挖掘是一个由多个步骤组成的工程化过程。数据挖掘的应用特性决定了数据挖掘不仅仅是算法分析和应用,而是一个包含数据准备和管理、数据预处理和转换、挖掘算法开发和应用、结果展示和验证以及知识积累和使用的完整过程。而且在实际应用中,典型的数据挖掘过程还是一个交互和循环的过程。(3)集合性:数据挖掘是多种功能的集合。常用的数据挖掘功能包括数据探索分析、关联规则挖掘、时间序列模式挖掘、分类预测、聚类分析、异常检测、数据可视化和链接分析等。一个具体的应用案例往往涉及多个不同的功能。不同的功能通常有不同的理论和技术基础,而且每一个功能都有不同的算法支撑。(4)交叉性:数据挖掘是一个交叉学科,它利用了来自统计分析、模式识别、机器学习、人工智能、信息检索、数据库等图1大数据架构BIGDATARESEARCH大数据2015041-4诸多不同领域的研究成果和学术思想。同时,一些其他领域如随机算法、信息论、可视化、分布式计算和最优化也对数据挖掘的发展起到重要的作用。数据挖掘与这些相关领域的区别可以由前面提到的数据挖掘的3个特性来总结,最重要的是它更侧重于应用。具体而言,实际应用的需求是数据挖掘领域很多方法提出和发展的根源。从最开始的顾客交易数据分析(marketbasketanalysis)、多媒体数据挖掘(multimediadatamining)、隐私保护数据挖掘(privacy-preservingdatamining)到文本数据挖掘(textmining)和Web挖掘(Webmining),再到社交媒体挖掘(socialmediamining)都是由应用推动的。工程性和集合性决定了数据挖掘研究内容和方向的广泛性。其中,工程性使得整个研究过程里的不同步骤都属于数据挖掘的研究范畴。而集合性使得数据挖掘有多种不同的功能,而如何将多种功能联系和结合起来,从一定程度上影响了数据挖掘研究方法的发展。比如,20世纪90年代中期,数据挖掘的研究主要集中在关联规则和时间序列模式的挖掘。到20世纪90年代末,研究人员开始研究基于关联规则和时间序列模式的分类算法(如classificationbasedonassociation),将两种不同的数据挖掘功能有机地结合起来。21世纪初,一个研究的热点是半监督学习(semi-supervisedlearning)和半监督聚类(semi-supervisedclustering),也是将分类和聚类这两种功能有机结合起来。近年来的一些其他研究方向如子空间聚类(subspaceclustering)(特征抽取和聚类的结合)和图分类(graphclassification)(图挖掘和分类的结合)也是将多种功能联系和结合在一起。最后,交叉性导致了研究思路和方法设计的多样化。2.2从数据挖掘应用的角度看大数据大数据是现象,核心是要挖掘数据的价值。结合数据挖掘的各种特性,尤其是其应用性,从应用业务的角度对大数据提出如下两点的认识[3]。首先,大数据是“一把手工程”。在一个企业里,大数据通常涉及多个业务部门,业务逻辑复杂。一方面,要对大数据进行收集和整合,需要业务部门的配合和沟通以及业务人员的大力参与,这些需要企业决策人员的重视和认可,提供必要的资源调配和支持。另一方面,要对数据挖掘的结果进行验证和运用,更离不开相关人员的决策。数据挖掘的结果大多是相关关系,而不是因果关系,这些结果还可能有不确定性。另外,有时候数据挖掘的结果与企业运作的常识不一致,甚至相悖。所以,如何看待这些可能的不确定性和反常识的分析结论,充分利用好数据挖掘结果,必然离不开决策者的远见卓识。其次,大数据需要数据导入、整合和预处理。当面对来自不同数据源的大量复杂数据时,具体业务逻辑复杂与数据之间的关系琐碎直接导致企业的业务流程和数据流程很难理解。因此,企业在实施大数据时可能并不清楚要挖掘和发现什么,对数据挖掘到底能帮助企业做什么并没有直观和清楚的认识。所以,很多时候都不可能先把数据事先规划好和准备好,这样在具体的数据挖掘中,就需要在数据的导入、整合和预处理上有很大的灵活性,只有通过业务人员和数据挖掘工程师的配合,不断尝试,才能有效地将企业的业务需求与数据挖掘的功能联系起来。2015041-5STUDY研究2.3大数据时代应用数据挖掘的挑战大数据时代的来临使得数据的规模和复杂性都出现爆炸式的增长,促使不同应用领域的数据分析人员利用数据挖掘