技术广角BroadAngleforTechnology68引言“数据”这一抽象的概念在我们日常生活过程中发挥着至关重要的作用,从城市交通控制系统到空间站运行,从国家政策颁发到企业战略制定,数据无时无刻不存在于人们的日常生活过程中,并且随着科学技术的发展而不断推层出新。随着最近几十年来的数据爆炸式增长,以数据为依托的新兴产业,如云计算、物联网、社交网络等新技术和服务日益影响着人们的日常生活,大数据时代正在悄然降临。在全球七大重点领域内(包括教育、交通、消费、电力、能源、大健康以及金融),大数据的应用潜力高达上千亿美元,相互之间以数据产品为中心的纵向结构和以大数据相关技术为核心的横向结构不断交错形成新的价值链[1]。在这样的背景之下,我国关于国民经济和社会发展的第十三个五年计划纲要更指出,需要实施国家级大数据战略,推进数据资源的开放共享。在此期间,大数据领域必将迎来建设和投资高峰。将数据作为一种战略资源,实现数据成为经济活动的主要承载者,需要着眼于大数据的生命周期和价值链条,而这其中主要涉及数据生成、获取、存储和分析四个阶段。落实到具体的技术上,主要包括:1)通过大数据融合来解决数据本身的问题(包括数据量、数据类型和数据冲突等);2)通过软件和硬件实现不同粒度的计算需求(包括存储和计算硬件的发展和数据分析处理模型、架构的设计等);3)从精度的角度更好地发现数据背后的价值(包括人机交互、机器智能等技术的发展)[2]。目前,大数据研究的三个重要方面主要包括基于Web的互联网应用、社会计算以及基于行业应用的商务智能和海量数据管理服务。因此,本文立足于从软件的角度出发,通过对大数据融合、大数据分析、大数据处理平台框架的阐述来介绍相关技术在当前背景之下的应用,并结合两例大数据应用的具体实例,即某市医保基金使用效率和少数民族语言翻译与处理,从实践价值的角度来阐述大数据应用的前景。1大数据融合作为大数据的重要组成部分,数据融合最早产生于上世纪70年代,相关应用研究从最初的军事领域逐步拓展到涵盖资源管理、城市规划、气象预报等多个方面。根据定义,数据融合的过程需要实现对多个数据源信息的自动识别、连接、相关性分析和估计[3]。随着大吴睿智马致远罗光春刘贵松秦科电子科技大学计算机科学与工程学院成都611731摘 要目前我们已经进入了大数据时代,“数据就是决策,数据就是生产力”这一观念已经深入人心。在大数据时代,如何快速有效地对大规模存量数据和实时产生的增量数据进行分析是摆在我们面前的一道难题。文章着眼于大数据分析的共性特点,结合具体的软件平台和应用案例,阐述了大数据挖掘的方法以及应用价值。关键词大数据;数据融合;批处理;流处理;数据分析大数据融合、分析与价值技术广角BroadAngleforTechnology69数据时代的到来,数据类型和维度都得到了极大丰富,挖掘并有效利用隐藏在海量数据下的信息成了企业发展和科技进步的必然趋势,同时,这样的需求也为大数据背景下进行数据融合带来了诸多挑战。在大数据背景之下,数据的量(Volume)、多样性(Variety)、高速变化(Velocity)的特点使得传统数据融合工具越来越难以满足应用的需要。目前,空间数据占了大数据比例的80%[4],在融合这一类数据的过程中,针对这些数据中的海量、多维度、多源头、异构、冗余性、动态性和稀疏性的特点,需要结合云计算、机器学习和人工智能等领域的方法,实现“数据——信息——知识——智慧”的转变。其次,数据标准和传输模式的差异造就了“僵尸数据”和“信息孤岛”[5],因而需要针对多源、异类和异构的特点,对数据进行统一编目,其中主要包括数据接口定义、元数据格式以及数据编码等内容。再次,大数据融合需要联系割裂的多源异构数据,平衡数据规模和数据价值的矛盾,并解决跨媒体和跨语言的关联、实体与关系的动态演化等问题,其相关的研究内容需要考虑如何加速融合效率、识别共同实体和连接关联体,并针对冲突数据进行真伪鉴别、溯源和跟踪[6]。此外,由于大数据异构和缺乏对数据的统一管理,在融合的过程中,有必要建立信息标准体系以及信息访问机制,重点解决数据共享请求与分析、数据并发与同步、互斥访问控制等问题[5]。作为一种跨学科多方向的交叉领域,大数据融合囊括了许多传统科学(如数学、计算机、通信等)和新兴技术领域(如人工智能、机器学习、模式识别等)[7]。根据大数据融合的基本步骤,可以将其大致分为预处理和数据融合两部分。数据预处理需要达到的目的是从原始数据中选取合适的属性作为后期融合的属性,这一过程需要尽可能赋予属性名和属性值明确的意义,统一多数据源的属性值编码,去除唯一属性、重复字段和可忽略字段。这一过程中,为了降低原始数据中的噪声(无用字段、冗余字段等),常用方法包括分箱、聚类、回归分析。分箱方法是一种简单常见的预处理方法,核心思想是按照属性值划分子区间,通过考察同一个子区间内相邻数据来确定最终的值。常见的分箱方法包括等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。聚类是依据对象特征属性的距离来将一组对象按照距离指标划分为特征相似的不同类别,并将孤立于所有类别的数据作为离群点(或噪声)清除。其中常用的距离包括欧式距离、马氏距离和其他根据特定场景定义的距离指标。常用聚类方法包括Kmeans[8]、分层聚类、两步聚类和基于密度的聚类[9]等。回归分析是指通过构建相应的数学模型,从而用一个组函数关系来描述特征变量和目标变量之间的关联关系,通常被用来做预测分析。常见的回归分析方法按照回归类型的不同可分为线性回归和非线性回归,涉及机器学习、统计学习和人工智能等多个领域,常见的方法包括SVM、人工神经网络、决策树等。通常进行融合之前的数据包含许多冗余信息,而在实际使用的过程只需要其中有用的部分,因此需要通过数据规约技术,在不破坏数据完整性的同时,通过使用比原始数据规模更小的子集进行融合。目前常用的数据归约方法包括数据立方体聚集、维度归约、数据压缩、数值压缩、离散化和概念分层等。目前,大数据融合依赖的技术包括假设检验、聚类分析、滤波跟踪、机器学习等。其中,根据对数据处理方式的不同,又可以进一步分为像素级、特征级和决策级融合。随着传感器网络和物联网在大数据时代的发展,大数据融合还涉及同类及异类数据的融合。在这之中,常用的理论方法包括贝叶斯推理法、神经网络、Dempster-Shafer推理法、表决法等[10]。2大数据分析2.1大数据分析的几个步骤大数据分析是从浩瀚、广泛的数据中发现潜在的价值与规律。大数据分析技术,不单是一个工业界的热技术广角BroadAngleforTechnology70点,更是学术界的一个热点研究方向,需要从理论与应用技术两个层面进行研究。在学术研究领域,大数据分析是数据挖掘、机器学习、统计理论、复杂理论等多个学科知识相互交叉的前沿领域。在针对一个具体问题开展研究时,通常将问题分解为以下几个步骤开展。1)需求与问题的定义。在大数据时代中,对问题和需求的清楚定义显得比任何时候都重要。针对具体的问题与需求,分析业务需求,清楚定义要解决的问题,才能从海量数据中提取出需要分析处理的数据,从而建立基于清楚问题的有效的数据分析模型进行研究、分析数据中的隐藏价值。2)数据的预处理。大数据分析技术关键的一步是数据的预处理、感知、融合、数据表示等[11]。预处理任务通常为描述数据、数据清理、数据集成和变换以及数据离散化和概念分层等[12]。随着互联网2.0时代的到来,数据的类型和种类也越来越丰富,数据融合就愈发显得重要了。数据融合技术已经成为当前学术界和工业界关注的一个热点。3)数据的深度理解。传统的基于静态、浅层特征对数据建模的方法,已经无法适应大数据时代中数据挖掘分析任务对数据的需求。对数据内容进行深层建模和语义理解,成为大数据分析技术中的难题。Web2.0时代大数据的种种特性又对数据的内容建模和语义理解的深度、关联性与准确性提出了更高的要求。因此,通过理论方法与关键技术层面结合大数据的特征,针对数据挖掘与分析的特征模型、内容建模和语义理解三个方面展开研究,实现对数据的内容理解及演变规律的把握[13]。4)数据的深度解析、挖掘及复杂数据的计算模型。数据规模的爆发式增长、数据类型多样、结构复杂、数据维度高等特点导致传统全量数据计算模式不再适用,数据计算基本模式面临巨大挑战[13]。如何应对大数据带来的挑战,对数据进行深度解析、挖掘,并在此基础上构建有效的多类型复杂数据计算模型,成为大数据分析技术的核心问题。5)验证模型。传统建立的分析模型都是针对小规模的数据集。针对海量数据的挑战,应建立适应大数据分析模型,并在小部分数据进行验证与分析,检验模型是否能够很好地解决问题,满足需要也是验证模型有效的一个方法。模型的验证对模型的及时修改有着重要意义。6)部署和更新模型。通过小规模数据对数据分析模型的验证后,将模型部署更新在实际的大数据应用分析平台上进行运营。当面对实际浩瀚的数据时,数据分析模型的有效性、实时性得到很好的验证,处理的实效性、实时性等标准都是检验模型的重要指标。对模型的更新也是数据分析模型的一个重要任务。2.2数据处理模型与数据分析技术数据的处理模型和分析技术是整个大数据分析技术的灵魂,下面简要介绍目前常见、常用的几种数据处理模型和数据分析技术。常见数据处理模型:MapReduce是Google提出的一种分布式海量数据处理模型;Dryad是由微软提出的一种集群环境下海量数据处理模型,Dryad是一个通用的粗颗粒度的分布式计算和资源调度引擎;Storm是一套分布式、高可靠性、高可容错的流式数据处理系统。批数据处理技术:批量数据具有3个特征,数据体量巨大、精度较高、价值密度高[14]。针对批量数据特点,批处理技术适用于对实时性要求较低,数据需求量较大的数据分析任务,是实行先存储后分析的一种数据处理技术。流处理技术:是针对流数据的一种分布式、高可用、低延迟,具有自身容错性的实时计算技术。针对流数据进行聚类,异常检测,概念漂移的相关复杂的数据进行分析挖掘[15]。近实时处理技术:大数据分析技术另外一个重点是近实时性[16],数据的价值往往在较短的时间内,所以大数据分析技术对实时性的要求很高。目前常用的方式是通过在线学习,增量式学习等机器学习方法实现对实时数据的处理。这样的好处是能够对模型进行快速良好的技术广角BroadAngleforTechnology71更新与修正。3大数据挖掘分析核心平台3.1现有的主流平台随着大数据时代的到来,硬件、技术和数据的不断进化,数据分析和处理的需求也从传统的数据分析处理扩展到从海量的数据中快速获取有价值的信息,并以此提供低延迟、高性能、高扩展的服务。目前行业内主流的大数据平台主要包括Cloudera、MapR、Hotonworks和Storm等。Cloudera是基于Hadoop开源平台开发的,定位于企业级数据分析处理的一款开源分布式平台,其针对大数据中数据量庞大,分析过程漫长的问题,旨在加速数据分析过程[17]。Cloudera的核心部分由五个子系统构成:ClouderaManager(主要提供系统的管理、监控、诊断和集成)、ClouderaCDH(ClouderaCDH作为分析处理的核心部分,是在Hadoop基础上发展而来)、ClouderaFlume(Flume是一个高可靠、高可用、分布式的海量日志采集系统)、ClouderaImpala(Impala为存储在DFS、HBase的数据提供直接查询互动的SQL)和Clouderahue(Hue是cdh专门的一套Web管理器,它包括3个部分hueui,hueserver,huedb)[18]。目前,包括Csico、SanDisk、SAMSUNG等公司都已成为Cloudera的受益者,而包括MicrosoftAzure、EMC、TCS等公司也开放自己的产品用于支持Cloudera[19]。MapR是MapRTechnologiesInc.旗下的一款产品,作为Hadoop的一个特殊版本,MapR极大地扩大了Hadoop的