贵州省岩石力学与工程学会年度学术交流论文集浅析大数据对的影响刘心怡中国电建集团贵阳勘测设计研究院有限公司贵阳摘要:本文经过文献搜集、筛选及整理后,分别从和大数据两个概念入手,分析了发展在大数据时代所面临的问题两者融合势在必行,提出在大数据背景下的新特征,并对发展方向进行了分析和预测。关健词:;大数据;云计算;数据挖掘地理信息系统的基本概念地理信息系统(于世纪,年代早期起源于加拿大,至今巳发展余年。汤国安认为:是在计算机软硬件支持下,对整个或者部分地球表层空间中的有关地理分布数据进行采集、存储、管理、运算、分析、显示和描述的技术系统。数据特征从的概念可以看出,数据是的血液。从通过图件扫描、格式转换、实地测绘等方法的数据获取,到采用各种先进数据库技术对数据进行存储、管理,再到利用计算机图形学、地图学等综合可视化技术对数据进行展示,以及最终以数据为基础的借助于计量地理学、拓扑学、图论等学科的决策分析等,这些过程都是以数据为核心的。随着的发展,其数据呈现出数量大、种类多和结构复杂的特征。⑴数据量大的数据量大具有两层含义,第一层含义是指数据占用的字节数多,包括矢量数据、栅格数据、属性数据,以及与地理位置相关的音频、视频等多媒体数据等。比如“天地图”在年正式上线的时候,集成了海量的基础地理信息资源数据,总数据量约有,处理后的瓦片数近亿资源三号测绘卫星是中国第一颗民用髙分辨率光学传输型测绘卫星,截止到年月底,在运行的不到一年半的时间中,总共存档卫星影像万多景,数据量达到。而空间数据产生的商业价值每年正以的速度增加,是软件和服务的两倍。第二层含义是指数据单位个数多。比如“天地图”各类地名和,兴趣点有多万条年月竣工的国家西部地形图空白区测图工程和国家基础地理信息数据库更新工程两个国家级重大测绘工程,成果有多万航片和多景卫星遥感影像,地名近万条,描绘了亿个地理要素。另外,其他专业领域比如土壤数据、气象数据在全数据模式下数量也是非常可观的。数据种类多的数据种类多样从广义上看,具有矢量数据、栅格数据、属性数据,以及与地理位置相关的音频、视频等多媒体数据等;从狭义的角度看,主要是因为数据来源广泛和不同应用的需求而体现为数据格式多样。比如测绘工作产生的数据,经常需要导入到系统中,其他的还有扫描得到的或图像,具有空间坐标信息的文件,数字制图中数字化后的数据或的数据,格式转换后用于的、或数据等。资源三号卫星三线阵相机标准产品中的级产品(预处理级辐射校正影像产品)包括的文件格式就有、、、等四种格式的个文件。是地理空间数据转换的类库,多用来读取地理空间数据,根据官方网站的资料显示,支持的—— 贵州省岩石力学与工程学会年度学术交流论文集栅格数据多达种矢量数据有种,这其中也包括了、、这样的数据源。数据结构复杂人们获取信息的方式越来越多,数据量也爆炸式的增长,而这些信息中大概是非结构化的。传统的主要有空间数据和属性数据两类数据,最具代表性的是文件,空间数据以二进制文件的方式进行存储,属性数据以二维表的方式进行存储,具有固定字段,另外还有以文本存储的投影信息等。如今在中,非结构化的数据越来越多,如中用户可以上传基于地理位置的图片,的相册提供了在地图上显示照片和视频信息的功能,如基于位置的服务一类的应用,更是需要在地理信息的基础上,集成周边不同类型的详细信息、用户实时发布的文本或多媒体信息等,这些信息绝大多数都是非结构化的。在用于人口普查的系统中,基本的人口信息是结构化的,但诸如学历、特长、获奖等一些详尽的信息或是个性化的信息数据可能就会变为非结构化的了。数据库的数据结构已经越来越不能满足对数据存储的需求,因此新的数据库开发模式一应运而生。传统发展面临的问题随着向着数据标准化、数据多维化、系统集成化、系统智能化、平台网络化和应用社会化(数字地球)的方向不断发展,传统由二维逐渐向三维包括二三维一体化)、时态、网络和移动推进,但随着大数据时代的来临,管理的数据量越来越大、种类越来越多、数据结构越来越复杂,暴露出的问题也越来越多,如对计算机及存储硬件要求更苛刻、数据分析处理技术及数据挖掘技术更高、三维仿真与虚拟现实技术与无线通讯技术结合等等。大数据大数据的来源及涵义大数据这个术语最早期的弓丨用可追溯到的开源项目。当时大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌和的发布,大数据不再是仅用来描述大量的数据,还涵盖了处理数据的速度。全球知名的麦肯锡咨询公司首先提出大数据时代已经到来的观点数据已经渗透到每一个行业和义务职能的领域,逐渐成为重要的生产因素,人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余潮的到来。大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的处理分析将对人类产生三大思维方式转变:⑴数据不是随机样本数据,而是全体数据数据更杂,不是精确性,而是混杂性不在探求事物的因果关系,只关注事物的相关关系°与传统的数据相比较,大数据中非结构化的数据所占的比例较大。从某种意义上说,大数据是数据分析的前沿技术。简言之,就是从各种各样类型的数据中,快速获得有价值信息的能力。大数据的特点及意义大数据的特点根据目前对大数据特征的描述大数据的特点大量、高速)、多样)、价值。有的文献增加真伪难辨扩展到或者是新,大量):大量级以上已有的数据等待处理;高速):需要响应以甚至计的流数据不断产生;多样:数据来源和类型繁多,文本、图片、视频等结构化和非结构化数据并存;价值):大数据使得人们以前所未有的维度量化和理解世界,蕴含了巨大的价值,大数据的终极目标在于从数据中挖掘价值。其中’数据的流质特性是因,数据量庞大是果,多样性和真实性是挑战,价值是目标。‘真伪难辨):由于数据的噪音、缺失、不一致性、歧义等引起的数据不确定性;形象化):将数据转换成图形或图像在屏幕上显示出来——贵州省岩石力学与工程学会年度学术交流论文集发展大数据产业的意义大数据的发展目前虽然处于初级阶段,但其商业价值已突显现出来。首先,拥有数据的公司通过数据交易即可产生很好的效益其次,基于数据挖掘会有很多商业模式诞生,定位角度不同或侧重数据分析。如为企业做内部数据挖掘,或侧重优化可以使企业更精准找到用户降低营销成本,提高企业销售率,增加利润。在未来,数据将成为最大的交易商品。大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用等,这些将使得大数据变成一个潜能巨大的产业。据统计,目前大数据所形成的市场规模在亿美元左右,而到年,此规模预计会上涨到亿美元。大数据的处理技术云计算云计算是一种基于互联网的、大众参与的计算模式,其计算资源(包括计算能力、存储能力、交互能力等是动态、可伸缩、被虚拟化的,并以服务的方式提供。目前已有较多的云计算平台推出,其中还不乏一些开源的云计算平台,如公司推出的的开源实现等等。基于云计算平台构建云应用程序,能够体现云计算的强大运算能力。云计算平台中数据中心可以存储海量数据,可以根据数据挖掘应用的需求对资源进行动态分配,保证数据挖掘算法的可扩展性,并采用容错机制来保证数据挖掘应用的可靠性。基于云计算的数据挖掘技术基于的数据挖掘技术⑴:数据挖掘是从数据挖掘发展而来,一般是指将数据挖掘技术应用到上。是一项涉及、数据挖掘、信息学、计算机语言学等多个领域的综合技术。基于的海量数据挖掘技术:年等学者提出了基于的朴素贝叶斯分类算法。该算法采用分布处理的思想,通过采用对样本进行分散统计与集中整合的方式来构造分类器,但它只能处理离散型数据,不能对连续型数据提供有效的支持。‘基于云计算的并行数据挖掘系统‘年底中国科学院计算技术研究所开发出了基于云计算的并行数据挖掘系统,可实现级海量数据的并行挖掘分处理,该系统已成功应用于中国移动级实际数据的挖掘。提供了一系列并行挖掘算法和操作组件,开发的并行算法绝大多数达到了线性加速比,同时具有很好的容错性。的开放式架构可以使用户将算法组件经过简单配置方便地封装加载到系统中。此后又开发了面向基于云计算数据挖掘服务系统。此外,中科院深圳先进研究院还研制了一个基于云的分布式数据挖掘系统』业界的各大公司也提出了面向企业的大规模数据挖掘服务,如微策略、等公司都已开发了自己的基云计算的数据挖掘服务平台。基于云计算平台成为数据挖掘发展的必然趋势。云计算数据挖掘技术提出分四层提供云计算数据挖掘服务:底层为数据挖掘算法的基本步骤,如数据清洗等第二层为单独的数据挖掘服务,如关联规则、聚类等;第三层为分布式数据挖掘模式,例如并行分类、聚合式机器学习等;第四层为前三层元素构成的完整的数据挖掘应用。并在此设计基础上提出基于云计算的数据挖掘开放服务框架,开发了一系列的数据挖掘服务系统,例如、等,用户可以利用图形界面定义自己的数据挖掘工作流,然后在平台上执行⑴。大数据发展面临的问题大数据巳经开始渗人到我们社会生活的各个层面。随着社交网络的兴起,出现了大量的即用户生成内容)、音频、文本信息、视频、图片等非结构化数据物联网与移动互联网络的结合将产生用户的实时——贵州省岩石力学与工程学会年度学术交流论文集海量信息数据。从数据量的角度来说,目前已经进入了大数据的时代,但是硬件的发展速度相对滞后,这将是桎梏大数据发展的一个技术难题。大数据背景下数据特征数据的特点与大数据时代的大数据特征很符合,因此实际上已经进人了大数据时代。大数据时代背景下数据特征包括以下几个方面:海量数据的高效存储随着计算机硬件成本的降低,特别是存储设备成本的降低,对于海量数据的存储已经不是问题,现在个人计算机标配硬盘容量多数为,单个普通的磁盘阵列服务器的容量不算装载系统的,也有左右。但是在瞬息万变的客观世界,经常服务于应急保障、实时导航、分析决策等,数据存储的效率也需要提高,否则会影响整个系统的性能’因此在大数据时代,系统应具有海量数据高效存储的能力。支持丰富的数据类型数据的来源广泛、类型丰富,对于少量数据或在个别领域的应用,可以采用数据转换、人工整理等方法使数据规范化,统一数据结构,使其符合传统关系型数据库的存储要求。但是对于海量数据而言,需要存储很多原始的非结构化的数据,或是不同来源的结构不统一的数据,因此数据库应该对多种类型、非结构化的数据具有良好的支持。数据库应当易于扩展在大数据时代数据量在飞速增加,数据库往往需要进行升级或是扩展。对于目前应用广泛的关系型数据库,除了升级硬件外,还有对数据库进行分割和非规范化等方法。升级硬件的成本比较高,且对于数据库服务器的性能、容量提升幅度有限,而数据库分割并不适合非结构化数据,且需要对程序进行修改,破坏了程序和模型的独立性,非规范化处理则不但增加了大量冗余,还增加了数据一致性的维护难度。因此数据库应当能进行水平扩展,且具有良好的可伸缩性。大数据快速处理数据存储技术对于数据的快速处理具有重要影响,这包括了数据的传输、查询、高并发访问、空间分析等多个环节,比如在数据库中将数据存储为格式,可以省略数据传输中序列化和反序列化的步骤,建有较好的空间索弓的数据库,可以提高数据的查询和访问效率,分布式计算可以提高数据处理的速度等,所以数据库应当具有支持大数据快速处理的特性。随着大数据应用的不断推进,以及移动互联网、物联网和云计算的不断发展,地理信息系统也正以飞一般的速度快速发展着。在大数据技术与移动互联网的支持下,移动的终端应用可以获得充分的数据支持。同时移动可以通过网络和云服务获得各类服务,例如瓦片服务、分析服务等,并且通过终端应用的开发,实现复用已有的服务,将终端应用与服务端应用实现有机整合。通过与服务的交互将大运算量、高负载度的功能交由后端来处理实现,从而进一步的实现扩展移动应用领域的目的。大数据背景下发展方向与其他信息系统和电子地图的区别在于同时具有空间数据管理能力、空间分析能力以及基于地图的数据可视化能力。大数据没有改变的基本特征但是对传统提出了巨大的挑战主要发展方向如下:可扩展的海霣