29大数据技术概述

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第七部分大数据与务计箅大数据技术概述徐子伟张陈斌陈宗海中国科学技术大学自动化系,安徽合肥,中国,中国科大象形大数据商业智能联合实验室,中国科学技术大学先进技术研究院,安徽合肥,中国,摘要:大数据是信息技术和计算方法迅速发展的必然产物。商业数据、科学数据和网页数据等促使数据的种类日益增多、规模呈爆炸式增长,大数据时代已经到来。大数据已成为继物力和人力资源之后的又一重要资源,将在社会发展过程中发挥不可替代的作用。大数据必将带来一场生活、工作和思维的大变革。本文简要介绍了大数据的相关概念和特点、国内外大数据的发展历程,从非关系数据库、大数据处理工具和隐私保护三个方面阐述了大数据相关技术发展水平,然后分析大数据带来的挑战,最后总结全文并对大数据进行了展望。关键词:大数据;大数据技术;隐私保护;挑战中图分类号:’,’;,,。:;;;智能终端的普及给大数据带来了丰富鲜活的数据。“大数据时代下,数据规模越来越大,增长速度越来大数据是信息化时代迅速发展的产物和必然结果。越快。年,全球数据量跨入了时代,据互联网成为数据获取的主要渠道,云计算(国际数据公司(公司研究报告,未来年全球数⑴改变数据存储访问方式,物联网成为大数据量将以的速度增长,年全球数据量将达到据搜集的来源,社交网络把人类真实世界映射到网络,为年(的倍。此外,数据类型繁多,包括结构化、半结构化和非结构化数据,甚至包作者简介:徐子伟勝,男河南人,硕士研究生,主要研究方向为鮮兀整和错误的数据。现代互联网上半结构化和非结大数据;陈宗海男,安徽人,教授,从事复杂系统建模与控制、构化数据所占的比例已达以上。模式识别与智能机器人等研究404 系统仿真技术及其应用第卷大数据时代的到来,撼动了世界的方方面面,从商值性(,大数据的价值往往呈现稀疏性的特点,业、科技、医疗卫生到政府、教育以及社会的其他各个、而则认为大数据具有真实性(】的特点。领域。开展大数据技术与应用研究,是时代发展的必然要求,具有无可估量的社会经济价值和巨大的科学意义。’目前,大数据已被应用于金融、零售、电影等行业,并大数据时代的到来,引起了国内外学术界、工业界取得了巨大的成功。大数据及其相关处理技术可转化为和政府的广泛关注。早在年就推出了巨大的社会经济价值,被誉为“未来的石油”。大数据技专刊’从互联网技术、超级计算、生物医学等方术和应用一方面对社会、经济和科技的发展带来了重要面专门探讨了大数据的研究。年月,推出机遇,另一方面也对数据的获取、存储、传输、计算以专刊“主要讨论了科学研究中大及应用提出了全新的挑战。数据的相关问题并说明大数据对于科学研究的重要性”在对现有的大数据研究资料进行阅读和总结的基础年月,全球知名咨询公司麦肯锡(发上,本文简要介绍了大数据的概念、特点、国内外的发布了一份关于大数据的详细报告“展历程,在此基础上,从非关系数据库、大数据处理工”【,具和隐私保护三个方面阐述了大数据相关技术发展水详细分析了大数据的影响、关键技术和应用领域。平,然后分析了大数据带来的机遇与挑战,最后总结全年月份美国奥巴马政府发布了“大数据研究和发展倡文并对大数据处理进行了展望。议”,正式启动“大数据发展计划”,旨在提高和改进人们从海量数据中获取信息的能力。年月,日本重启战略计划,重点关注“大数据应用,将大数据大数据的概念和特点定位为战略领域之一”。年初,英国商业、创新和技最先经历信息爆炸的学科,如天文学和翻学,创造出了“大数据”这个概念。大数据并非个确切的概将巨资’加,数念,尚未有个确切、统一的定义。目前关于大数据的采集和分析’从而在■革命中占先机。年几个主流定义有:①研究机构的定义,大数据,法国政府发布《数字化路线隨’、列出项将会大力是指需要新处理模式才能具有更細决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资?产。②维基百科的定义,大数据指的是所涉及的资料量纏巨大到无法通过目前主流软件工具,在合理时间内,发展开放么共数据和大数据为核心的日本新国达到擷取、管理、处理并整理成为帮助企业经营决策目豸的的资讯。③麦肯锡的定义,大数据是指与国外相比’国内大数据研究起步稍晚’企业側无法在定时间内用传统数据库软件工具对其内容进行:据挖掘术不,‘采集、存储、管理和分析的数据集合。④的定义,¥大数据般会涉及种或种以上的数据形式,它要收集超过的数据,并且是高速、实时数据流;或者是从小数据开始,但数据每年会增长以上。⑤大数吊据科学家翻个简单的定义,大数据就是据专家委灾衣‘年月’成义了首丨专门研超过了任何个计難处趣力醜大数据量。—巾目前大数据的特点有和耐说法,专家委会’了大数发展。麗月!日声国白宫发布的关于大数据与隐私⑶的两份报告中仍為特点:龜多样性和快速性(所谓规模性,是指数据的存储量°°‘大和计算量大;多样性是指要处理的数据来源多、格式多,其中数据类包纟—数—卜,‘±的从细推动作用。年月曰,上海市宣布自今年起推和非结构化数据;快速性是指数据的增长速度快、处理速度要求快。特点是在特点上增加个,但关于府部,数据开放第并未形成统的观点,认为大数据应当具有价。°第七部分大数据与云计算大会于北京国家会议中心拉开帷幕,此次会议通过技术数据时代,必须做相应的改变才能适用于大数据的分析专场、产品发布和培训课程等方式,深度剖析云计算与与处理。根据大数据处理多样性的需求和不同的特征维大数据的核心技术。中国学术界、工业界以及政府对大度,典型的大数据分析模型可如表所示进行分类。数据的广泛关注,必将促进我国大数据的快速发展。表大数据分析模型分类大数据处理流程典型大数据计算模式典型系统大数据数据规模巨大、数据种类繁多,处理方式多,种多样。但大数据也有自己的基本处理流程即数据等获取、数据集成、数据分析和数据解释。批处理计算等流式计算等数据获取迭代计算等多源异构数据的获取是数据处理的基本前提。随着图计算一欣等互联网、物联网、云计算的快速发展’互联网已成为获等取数据的主要渠道,物联网成为大数据搜集来源,社交数据解释网络把人类真实世界映射到网络,以博客、微博为代表联且、设嫩抓社里於田主城姑的社交网络和以手机、平板电脑为代表的移动智能终端的快速发展,每天都会产生大量的数据。云计算改变传统的数据存储方式,为大数据的存储和计算提供了基础平台和技术支撑。当前时代下,数据获取方式众多,是一个重要问题。当主要采用将数据处理结果通过图其中最主要的有如下几种数据获取技术:传感器技术、、一一山技术、条形码技术、技术和移动终端技术、形、像化或者表格化的方式’主要有宇由星球图法、擁可雑驗(練瞧、擁手賴。滅法賴史麵體。数据集成麵集成主要完成数据的抽取、清洗和存储操作。数据获取阶段获取的数据规模巨大、种类繁多数据??抽取将复杂的数据类型转化为单的或者便于处理的雄二型。原始数据价值密度稀疏,很大部分数据相对于某大数一特定应用来说可糊价值较誠者没有价值,甚至可据能包含错误旳“噪声”数据,数据清洗可以保证数据的质翻可信度。数据存储为数据处理提供个平台等大数据处理和細需要多学科、多技木的协同’个良好隱据库,可以实现数据的存储、索引、查询,■■工并可以有效地解决数据难以复用的问题。目前,数据库一种类繁多,既包含传统的关系数据库,也包含非关系数云计算°等,非首席执行官觀克施密特于年月—■日在搜索引擎大会(首次提出“云计数据分析算”的概念。云计算是分布式计算、并行计算等传统计麵分析題从錯异献腿巾魏赚价備息的过程,是大数据处理的核心。当前情况下,我们正处于数据泛滥而我们所能提取到的有用信息较少的、女八口士年甘由走太关、士存储设备通过应用软件集合起来协同工作,共同对外提代,这个问题已成为世界各国尤其是发达国家重点关汪、、供数据存储和业务访问功能的一个系统。石存储是一个的对象。面对极大的数据规模、繁多的数据类型和某些因时效性约束需要快速处理的大规模数据集合,传统数据管理技术、数据处理和分析技术不能直接移植于大■一赃麵機不可分。大觀纖雕鮮台计算机406 系统仿真技术及其应用第卷进行处理,必须采用分布式计算架构。云计算能为大数的倍以上。但是的并发读写效率不是据提供强大的存储和计算能力。特别出色,大约每秒可以处理万万次读写请求。么士―糾金玄松该种类型的数据库还有等。面向高可扩展性的分布式数据库。满足高可扩传统的关系数据库在应对大规模数据时,由于其横展性的分布式数据库的典型代表是。向扩展能力的不足,多用于存储结构化数据【,不能满是一个混合型的非关系数据库,它以的完全分足对大数据高并发读写的需求、对海量数据的高效率存布式为基础,结合了基于列族储和访问的需求以及对数据库商可扩展性的需求,传统(的数据模型。与传统的基于分片的数的关系型数据库已经不能适用于大数据时代的需求。据库集群相比实现了无缝地加入或删除节点,为了解决这些问题,很多公司提出了相应的解决方非常适于对于节点规模变化比较快的应用场景。与其他案并取得了成功,比较有代表性的是公司的数据库相比,有三个突出优点:模式灵活、可数据库系统、的和扩展性高、多数据中心。但是仍然缺少大并发的【。这些方案的成功使人们开始将注意力转移海量数据访问的案例和经验,且新产品需要一定的稳定到非关系数据库的研究上。期,这也是为什么停用的原因。此外,非关系数据库具有易扩展、也是此种类型数据库的典型代表。高读写性能、数据模型灵活和高可用性的优点,顺应大数据时代发展的需求。年月日在柏林举行的‘大数据处里工具非关系数据库大会上,多种非关系数据库被提及,包大数据带来的巨大商业价值驱动着一些依靠数据牟括等依据利的大公司的激烈竞争。近几年,大数据处理工具如“雨结构化方法以及应用场合的不同,主要分为以下几类:后春第”般不断出现,从最早的开源平台,到现面向高性能并发读写的数据库。高在的的【的,几乎每个性能数据库具有极高的并发读写性能,主要公司都拥有自己针对特定用途的处理平台。当前情况下,代表是。是一个类型的内存数据、和从这些大数据处理工具中脱颖而库’整个数据库加载到内存当中进行操作,定期通过异出,网络上关于“数据时代、、步操作把数据库数据到硬盘上进行保存。因为是纯三个大数据处理工具谁将成为主流”的讨论经久不息。下内存操作,每秒可以处理超过万次读写操作。面以此三种处理工具为代表简要介绍大数据处理工具。支持保存链表和集合的数据结构,而且还支持对进行各种操作和对集合的并集、交集操作。是一种基于批处理技术的开源云计算平台,但的缺点也相当明显,其数据库容量受物理内存的以其吞吐量大、自动着错等优点,在海量数据处理领域限制’不能用作海量数据的高性能读写’并且它没有原生得到广泛应用。是目前最为流行的大数据处理工的可扩展机制,不具有可扩展能力。因此适合的场具,在短短几年内,就成为大数据处理工具的标景主要局限在较小数据量的高性能操作和运算上。此外,杆很多大数据处理工具都是在的基础上进行改该种类型的数据库还包括等。进而成。由语言编写,运行在操作系面向海量数据访问的文档数据库。面向文档的统之上,最核心的设计是。和。非关系数据库在保证海量数据存储的同时,具有良好的用于存储海量数据,而用于海量数据查询性能,典型代表为。的计算。本文简要介绍集群结构(如图所示)是一个基于分布式文件系统的数据库,介和工作流程。于关系数据库和非关系数据库之间,是非关系数据库当中功能最丰富的。本身包含一个分布式文件系°丨广统,支持海量数据和复杂数据类型的存储。功能强大的查询语言是其最大的优点,语法类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,支持对数据建立索引。主要解丨决的是海量数据的访问效率问题,据统计,当数据量达到以上的时候,的数据库访问速度是图集群简化结构第七部分大数据与云计算采用架构。集群结构包括负责将任务分配给其他机器并进行故障监测。每个工作、、三个部分:①节点运行一个叫做“”的守护进程,节点负责管理的集群配置和命令空间信息,将文监听分配给它的机器,根据的委派在必要时启件系统的元数据存储在内存中,管理文件信息及存储文动和关闭工作进程。每一个工作进程执行一个件的信息。②发送请求,数据通过的一个子集。一个由运行在多个机器

1 / 7
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功