大数据技术基础

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第二章:大数据技术基础《大数据分析及应用实践》《大数据分析及应用实践》基础架构支持《大数据分析及应用实践》Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中Hadoop的核心是分布式文件系统HDFS(HadoopDistributedFileSystem)和MapReduceHadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都支持Hadoop《大数据分析及应用实践》•经过多年的发展,Hadoop项目不断完善和成熟,目前已经包含多个子项目(如下图2-2所示)•除了核心的HDFS和MapReduce以外,Hadoop项目还包括Common、Avro、Zookeeper、HBase、Hive、Chukwa、Pig等子项目,它们提供了互补性服务或在核心层上提供了更高层的服务Hadoop技术架构Hadoop技术架构图《大数据分析及应用实践》:日志采集;2:传输日志;3:将日志写入HDFS;4:从HDFS中将日志装载入数据仓库中;5:对装载的数据进行分析;6:调用Hadoop集群的M/R执行并行计算,并返回结果;7:将结果中有价值的数据写入HBASE数据库;8:报表系统&应用程序端通过HBASE查询数据并展现;项目架构《大数据分析及应用实践》HBase是运行在Hadoop上的NoSQL数据库,它是一个分布式的、可扩展的大数据仓库,是一个构建在HDFS上的分布式列存储系统;从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。HBase表特点:a.大b.无模式c.面向列d.稀疏e.数据多版本f.数据类型单一《大数据分析及应用实践》是一种编程模型,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。Map—映射Reduce——归纳MapReduce就是“任务的分解与结果的汇总”MapReduce处理流程《大数据分析及应用实践》•Hive是建立在Hadoop上的数据仓库基础构架,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。•本质是将SQL转换为MapReduce程序Hive与Hadoop关系《大数据分析及应用实践》Pig是一个基于Hadoop的大规模数据分析平台,Pig包含两个部分:PigInterface,PigLatin。它提供的SQL-LIKE语言叫PigLatin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。Pig简介《大数据分析及应用实践》是一套完整的数据处理、计算和制图软件系统。数据存储和处理系统数组运算工具(其向量、矩阵运算方面功能尤其强大)完整连贯的统计分析工具优秀的统计制图功能简便而强大的编程语言可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能功能2.云计算《大数据分析及应用实践》云计算的特点云计算是一种计算模型,它将计算任务分布在大量计算机构成的资源池上,使用户能够按照自己的需要获取计算、存储和信息服务。云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源1.可扩展性:实现动态的,可伸缩的扩展2.按需提供资源服务:按需求提供资源,按使用量付费3.虚拟化:基于虚拟化技术快速部署资源或获得服务4.超大规模:通过互联网提供、面向海量信息处理5.高可靠性和安全性:服务器使用数据多副本容错,计算节点同构可互换等措施,保障服务的可靠性和安全性。云计算的特点:公有云混合云私有云应用层软件即服务(SaaS)平台层平台即服务(PaaS)基础设施层基础设施即服务(IaaS)云计算的服务模式和类型《大数据分析及应用实践》商业模式驱动应用需求驱动云计算为大数据提供了技术基础,大数据为云计算提供了用武之地•云计算的模式是业务模式,本质是数据处理技术。•数据是资产,云为数据资产提供存储、访问和计算。•当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。2.2.2云计算与大数据3.数据采集《大数据分析及应用实践》数据采集数据采集:其实就是大数据抽取、转换和加载的过程数据采集的工具:摄像头、麦克风等都是数据采集的工具。数据采集的意义:足够的数据量是企业大数据战略建设的基础,数据采集成为大数据分析的前奏。数据采集是大数据价值挖掘中重要的一环,它是计算机与外部物理世界连接的桥梁。数据采集的方法:《大数据分析及应用实践》数据采集的意义数据采集:其实就是大数据抽取、转换和加载的过程数据采集的工具:摄像头、麦克风等都是数据采集的工具。数据采集的意义:足够的数据量是企业大数据战略建设的基础,数据采集成为大数据分析的前奏。数据采集是大数据价值挖掘中重要的一环,它是计算机与外部物理世界连接的桥梁。数据采集的方法:系统日志采集方法网络数据采集方法其他数据采集方法基于物联网的采集方法《大数据分析及应用实践》基于物联网的采集方法数据的采集有基于物联网传感器的采集,也有基于网络信息的数据采集。基于物联网的采集,例如在智能交通中,数据的采集有:基于GPS的定位信息采集、基于交通摄像头的视频采集、基于交通卡口的图像采集、基于路口的线圈信号采集等。基于GPS的定位信息采集基于GPS的定位信息采集基于交通摄像头的视频采集基于交通卡口的图像采集基于路口的线圈信号采集智能交通中基于物联网的数据采集《大数据分析及应用实践》系统日志采集方法很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。系统日志的采集Facebook的ScribeHadhoop的ChukwaCloudra的FlumeFacebook的Scribe•Scribe是Facebook开源的日志手机系统,它能够从各种日志源上收集日志,存储到一个中央存储系统上,以便于进行集中统计分析处理。它为日志的“分布式收集,统一处理”提供了一个可扩展的,高容错的方案。Hadoop的Chukwa•chukwa是一个开源的用于监控大型分布式系统的数据收集系统。这是构建在hadoop的hdfs和map/reduce框架之上的,继承了hadoop的可伸缩性和鲁棒性。Chukwa还包含了一个强大和灵活的工具集,可用于展示、监控和分析已收集的数据。Cloudera的Flume•Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力《大数据分析及应用实践》)四个主要模块及功能网络爬虫从Internet上抓取网页内容,并抽取出需要的属性内容。URL队列为爬虫提供需要抓取数据网络的URL数据处理对爬虫抓取的内容进行处理数据1.SiteUrl,需要抓取数据网站的Url信息;2.SpiderData,爬虫从网页中抽取出来的数据;3.DPData,经过dp处理之后的数据2)网络数据采集和处理的基本步骤《大数据分析及应用实践》其他数据的采集方法对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。4.数据存储《大数据分析及应用实践》数据存储的概念概念:数据以某种格式记录在计算机内部或外部存储介质上。数据存储方式与数据文件组织密切相关,其关键在于建立记录的逻辑与物理顺序间对应关系,确定存储地址,以提高数据存取速度。《大数据分析及应用实践》数据的存储方式开放系统的直连式存储(DirectAttachedStorage,DAS)网络附加存储(NetworkAttachedStorage,NAS)直接连接于主机服务器的一种储存方式。每一台主机服务器有独立的储存设备,可以说是一种应用较为早的技术实现。DAS缺点:•效率比较低•无法共享•数据保护流程复杂是一种用高速(光纤)网络联接专业主机服务器的一种储存方式。NAS优点:•即插即用•存储简单•存储设备位置灵活大数据存储方式《大数据分析及应用实践》、文本类型:Excel、TXT、CSV等。2、数据库类型:MySQL、SQLSever、Oracle、PostgreSQL等。3、数据集群类型:Hive、Spark等。《大数据分析及应用实践》本章小结进行大数据的大分析,需要一定的架构支撑和技术支持。本章介绍了大数据处理过程中需要涉及的几个重要技术平台。Hadoop被视为事实上的大数据处理标准,本章介绍了Hadoop的发展历程,并着重介绍了Hadoop的基础架构:HBase、MapReduce、Hive、Pig、R语言。云计算技术师硬件技术和网络技术发展到一定阶段而出现的一种新的技术模型,它具有可扩展性、按需提供资源服务、虚拟化、超大规模、高可靠性和安全性等特点,云计算与大数据相辅相成,相得益彰。本章最后介绍了数据采集的作用及方法,并介绍了数据存储的方式和常见数据源的类型。THANKS!THANKS!

1 / 28
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功