大数据技术

kinght52
3 ℃
2020-01-03

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

大数据大数据(bigdata,megadata)，或称巨量资料，指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。第一，数据体量巨大。从TB级别，跃升到PB级别。第二，数据类型繁多，如前文提到的网络日志、视频、图片、地理位置信息，等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器，无一不是数据来源或者承载的方式。大数据最核心的价值就是在于对于海量数据进行存储和分析。大数据（Bigdata）通常用来形容一个公司创造的大量非结构化和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。简言之，从各种各样类型的数据中，快速获得有价值信息的能力，就是大数据技术。大的数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理（MPP）数据库，数据挖掘电网，分布式文件系统，分布式数据库，云计算平台，互联网，和可扩展的存储系统，但不是所有的MPP的关系数据库的PB的数据存储和管理的能力。隐含的负载，监控，备份和优化大型数据表的使用在RDBMS的。SOA管理大数据SOA的三个数据中心模型分别是数据即服务(DaaS)模型、物理层次结构模型和架构组件模型。DaaS数据存取的模型描述了数据是如何提供给SOA组件的。物理模型描述了数据是如何存储的以及存储的层次图是如何传送到SOA数据存储器上的。最后，架构模型描述了数据、数据管理服务和SOA组件之间的关系。从大数据的价值链条来分析，存在三种模式：1-手握大数据，但是没有利用好；比较典型的是金融机构，电信行业，政府机构等。2-没有数据，但是知道如何帮助有数据的人利用它；比较典型的是IT咨询和服务企业，比如，埃森哲，IBM，Oracle等。3-既有数据，又有大数据思维；比较典型的是Google，Amazon，Mastercard等。未来在大数据领域最具有价值的是两种事物：1-拥有大数据思维的人，这种人可以将大数据的潜在价值转化为实际利益；2-还未有被大数据触及过的业务领域。这些是还未被挖掘的油井，金矿，是所谓的蓝海。大数据常和云计算联系到一起，因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。可以说，云计算充当了工业革命时期的发动机的角色，而大数据则是电。如今，在Google、Amazon、Facebook等一批互联网企业引领下，一种行之有效的模式出现了：云计算提供基础架构平台，大数据应用运行在这个平台上。那么大数据到底需要哪些云计算技术呢？这里暂且列举一些，比如虚拟化技术，分布式处理技术，海量数据的存储和管理技术，NoSQL、实时流数据处理、智能分析技术（类似模式识别以及自然语言理解）等。云计算和大数据之间的关系可以用下面的一张图来说明，两者之间结合后会产生如下效应：可以提供更多基于海量业务数据的创新型服务；通过云计算技术的不断发展降低大数据业务的创新成本。分布式处理技术分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来，在控制系统的统一管理控制下，协调地完成信息处理任务—这就是分布式处理系统的定义。以Hadoop（Yahoo）为例进行说明，Hadoop是一个实现了MapReduce模式的能够对大量数据进行分布式处理的软件框架，是以一种可靠、高效、可伸缩的方式进行处理的。而MapReduce是Google提出的一种云计算的核心计算模式，是一种分布式运算技术，也是简化的分布式编程模式，MapReduce模式的主要思想是将自动分割要执行的问题（例如程序）拆解成map（映射）和reduce（化简）的方式，在数据被分割后通过Map函数的程序将数据映射成不同的区块，分配给计算机机群处理达到分布式运算的效果，在通过Reduce函数的程序将结果汇整，从而输出开发者需要的结果。你也可以这么理解Hadoop的构成，Hadoop=HDFS（文件系统，数据存储技术相关）+HBase（数据库）+MapReduce（数据处理）+……OthersHadoop用到的一些技术有：HDFS:Hadoop分布式文件系统(DistributedFileSystem)－HDFS(HadoopDistributedFileSystem)；MapReduce：并行计算框架；HBase:类似GoogleBigTable的分布式NoSQL列数据库；Hive：数据仓库工具，由Facebook贡献；Zookeeper：分布式锁设施，提供类似GoogleChubby的功能，由Facebook贡献；Avro：新的数据序列化格式与传输工具，将逐步取代Hadoop原有的IPC机制；Pig:大数据分析平台，为用户提供多种接口；Ambari：Hadoop管理工具，可以快捷的监控、部署、管理集群；Sqoop：用于在Hadoop与传统的数据库间进行数据的传递。云计算云计算是世界各大搜索引擎及浏览器数据收集、处理的核心计算方式。云计算(cloudcomputing)是商业化的超大规模分布式计算技术。即：用户可以通过已有的网络将所需要的庞大的计算处理程序自动分拆成无数个较小的子程序，再交由多部服务器所组成的更庞大的系统，经搜寻、计算、分析之后将处理的结果回传给用户。云存储是在云计算(cloudcomputing)概念上延伸和发展出云存储来的一个新的概念，是指通过集群应用、网格技术或分布式文件系统等功能，将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作，共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时，云计算系统中就需要配置大量的存储设备，那么云计算系统就转变成为一个云存储系统，所以云存储是一个以数据存储和管理为核心的云计算系统。从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。