基于Hadoop的大数据应用分析45

zby80337558
6 ℃
2019-02-26

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

3Sept2008©NEUSOFTSECRET基于Hadoop的大数据应用分析5.东软基于HADOOP的大数据应用建议内容提要1.大数据背景介绍2.HADOOP体系架构3.基于HADOOP的大数据产品分析4.基于HADOOP的大数据行业应用分析IDC定义：为了更为经济的从高频率获取的、大容量的、不同结构和类型的数据中获取价值，而设计的新一代架构和技术。大数据定义及特点大数据对系统的需求•Highperformance–高并发读写的需求高并发、实时动态获取和更新数据•HugeStorage–海量数据的高效率存储和访问的需求类似SNS网站，海量用户信息的高效率实时存储和查询•HighScalability&&HighAvailability–高可扩展性和高可用性的需求需要拥有快速横向扩展能力、提供7*24小时不间断服务商业模式驱动应用需求驱动云计算改变了IT,而大数据则改变了业务云计算是大数据的IT基础，大数据须有云计算作为基础架构，才能高效运行通过大数据的业务需求，为云计算的落地找到了实际应用大数据和云计算的关系大数据云计算大数据市场分析12011年-2016年中国大数据市场规模2各行业大数据市场规模政府、互联网、电信、金融的大数据市场规模较大，四个行业将占据一半市场份额。由于各个行业都存在大数据应用需求，潜在市场空间非常可观。2011年是中国大数据市场元年，一些大数据产品已经推出，部分行业也有大数据应用案例的产生。2012年-2016年，将迎来大数据市场的飞速发展。2012年中国大数据市场规模达到4.7亿元，2013年大数据市场将迎来增速为138.3%的飞跃，到2016年，整个市场规模逼近百亿。5.东软基于HADOOP的大数据应用建议内容提要1.大数据背景介绍2.HADOOP体系架构3.基于HADOOP的大数据厂商分析4.基于HADOOP的大数据行业应用分析大数据主要应用技术——Hadoop据IDC的预测，全球大数据市场2015年将达170亿美元规模，市场发展前景很大。而Hadoop作为新一代的架构和技术，因为有利于并行分布处理“大数据”而备受重视。ApacheHadoop是一个用java语言实现的软件框架，在由大量计算机组成的集群中运行海量数据的分布式计算，它可以让应用程序支持上千个节点和PB级别的数据。Hadoop是项目的总称，主要是由分布式存储（HDFS）、分布式计算（MapReduce）等组成。优点：可扩展：不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。经济：框架可以运行在任何普通的PC上。可靠：分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。高效：分布式文件系统的高效数据交互实现以及MapReduce结合LocalData处理的模式，为高效处理海量的信息作了基础准备。MapReduceHDFSHBasePigChuKwaHiveZooKeeperHadoop体系架构•Pig是一个基于Hadoop的大规模数据分析平台，Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口•Chukwa是基于Hadoop的集群监控系统，由yahoo贡献•hive是基于Hadoop的一个工具，提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行•ZooKeeper：高效的，可扩展的协调系统,存储和协调关键共享状态•HBase是一个开源的，基于列存储模型的分布式数据库•HDFS是一个分布式文件系统。有着高容错性的特点，并且设计用来部署在低廉的硬件上，适合那些有着超大数据集的应用程序•MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算MapReduceMap：任务的分解Reduce：结果的汇总两大核心设计HDFSNameNode：文件管理DataNode：文件存储Client：文件获取Hadoop核心设计HDFS——分布式文件系统•NameNode可以看作是分布式文件系统中的管理者，存储文件系统的meta-data，主要负责管理文件系统的命名空间，集群配置信息，存储块的复制。•DataNode是文件存储的基本单元。它存储文件块在本地文件系统中，保存了文件块的meta-data，同时周期性的发送所有存在的文件块的报告给NameNode。•Client就是需要获取分布式文件系统文件的应用程序。HDFS是一个高度容错性的分布式文件系统，能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS具体操作文件写入：1.Client向NameNode发起文件写入的请求2.NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。3.Client将文件划分为多个文件块，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。文件读取：1.Client向NameNode发起文件读取的请求2.NameNode返回文件存储的DataNode的信息。3.Client读取文件信息。MapReduce——映射、化简编程模型1.根据输入数据的大小和参数的设置把数据分成splits,每个split对于一个map线程。2.Split中的数据作为Map的输入，Map的输出一定在Map端。3.Map的输出到Reduce的输入的过程(shuffle过程)：第一阶段：在map端完成内存-排序-写入磁盘-复制第二阶段：在reduce端完成映射到reduce端分区-合并-排序4.Reduce的输入到Reduce的输出最后排好序的key/value作为Reduce的输入，输出不一定是在reduce端。MapReduce是一种编程模型，用于大规模数据集的并行运算。Map（映射）和Reduce（化简），采用分而治之思想，先把任务分发到集群多个节点上，并行计算，然后再把计算结果合并，从而得到最终计算结果。多节点计算，所涉及的任务调度、负载均衡、容错处理等，都由MapReduce框架完成，不需要编程人员关心这些内容。HBASE——分布式数据存储HBase–HadoopDatabase，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统；HBase位于结构化存储层，HDFS为HBase提供了高可靠性的底层存储支持,MapReduce为HBase提供了高性能的计算能力，Zookeeper为HBase提供了稳定服务和failover机制；Pig和Hive还为HBase提供了高层语言支持，使得在HBase上进行数据统计处理变的简单。5.东软基于HADOOP的大数据应用建议内容提要1.大数据背景介绍2.HADOOP体系架构3.基于HADOOP的大数据产品分析4.基于HADOOP的大数据行业应用分析Hadoop主要开发厂商大型企业和机构在寻求解决棘手的大数据问题时，往往会使用开源软件基础架构Hadoop的服务。由于Hadoop深受欢迎，许多公司都推出了各自版本的Hadoop，也有一些公司则围绕Hadoop提供解决方案。Hadoop的发行版除了社区的Apachehadoop外，cloudera，IBM，ORACLE等都提供了自己的商业版本。商业版主要是提供Hadoop专业的技术支持，这对一些大型企业尤其重要。ClouderaEMC。。。IBMOracleHadoop主要开发厂商——CLOUDERA在Hadoop生态系统中，规模最大、知名度最高的公司则是Cloudera。2008年成立的Cloudera是最早将Hadoop商用的公司，为合作伙伴提供Hadoop的商用解决方案，主要是包括支持，咨询服务和培训。Cloudera的客户中倒是有很多知名公司，如AOL、哥伦比亚广播公司、eBay、Expedia、摩根大通、Monsanto、诺基亚、RIM和迪士尼等。Cloudera企业解决方案包括Hadoop软件发行版、Cloudera管理器。Hadoop主要开发厂商——Hortonworks2011年成立的Hortonworks是雅虎与硅谷风投公司BenchmarkCapital合资组建的公司。公司成立之初吸纳了大约25名至30名专门研究Hadoop的雅虎工程师，上述工程师均在2005年开始协助雅虎开发Hadoop，这些工程师贡献了hadoop80%的代码。Hortonworks的主打产品是HortonworksDataPlatform(HDP)，包括稳定版本的ApacheHadoop的所有关键组件。InfoSphereBigInsights是一个软件平台，旨在帮助企业从大量不同范围的数据中挖掘商机并进行分析，如日志记录、点击流、社会媒体数据、新闻摘要、电子传感器输出，甚至是一些事务数据等。BigInsights包括ApacheHadoop发行版、面向MapReduce编程的Pig编程语言、针对IBM的DB2数据库的连接件以及IBMBigSheets。IBM通过其智慧云企业（SmartCloudEnterprise）基础架构，将BigInsights和BigSheets作为一项服务来提供。客户不必购买支持性硬件，也不需要IT专门知识，就可以学习和试用大数据处理和分析功能。据IBM称，客户用30分钟就能搭建起Hadoop集群，并能将现有数据转移到集群里面。Hadoop主要开发厂商——IBMHadoop主要开发厂商——ORACLEOracleBigData机与OracleExadata数据库云服务器以及新推出的OracleExalytics商务智能云服务器，为客户提供了一个端到端的大数据解决方案，从而为客户在企业内获取、组织、分析大数据以及最大限度地挖掘大数据的价值提供了所需要的一切条件。OracleBigData机是一款集成设计的系统，并且针对获取、组织以及将非结构化数据加载到Oracle数据库11g之中的整个流程进行优化。OracleBigData机包括开源ApacheHadoop、OracleNoSQL数据库、Oracle数据集成Hadoop应用适配器、OracleHadoop装载器。EMC公司于2013年发布了自身的ApacheHadoop发行版——PivotalHD，同时发布的还有一个名为HAWQ的技术，通过HAWQ能够将Greenplum分析型数据库与Hadoop分布式架构进行紧密地融合。PivotalHD对ApacheHadoop进行了全面的改造，同其他一些Hadoop发行版相比，其最大的优势就是能够与Greenplum数据库进行整合，PivotalHD和HAWQ让EMC在Hadoop领域更进一步，同时将成为EMC大数据战略中的一个重要里程碑。Hadoop主要开发厂商——EMC基于在大数据领域的长期技术积累和应用经验，英特尔推出成熟的企业级Hadoop发行版，为企业和政府部门实现大数据应用提供强有力的平台支持。英特尔在Hadoop上的改进和功能增强为用户提供了一个高性能、高稳定性和可管理的大数据应用实施平台，并提供全面的专业支持。在Hadoop软件的英特尔分发版在中国推广的两年多时间里，已经在电信行业、智能交通行业有多个成功应用。Hadoop主要开发厂商——INTEL5.东软基于HADOOP的大数据应用建议内容提要1.大数据背景介绍2.HADOOP体系架构3.基于HADOOP的大数据产品分析4.基于HADOOP的大数据行业应用分析大数据应用行业分析应用可能性电信政府（公共事业）交通金融医疗教育能源（电力/石油）•纵轴契合度：表示该用户的IT应用特点与大数据特性的契合程度；•横轴应用可能性：表示该用户出于主客观因素在短期内投资大数据的可能性；•注：该位置为分析师访谈的综合印象，为定性分析，图中位置不代表具体数值HighMidLowLowMidHigh优先关注行业用户应用特点与大数据技术有较高的契合度，在主客观条件上也有较高的应用可能性。值得关注行业用户应有特点与大数据的契合度及应用可能性综合较高适当关注行业用户两个维度暂时都不具备优势，可适当给予关注互联网（电子商务）契