《大数据策》二O一六年十月二O一六年十月六日大数据策《大数据策》二O一六年十月提纲•第三次信息化浪潮•Hadoop核心技术•Hadoop应用领域•我们的Hadoop《大数据策》二O一六年十月第三次信息化浪潮根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革信息化浪潮发生时间标志解决问题代表企业第一次浪潮1980年前后个人计算机信息处理Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等第二次浪潮1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、百度、腾讯等第三次浪潮2010年前后物联网、云计算和大数据信息爆炸将涌现出一批新的市场标杆企业《大数据策》二O一六年十月第三次信息化浪潮《大数据策》二O一六年十月第三次信息化浪潮阶段时间内容第一阶段:萌芽期上世纪90年代至本世纪初随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。第二阶段:成熟期本世纪前十年Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道第三阶段:大规模应用期2010年以后大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高大数据发展的三个阶段《大数据策》二O一六年十月第三次信息化浪潮数据产生方式的变革《大数据策》二O一六年十月第三次信息化浪潮大数据无处不在,包括金融、制造、零售、电信、餐饮、质检、医疗、政务等在内的社会各行各业都已经刻上了大数据的印迹,尤其是习主席提出的11大安全领域(政治、国土、军事、经济、文化、社会、科技、信息、生态、核、资源)《大数据策》二O一六年十月第三次信息化浪潮要“大数据”还是要“大的数据”万物皆有联系!《大数据策》二O一六年十月提纲•第三次信息化浪潮•Hadoop核心技术•Hadoop应用领域•我们的Hadoop《大数据策》二O一六年十月Hadoop核心技术•Hadoop源于2002年的ApacheNutch项目——开源网络搜索引擎•2004——2005年,Nutch项目依据谷歌发表3篇具有深远影响的论文,开发了HDFS、MapReduce•2006年2月,Nutch中的NDFS和MapReduce开始独立出来,称为Hadoop•2008年1月,Hadoop正式成为Apache顶级项目•2009年5月,Hadoop把1TB数据排序时间缩短到62秒Hadoop从此名声大震,迅速成为大数据时代最具影响力的开源分布式开发平台,并成为事实上的大数据处理标准Hadoop发展历史《大数据策》二O一六年十月Hadoop核心技术《大数据策》二O一六年十月Hadoop核心技术Hadoop生态系统(组件)《大数据策》二O一六年十月Hadoop核心技术核心组件功能HDFS分布式文件系统MapReduce分布式并行编程模型YARN资源管理和调度器Tez运行在YARN之上的下一代Hadoop查询处理框架HiveHadoop上的数据仓库HBaseHadoop上的非关系型的分布式数据库Pig一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言PigLatinSqoop用于在Hadoop与传统数据库之间进行数据传递OozieHadoop上的工作流管理系统Zookeeper提供分布式协调一致性服务Storm流式计算框架Flume一个高可用分布式的海量日志采集、聚合和传输的系统AmbariHadoop快速部署工具,支持ApacheHadoop集群的供应、管理和监控Kafka一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据Spark目前使用最广的内存型分布式计算框架,内嵌DAG(有向无环图)工作流引擎《大数据策》二O一六年十月Hadoop核心技术分布式存储分布式处理GFS\HDFSMapReduce大数据两大核心技术《大数据策》二O一六年十月Hadoop核心技术小存储:小文件或少量文件存储在一个磁盘上大存储:大文件或大量文件存储在一个磁盘上分布式存储:大文件或大量文件分布式存储在多个磁盘上HDFS分布式文件系统《大数据策》二O一六年十月Hadoop核心技术《大数据策》二O一六年十月Hadoop核心技术分片0map()分片2map()分片1map()分片3map()分片4map()reduce()reduce()reduce()输出0输出1输出2输入Map任务Reduce任务输出MapReduce工作流程Shuffle《大数据策》二O一六年十月Hadoop核心技术YARN(ClusterResourceManagement)HDFS2(Redundant,ReliableStorage)INTERACTIVE(Tez)ONLINE(HBase)STREAMING(Storm,S4,...)GRAPH(Giraph)In-MEMORY(Spark)HPCMPI(OpenMPI)OTHER(Search)(Weave...)BATCH(MapReduce)在YARN上部署各种计算框架•YARN负责统一资源调度管理服务•YARN的目标就是实现“一个集群多个框架”•根据计算框架负载需求,调整其占用的资源,实现集群资源弹性分配•实现一个集群上的不同应用负载混搭,有效提高集群的利用率•实现不同计算框架共享底层存储,避免数据集跨集群移动《大数据策》二O一六年十月•流数据具有数据实时持续不断到达、到达次序独立、数据来源众多、格式复杂、数据规模大等特点•流计算应用在产生大量流数据、同时对实时性要求高的领域(股票、证券、银行、搜索引擎、电商、通信、社交类网站等),用于业务监控、广告推荐、买家实时数据分析Hadoop核心技术STORM流计算框架《大数据策》二O一六年十月Hadoop核心技术•高性能:每秒处理几十万至百万级数据•海量式:支持TB级甚至是PB级的数据规模•实时性:延迟较低,达到秒级,甚至是毫秒级STORM流计算能力《大数据策》二O一六年十月•Spark是BerkeleyAMPlab实验室基于mapreduce算法实现的内存型分布式计算框架,针对超大数据集合的低延迟计算,适用于近线或准实时、数据挖掘与机器学习应用场景•Spark是Hadoop的升级版本,计算速度更快。2014.11,在DaytonaGraySort100TBBenchmark竞赛中打破了由MapReduce保持的排序记录。Spark把100TB数据的排序时间从72分钟提高到了23分钟Hadoop核心技术内核部分和4个官方子模块--SparkSQL、SparkStreaming、机器学习库MLlib和图计算库GraphX伯克利的数据分析软件栈BDAS架构《大数据策》二O一六年十月Hadoop核心技术Hadoop缺陷:计算模型延迟过高,适用于离线批处理的应用场景,难以胜任实时、快速计算的需求,不适合执行迭代计算SPARK优势:基于内存的分布式并行编程框架和DAG的任务调度执行机制,支持迭代计算,具有较高的实时性,带来更高的迭代运算效率《大数据策》二O一六年十月Hadoop核心技术在集群中,大部分的服务器是作为DataNode工作的DataNode的硬件规格可以采用以下方案:•8个磁盘驱动器(单盘1-2T),支持JBOD(JustaBunchOfDisks,磁盘簇)•2个4核CPU,至少2-2.5GHz•32-128GB内存或更高•千兆/万兆以太网NameNode和SNameNode提供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务,因此需要更多的RAM,与集群中的数据块数量相对应,并且需要优化RAM的内存通道带宽,采用双通道或三通道以上内存。硬件规格可以采用以下方案:•8-12个磁盘驱动器(单盘1-2T)•2个4核/8核CPU•64-128GB内存或更高•千兆/万兆以太网集群硬件配置方案Hadoop集群规模可大可小,根据业务而定《大数据策》二O一六年十月提纲•第三次信息化浪潮•Hadoop核心技术•Hadoop应用领域•我们的Hadoop《大数据策》二O一六年十月Hadoop应用领域全球大数据和中国的市场规模(来源:Wikibon)《大数据策》二O一六年十月Hadoop应用领域预计到2020年,中国大数据产业市场规模将达到8228.81亿元《大数据策》二O一六年十月Hadoop应用领域预计到2018年,中国大数据基础设施建设市场规模将增长至1873.35亿元,随后两年市场规模将有所减小《大数据策》二O一六年十月Hadoop应用领域预计到2020年,中国大数据软件市场规模将增长至5019.58亿元《大数据策》二O一六年十月Hadoop应用领域贵阳大数据交易所《大数据策》二O一六年十月Hadoop应用领域•目前在线推荐系统已广泛应用于电子商务、在线视频、在线音乐、社交网络等各类网站和应用中•如各类电商利用用户的浏览历史记录来实时向用户推荐商品,推荐的主要是用户未浏览过,但可能感兴趣、有潜在购买可能性的商品推荐商品在线推荐《大数据策》二O一六年十月Hadoop应用领域GIS观测、跟踪北京市实时交通路况信息《大数据策》二O一六年十月Hadoop应用领域央视与百度合作,播报春节期间全国人口迁徙情况人口迁徙分析《大数据策》二O一六年十月Hadoop应用领域安全供应商Norse开发全球范围内黑客攻击频率的地图()公共安全《大数据策》二O一六年十月Hadoop应用领域反映霍乱患者分布与水井分布的地图霍乱地图分析了霍乱患者分布与水井分布之间的关系,发现在有一口井的供水范围内患者明显偏多,据此找到了霍乱爆发的根源是一个被污染的水泵疾病防控《大数据策》二O一六年十月Hadoop应用领域大数据存储数据源层技术支撑层业务层交互层用户层个人用户网络医院独立体检机构社区卫生服务机构区域医疗信息平台新农合医保社保大数据处理基于大数据的健康评估技术基于大数据的个性化诊疗技术面向普遍人群的通用型健康服务面向特定人群的主题式健康服务面向决策、科研等机构的循证医学数据服务面向健康服务机构的信息服务医疗卫生机构专业健康服务机构决策机构科研机构健康服务相关机构个人用户疾控中心门户网站呼叫中心移动终端平台接入API开放应用平台服务第三方检测机构大数据集成、存储安全隐私数据标准构建覆盖全生命周期、内涵丰富、结构合理的以人为本全面连续的综合健康服务体系,利用大数据技术和智能设备技术,提供线上线下相结合的公众健康服务,实现“未病先防、已病早治、既病防变、愈后防复”,满足社会公众多层次、多方位的健康服务需求,提升人民群众的身心健康水平《大数据策》二O一六年十月Hadoop应用领域菜鸟网络到底是什么?•中国智能物流骨干网,又名“菜鸟”•菜鸟网络计划在5到8年内,打造一个全国性的超级物流网。•这个网络能在24小时内将货物运抵国内任何地区,能支撑日均300亿元(年度约10万亿元)的巨量网络零售额。1000亿元投资物流基础设施强强联手共建智能骨干网络物流信息系统向所有的制造商、网商、快递公司、第三方物流公司完全开放阿里物流体系天网天猫牵头负责与各大物流快递公司对接的数据平台地网即“菜鸟”,又称“中国智能物流骨干网(CSN)”智能物流:阿里巴巴的中国智能物流骨干网(地网)《大数据策》二O一六年十月•AntiFraud打假•CapitalMarkets资本市场•CaseManagement项目管理•CrisisResponse危机处理•CyberSecurity网络安全•Defense国防安全•DisasterPreparedness灾害预防•DiseaseResponse疾病控制•HealthcareDelivery医疗卫生我们的Hadoop•InsuranceAnalytics保险分析•Intelligence情报工作•LawEnforcement