机器学习简明原理(DOC47页)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

2011年3月AIMMC操作控制中心方案1新产品研发中心橘云平台产品线亚信联创科技(中国)有限公司2013年4月橘云大数据处理平台OrangeCloudDataComputing提纲23橘云大数据处理平台功能与特点橘云大数据处理平台部署方案1橘云大数据处理平台简介4橘云大数据处理平台二次开发接口5橘云大数据处理平台业务场景示例概念大数据:大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到抽取,管理,处理,并整理成为帮助企业经营决策更积极目的的资讯。大数据的3V特点:volume,velocity,variety大数据的单位:最小的基本单位是Byte,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,云计算:(cloudcomputing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。意味着计算能力也可作为一种商品通过互联网进行流通。云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化的资源的计算模式。云模式:cloudmodel,用于预测云的性能和行为而采用的物理或数学框架“大数据”时代已经来临互联网时代,尤其是社交网络、电子商务与移动通讯把人类社会带入一个以PB为单位的结构与非结构数据信息的新时代,它就是“大数据(BigData)”时代。大数据为云计算的大规模与分布式的计算能力提供了应用的空间,解决了传统计算机无法解决的问题。这个领域的计算标准与软件均刚刚起步,为全世界新型软、硬件及应用创新提供了前所未有的机会。Volume海量Variety多样Velocity实时数据处理的量级正从TB级向PB、ZB级扩张。能处理结构化数据和非结构化数据,Web数据、语音数据甚至是图像、视频数据。从延迟、批量处理向实时处理、流式处理转变,支持海量数据的毫秒级运算。“大数据”的3V特性移动运营商的云计算需求单个网民日均上网时间增长趋势(小时)网民数量增长趋势(亿)中国手机互联网用户每周手机上网频次统计数据来源:中国互联网发展状况统计报告、中国移动互联网与3G用户调查报告DCCI2010手机互联网受众消费与广告营销调查44.4%中国手机互联网用户每周媒体接触时长统计33.3%3.18亿随着智能手机的快速普及以及移动互联网业务的迅猛发展,各种网络信令、互联网、流量数据信息等数据源竞相引入,对经营分析数据处理及存储要求不断增加,传统的BI数据处理架构在日益增长的计算、存储、可靠性要求以及系统扩容成本等方面均面临着严峻的考验:计算能力传统ETL工具对主机性能依赖较大,数据处理任务交错,无法充分利用设备性能。很多在DB/DW中进行的数据校验、转换等工作对应用性能影响较大。存储能力存储压力大,海量存储难以满足。存储扩容难度大。高可靠性传统ETL方式可靠性不高,运维管理复杂,影响应用的稳定性和数据安全性。扩容成本扩容成本高,难度大、主机、存储、数据库成本占系统建设比重大,压缩了应用建设的投入。面临的问题结构化和非结构化数据1、对于IT行业来说,大数据,云计算,云模式,无疑是未来的热门研究领域。2、大数据是由结构化和非结构化的数据组成。3、结构化数据是存储在数据库里面,占大数据的10%4、非结构化数据是跟人类信息密切相关的数据,比如说邮件,视频,微博,帖子,手机呼叫,网页点击等。它们占大数据的90%。1、结构化数据:任何一列的数据不可以再细分;任何一列数据都有相同的数据类型;所有关系型数据库中的数据,全部都是结构化数据;一般文件中的数据,就不是结构化数据;2、非结构化数据;不是结构化数据,即非结构化数据;简单来说,一列的数据可以再细拆分;1、分布式系统(distributedsystem)是建立在网络之上的软件系统;2、分布式数据库:分布式数据库系统通常使用较小的计算机系统,每台计算机可单独放在一个地方,每台计算机中都有DBMS的一份完整拷贝副本,并具有自己局部的数据库,位于不同地点的许多计算机通过网络互相连接,共同组成一个完整的、全局的大型数据库。3、Hadoop是一个分布式文件系统的基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。HADOOP实现了一个分布式文件系统,简称HDFS。并且设计用来部署在低廉的(low-cost)硬件上。且它提供高传输率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HADOOP概念1、HADOOPr产品介绍:1.1:HDFS:可以支持千万级的大型分布式文件系统;1.2:HBase是一个分布式的、面向列的开源数据库;HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。1.3:MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性;每个节点会周期性的把完成的工作和状态的更新报告回来。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。主要产品对应关系GoogleHadoop分布式文件系统GFSHDFS,分布式数据处理模型和执行环境,运行于大型商用机集群。分布式数据库BigTableHbase,一个分布式、按列存储数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。分布式编程算法MapReduceMapReduce,分布式数据处理模型和执行环境,运行于大型商用机集群。分布式锁服务ChubbyZooKeeperHadoop是一个分布式系统基础架构项目的总称,起源于作者儿子的一只玩具大象的名字,由Apache基金会开发,并开源提供支持,后来被FaceBook等互联网公司选用,在此基础上进行二次开发。主要产品是HDFS,Hbase,MapReduce。•扩展能力:能可靠地存储和处理千兆字节(PB)数据。在不保证低延时的前提下,具有相当大的吞吐量,非常适合海量数据的运算。•成本低:可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。而且每个节点都是运行在开源操作系统Linux上面的。•高效率:通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。•可靠性:hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署计算任务。•该框架设计的初衷是针对海量数据的运算处理的问题。因此对于一些数据量很小的处理没有任何优势可言,甚至还不如单机串行的效果,性能也完全体现不出来。•集群中存在大量的机器,所以节点故障是不可避免的。在Hadoop中有两种类型的结点:namenode和datanode。Hadoop集群采取的master/slave结构。Datanode故障一般是不会影响整个系统的,这个和它的存储策略有关。但是namenode故障是是极大的问题•其文件系统设计的前提是一次写入多次读取的情况,因此我们是无法修改某条详细的数据。为什么选择Hadoop选择Hadoop需要注意什么Hadoop——Google分布式技术的开源实现橘云大数据处理平台OCDC简介OCDataComputing平台包含基于Map/Reduce的分布式批量计算和基于流式计算技术的分布式实时计算功能,实现海量数据的并行处理。适用于ETL、经营决策、用户行为分析、精准营销、移动互联网等领域的智能数据处理与分析。橘云大数据处理平台技术架构云平台•基于文件•刀片机或PCServer•分布式存储和并行计算•方便扩容•全图形化配置监控传统ETL•基于数据仓库•小型机以上•统一存储和单节点运算•难以扩容•需要专业人员维护云VS传统平台VS传统ETL提纲23橘云大数据处理平台功能与特点橘云大数据处理平台部署方案1橘云大数据处理平台简介4橘云大数据处理平台二次开发接口5橘云大数据处理平台业务场景示例平台功能概要基础数据元数据接入平台自定义节点活动类别维度数据数据流程数据流程编辑数据清洗转换算法数据抽取加载参数调度任务触发器启动参数任务组依赖任务监控监控任务操作任务批量执行系统管理用户管理角色管理Hive查询数据HIVE:就基于HADOOP的一个数据仓库的工具,可以将非结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能。可以将SQL转换为MAPREDUCE任务进行运行。其优点是学习成本低,可通过类SQL语句快速实现简单的MAPREDUCE统计,适合数据他库的统计分析;多种格式•CVS•XML•Excel•ASN.1参数可配•不同格式不同参数•编码•分隔符、Tag•字段定义可扩展•提供扩展接口,方便支持其他格式•参数自定义高效率•内部运算使用二进制存储•针对大批量零散文件优化基础数据-元数据元数据:用于描述业务数据的格式、含义、特性及其运行环境等的数据•FTP•Oracle/DB2/Mysql/Teradata•GP•其他(可方便扩展)多种协议•多任务发布到集群中并行处理•可限制抽取并发数•可控制并发优先级并发和控制基础数据-接入平台基础数据-维度数据维度数据:定义云数据中字段的取值的枚举类型,可以通过此维度校验云数据的正确性基础数据-自定义节点自定义节点:用户可以根据平台的二次接口开发规范定义个性化的业务处理接口,在此处把定义接口类注册到系统中数据流程系统提供图形化的流程定义画面,用户以拖拉和配置的方式,从“工具箱”中将流程节点拖动到流程设计器的画板上,并根据实际业务需要对流程节点进行配置数据流程-流程节点流程节点帮助实现具体的流程逻辑完成具体的工作流任务流程节点功能描述开始标识着一个数据流程的开始。里面没有什么配置数据抽取将外部提供的数据抽取到,需要定义抽取接口的连接方式、访问协议和接入账户等信息,提供了文件和数据库两种抽取方式:1.文件提供了FTP、HTTP访问方式以获取文件1.数据库能够获取Oracle和DB2中的数据,需要配置获取数据的查询条件输出把处理后的数据以文件或压缩包的方式输出到指定位置加载到数据库加载到相应的数据仓库中进行后续分析运算,支持Oracle、DB2等主流数据库结束标识着一个数据流程的结束。里面没有什么配置数据流程-逻辑节点逻辑节点在流程中对数据进行相应的处理流程节点功能描述Join能够对两个文件通过一项或多项记录进行关联输出,可以是leftjoin、rightjoin或innerjoin。在过程中也可以进行记录的过滤和转换操作Group能够根据某个文件的一项或多项记录进行聚合,并进行Max、Min、Count等运算处理。在过程中也可以进行记录的过滤和转换操作Union能过对多个文件进行转换为统一字段后进行合并处理。在过程中也可以进行记录的过滤Hive通过编写HIVEQL语句对流程中的数据进行处理Parallet通过JEXL语言,可以用编程的方式对记录进行处理,把抽取的数据转换为系统需要的数据格式Udf引入客户自定义的java类处理特殊的业务要求数据流程-监听节点通过设置监听器对流程运行状态进行监控调度任务触发器•月、周、日、循环触发•可扩展自定义触发器参数•绑定到ETL流程的变量名和变量值•可设定数据日期和偏移量执行•自动根据触发器执行•手动单个执行•批量运行数据日期区间•批量运行最后一次到目前为止未执行的任务调度任务时间触发器设置:可以按照小时、天、周、月设置触发条件,设置触发器开始执行时间及失效时间事件触发器设置:通过开发自定义接口,实现在满足业务逻辑的情况下触发任务执行设置流程中定义类所使用的参数调度任务-任务组各个流程之间可能存在依赖关系,平台提供任务组管理,以流程化、图形化的配置能力把相互之间有关系的流程,在同一任务组中通过连线、属性配置等方式实现流程间依赖关系管理平台监控-任务监控对所有已经发起的流程以图形化方式进行,监控。流程整体监控:可以监控管辖范围

1 / 47
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功