00-大数据基础知识

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

FusionInsightHD培训材料大数据基础知识1大数据概念与hadoop简介1大数据行业应用2大数据架构简介3220世纪90年代,数据仓库之父的BillInmon就经常提及BigData2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念BigData名词由来3大数据市场趋向稳定4大量数据存储海量计算大量数据管理数据分析大数据定义-不同的声音5维基百科:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”IDC:一般会涉及2种以上数据形式,数据量100T以上,且是高速、实时数据流;或者从小数据开始,但数据每年增长60%Gartner:大数据的四个V:Volume、Variety、Velocity、ValueVolume:数据量巨大Velocity:分析处理速度快Variety:种类和来源多样化•集中储存/集中计算已经无法处理巨大的数据量•日志/图片/视频/文档/地理位置…•海量数据的及时有效分析Value:价值密度低,商业价值高•大量的不相关信息的进行复杂深度分析,深挖价值精准营销深入洞察统一监控分析另外IBM有大数据5V特征定义,增加了一个Veracity(真实性)什么是大数据6全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…每天会有2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…每天亚马逊上将产生6.3百万笔订单…每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…Google上每天需要处理24PB的数据…在web2.0的时代,人们从信息的被动接受者变成了主动创造者海量数据从哪里来-人7海量数据从哪里来-机器Boeing:飞机每个引擎3分钟产生1TB数据,波音7876小时飞行产生240TB数据CERN:大型强子对撞产生1PB/s的数据SKA:2015年存储需要1EB云化IDC建设催生了数据大集中Facebook:每天产生50TB的日志数据,衍生分析数据超过100TB“机器制造”和“人工制造”共同贡献了海量数据,集中式的数据中心建设加速数据集中8大数据的结构特征平均1个P数据中非结构化为主(例互联网公司)•互联网:Google,百度Facebook,Twitter,新浪….数据以非结构化处理为主•在企业大数据中,仍然是以结构化数据处理为主结构化半结构化非结构化~35%~27%用户行为轨迹(个体)UserProfile内容(ITEM,图像、视频、文本)数据21个历史详单查询社交网络数据(群体)WebPage&Log~23%~5%~10%结构化为主(例电信运营商)~15%~3%~12%网络XDR(探针俘获后,含历史)计费CDR(含历史)主数据(三户+订购+接触等含历史)分析汇总数据(含历史)CUBE和统一视图~7%互联网WebPage&Log(含历史)~13%社交网络数据~18%~25%内容(图像、视频、文本)数据~7%9传统的数据处理系统面临的问题,呼唤新的技术•海量数据的高存储成本•大数据量下的数据处理性能不足•流式数据处理缺失•有限的扩展能力•单一数据源•数据资产对外增值数据扩展性需求和硬件性能之间存在差距新的业务需求,需要新的大数据处理平台10数据处理技术分布式演进趋势:Hadoop成为开放的事实标准SMPHadoop特点:集群、ShareEverything结构化、关系型FlashCache+分布式块存储+IBSMP+MPP混合MPP特点:集群、ShareNothing开放,、全球生态结构化、半结构化、非结构化高性能、实时特点:集群、ShareNothing结构化、关系型通用的硬件特点:单机、Scaleup性能存在瓶颈扩展性差11揭开Hadoop神秘的面纱•Hadoop是Apache基金会的一个项目总称,主要由HDFS、MapReduce和HBase等组成。HDFS是对GoogleGFS的开源实现,MapReduce是对GoogleMapReduce的开源实现,HBase是GoogleBigTable的开源实现。•Hadoop来源于其创始人DougCutting的儿子给一头黄色大象取的名字。•Hadoop最初只与网页索引有关,迅速发展成为分析大数据的领先平台。12HDFS原理简介-分布式文件系统HDFS主要特点:存储大文件将大文件分割成很多小块存储流式数据读取,“writeonereadmany”本身是分布式的,具备良好的可扩展性通过放开POSIX要求,极大改善数据读写性能HDFS不适合于:存储大量小文件(1MB)实时数据读取需经常修改数据的场景HDFSYARNHiveMapReduceHBaseZooKeeperBookKeeperAVROPigSqoopNN#1DataNode,文件就放它上了。NameNode,元数据信息都在这。文件被切分成大小相同的块(最末尾的块可能小于块大小),并存储在不同的数据节点上。为确保文件块的容错性,同时提供更快的数据读取,默认每个数据块有3个副本,且分布在不同的数据节点DN上。FileAFileBFileCACBABCDN#1DN#2DN#3BDN#4CDN#5ADN#6FileDDDD13HBase原理简介-分布式数据库HRegionServer内部管理了一系列HRegion对象,每个HRegion对应Table中的一个Region。HRegion由多个Store组成。每个Store对应Table中的一个ColumnFamily的存储,即一个Store管理一个Region上的一个列族(CF)。每个Store包含一个MemStore和0到多个StoreFile。Store是HBase的存储核心,由MemStore和StoreFile组成。14MapReduce原理简介-分布式计算架构ApacheMapReduce是googleMapReduce的开源实现。是对并行计算的封装,使用户通过一些简单的逻辑即可完成复杂的并行计算。其核心理念是将一个大的运算任务分解到集群每个节点上,充分运用集群资源,缩短运行时间。15Spark迭代计算框架:重构M-R,优于Hadoop•Spark是UCBerkeleyAMP实验室基于mapreduce算法实现的分布式计算框架,输出和结果保存在内存中,不需要频繁读写HDFS,数据处理效率更高•Spark适用于近线或准实时、数据挖掘与机器学习应用场景17Storm:流式数据处理框架,实时的HadoopStorm广泛应用于实时分析,在线机器学习,持续计算、分布式远程调用等领域。18Storm处理原理scribeMQ输入spout异常行为检测bolt特征匹配bolt统计bolt输出拦截模块光纤旁路拦截数据不存储,先计算事件驱动实时响应,低延迟连续查询EventDataQueriesAlertsActionsNowaiting;Resultsdeliveredin-flight19ZooKeeper简介提供分布式锁的服务。例如,多个Master进程竞争主Master角色时,怎么样保证仅有一个Active角色存在?这就需要一个分布式的锁机制来保证。多个Master进程都尝试着去ZooKeeper中写入一个对应的节点,该节点只能被一个Master进程创建成功,创建成功的Master进程就是Active角色。提供了事件侦听机制。例如,主Master进程宕掉之后,其它的备Master如何能够快速的接管?这个过程中,备Master在侦听那个对应的ZooKeeper节点。主Master进程宕掉之后,该节点会被删除,那么,其它的备Master就可以收到相应的消息。个别场景,可充当一个微型数据库角色。例如,在ZooKeeper中存放了RootRegion的地址(RootRegion原来是存在ZooKeeper中的!),此时,可以将它理解成一个微型数据库。“Master-1,Congratulations!Youaretheactiveone!”“Sorry,Master-2.Theactiveseathasbeentakenbyothers.Pleasebepatient!”20大数据简介1大数据行业应用2大数据架构简介321大数据应用的行业分类经营分析电信信令金融细账金融票据电力调度智能电网经营类结构化+非结构化绩效报表文件社保分析纳税分析决策支持和预测管理类结构化+半结构化公安网监国安技侦舆情监控银监会稽查食品溯源环保监测监管类结构化+半结构化音视频地震勘探气象云图卫星遥感雷达数据物联网专业类非结构化10%结构化30%半结构化60%非结构化互联网非结构化为主,价值密度低电信、金融金融政府政府电信、金融、政府等行业数据分析的诉求强烈,互联网已开始应用新技术处理价值密度低的大数据“在大数据领域,不能充分形成大数据使用能力的竞争者将被淘汰”-McKinseyGlobalInstitute22金融:大数据让银行更了解客户与识别潜在风险王五作为某银行客户,需要申请一张新的信用卡实时征信、精准营销、在线明细、精准小微贷、…2~4周大数据平台客户信息系统交易系统信用系统……23电信:大数据支撑运营商向DigitalTelco转型管道运营能力运营跨界运营...…2G2.5G3GB3G/4GSPCPCPSP语音封闭、垄断窄带数据有限程度开放宽带数据防御与竞合超宽带数字经济使能数字经济驱动运营商彻底进行数字化重构商业架构企业架构网络架构网络资源为中心客户体验及生态圈为中心封闭开放、用户驱动、实时知识Silo云化,业务感知,自编排精准营销大数据平台M域O域B域辅助决策数据开放一份数据,一次采集…个人客户家庭客户政企客户互联网客户一份存储,全局共享,全量分析24公安:大数据实现在海量数据中快速检索出价值信息3000+万条记录,1+亿张照片,约100TB国内某大城市1天的卡口数据:检索信息耗时:1~2天大数据平台传统数据库平台模糊检索耗时:2分钟25电商:亚马逊“预判发货”,顾客未动包裹先行顾客此前订单顾客搜索记录顾客心愿单顾客购物车顾客浏览行为……大数据平台26媒资:大数据让Netflix在《纸牌屋》开播前就知道会火400万影视评分3300万订阅用户行为300万搜索请求上线20天,点播400+万次大数据平台27大数据简介1大数据行业应用2大数据架构简介328企业大数据平台架构统一ETL层,数据采集和预处理开放支撑平台:基础服务、算法模型、自助分析、自助报表Hadoop云基于高性能平台主数据仓库流数据处理CEP及流处理引擎基于低成本X86平台结构化数据实时流数据互联网数据10111111多渠道访问门户电脑智能手机PAD监控中心云化ETL、云化DW、实时挖掘、自助分析、跨域模型、并发查询、实时规则、知识自学习、内容语义分析等能力最终将在应用平台及多个数据平台中体现。包含关系型的主存储,也包含非关系型的HADOOP及流处理引擎29结构化计算平台挖掘分析服务数据治理元数据管理构建大数据平台技术组件(示意)CDC&ETL服务公共基础数据模型配置数据管理PortalERP-EBSNon-EBSDBROLAPDM展现服务仪表盘订阅发布即席查询分析维度管理主数据管理公共数据模型ScoreCard报表MOLAPDM展现层Portal层调度文本挖掘社交媒体结构化数据生命周期管理(数据/应用)数据质量管理技术元数据MCAOffice集成MobileBI互动可视数据提取In-MemDM元数据管理应用批量抽取转换加载分发实时获取平台监控管理ETL&调度计算平台DW-IDW-IDW-I非结构化化计算平台(Hadoop)资源管理:YARN分布式文件系统:HDFSSparkHBASE作业流管理:OozieDWRDWRD

1 / 34
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功