数据仓库总体设计报告

xinzhi2001
6 ℃
2019-04-27

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

大数据时代Iscoming……全球每秒钟发送2.9百万封电子邮件，一分钟读一篇的话，足够一个人昼夜不息的读5.5年…每天会有2.88万个小时的视频上传到Youtube，足够一个人昼夜不息的观看3.3年…推特上每天发布5千万条消息，假设10秒钟浏览一条信息，这些消息足够一个人昼夜不息的浏览16年…每天亚马逊上将产生6.3百万笔订单…每个月网民在Facebook上要花费7千亿分钟，被移动互联网使用者发送和接收的数据高达1.3EB…Google上每天需要处理24PB的数据…在web2.0的时代，人们从信息的被动接受者变成了主动创造者BigData时代到来TBPBZBEB大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长根据IDC监测，人类产生的数据量正在呈指数级增长，大约每两年翻一番，这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量数据量增加数据结构日趋复杂这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临..BigData时代到来1.Volume2.Variety3.value4.Velocity结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式，订单、日志、音频，能力提出了更高的要求沙里淘金，价值密度低以视频为例，一部一小时的视频，在连续不间断监控过程中，可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题实时获取需要的信息大数据区分于传统数据最显著的特征。如今已是ZB时代，在如此海量的数据面前，处理数据的效率就是企业的生命大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合什么是BigData数据量巨大全球在2010年正式进入ZB时代，IDC预计到2020年，全球将总共拥有35ZB的数据量20世纪90年代，数据仓库之父的BillInmon就经常提及BigData2011年5月，在“云计算相遇大数据”为主题的EMCWorld2011会议中，EMC抛出了BigData概念BigData名词由来1并购进行技术整合2自身提高研发实力相较于“大数据”一词在2011年才开始蹿红不同，在计算机研究领域和产业界，“大数据”早已众人皆知，各大IT巨头纷纷布局大数据业务，通过收购大数据相关厂商来实现技术整合，以图抢占全新的制高点各大IT企业纷纷推出自身的大数据分析产品，包括Google、IBM、EMC、Oracle、微软、惠普、SAP、Teradata，这些企业几乎囊括了目前全球最顶尖的搜索服务、数据库、服务器、存储设备、企业解决方案的主要提供商，足以显示大数据在产业界的汹汹来势BigData名词由来大数据技术将被设计用于在成本可承受（economically）的条件下，通过非常快速（velocity）的采集、发现和分析，从大量化（volumes）、多类别（variety）的数据中提取价值（value），将是IT领域新一代的技术与架构企业用以分析的数据越全面，分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力，并将其与已知业务的各个细节相融合什么是BigData技术云计算与大数据白云下面数据跑蓝蓝的天上白云飘如果数据是财富，那么大数据就是宝藏，而云计算就是挖掘和利用宝藏的利器！没有强大的计算能力，数据宝藏终究是镜中花；没有大数据的积淀，云计算也只能是杀鸡用的宰牛刀！分布式“云计算”（CloudComputing）是分布式处理（DistributedComputing）、并行处理（ParallelComputing）和网格计算（GridComputing）的发展，或者说是这些计算机科学概念的商业实现。——百度百科AAvailabilityCAP理论一个分布式系统不可能满足一致性、可用性和分区容错性这三个需求，最多只能同时满足两个——EricBrewerCConsistencyPPartitionTolerance分布式计算是一门计算机科学，它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分分配给许多计算机进行处理，最后把这些计算结果综合起来得到最终的结果。CAP博弈分区容错性是不能牺牲的AmazonDynamo是一个经典的分布式Key-Value存储系统，具备去中心化，高可用性，高扩展性的特点，但是为了达到这个目标在很多场景中牺牲了一致性。支付宝这样的交易和账务数据则是非常敏感的，通常不能容忍超过秒级的不一致KeyValue分布式存储系统查询速度快、存放数据量大、支持高并发不能进行复杂的条件查询辅以实时搜索引擎进行复杂条件检索、全文检索，可替代并发性能较低的关系型数据库，节省几十倍服务器数量B+TreeHash算法大数据时代下的系统需求•Highperformance–高并发读写的需求高并发、实时动态获取和更新数据•HugeStorage–海量数据的高效率存储和访问的需求类似SNS网站，海量用户信息的高效率实时存储和查询•HighScalability&&HighAvailability–高可扩展性和高可用性的需求需要拥有快速横向扩展能力、提供7*24小时不间断服务RDBMSVS.NoSQL高并发读写大数据存储的核心需求高效率存储和访问高可扩展性和高可用性低成本建设运维保证一致性的开销过大，难以实现高并发存储性能受限于控制器，性能难以保证关系型表单存储难以适应不同数据类型上亿行数据的超级达标效率极低传统基于盘阵的存储设备，造价昂贵，且市场垄断严重，建设成本居高不下，扩容成本尤其高许可和维护花费高昂无法简单的通过添加服务节点来扩展数据容量和负载能力，难以进行横向扩展数据库升级需要停机维护和数据迁移，导致服务中断不保证遵循ACID原则，提高并发读写性能Schema-Free存储适应不同数据类型舍弃SQL标准功能，尽量简化数据操作，提升效率MapReduce实现高效访问基于X86设备，价格低廉开源系统，节省许可费用支持水平扩展，可简单的通过添加服务节点来扩展数据容量和负载能力数据库升级不影响服务持续NoSQL•NoSQL运动两个核心理论基础：•Google的BigTableBigTable提出了一种很有趣的数据模型，它将各列数据进行排序存储。数据值按范围分布在多台机器，数据更新操作有严格的一致性保证。•Amazon的DynamoDynamo使用的是另外一种分布式模型。Dynamo的模型更简单，它将数据按key进行hash存储。其数据分片模型有比较强的容灾性，因此它实现的是相对松散的弱一致性：最终一致性。NoSQL是NotOnlySQL的缩写，而不是NotSQL，它不一定遵循传统数据库的一些基本要求，比如说遵循SQL标准、ACID属性、表结构等等。相比传统数据库，叫它分布式数据管理系统更贴切，数据存储被简化更灵活，重点被放在了分布式数据管理上。BigTable为管理大规模结构化数据而设计的分布式存储系统，可以扩展到PB级数据和上千台服务器。Key-Value映射：(row:string,column:string,time:int64)→string数据模型支撑技术Bigtable的表会根据行键自动划分为片（tablet），片是负载均衡的单元。用GFS来存储日志和数据文件按SSTable文件格式存储数据用Chubby管理元数据参考文献：《TheChubbylockserviceforloosely-coupleddistributedsystems》——Google论文BigTable一个供客户端使用的库一个主服务器（masterserver）许多片服务器（tabletserver）BigTable集群片的定位B+树Chubbyfile：保存roottablet的位置roottablet：元数据表的第一个分片其它的元数据片NoSQL数据库NoSQL数据库•使用现状腾讯在天津投资建立亚洲最大的数据中心；新浪推出企业微博产品，提供精准的数据分析服务。商业价值在大数据推动的商业革命暗涌中，要么学会使用大数据的杠杆创造商业价值，要么被大数据驱动的新生代商业格局淘汰。标准的虚拟化及分布式存储内存计算技术——SAP中国区企业信息管理咨询资深顾问杜韬Hadoop数据应用策略、数据流技术机器学习算法——百度首席科学家威廉.张Hadoop数据采集、数据存储、数据处理——Yahoo！北京全球软件研发中心架构师韩轶平持续创新传统的企业级数据仓库产品线收购AsterDataHadoop、MapReduce——Teradata首席客户官周俊凌马云的判断来自于数据分析商业价值——淘宝双“十一”背后的技术讨论系统逻辑架构系统物理架构性能对比OceanBase政府、金融、电信等行业投资建立大数据的处理分析手段，实现综合治理、业务开拓等目标；应用到制造等更多行业。商业价值结构化数据向非结构化数据演进，使得未来IT投资重点不再是建系统为核心，而是围绕大数据为核心；海量数据可以在各个部门创造重大的财物价值，未来投资倾斜。商业价值用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析