集团公司网络部大数据技术研究集团公司网络部目录-2-一、大数据的背景与定义二、大数据的关键技术三、网管领域应用展望集团公司网络部数据管理技术发展历史数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使该领域进入了一个新的发展阶段-3-194619511956196119701974197919912001200320082011第一台计算机ENIAC面世磁带+卡片人工管理磁盘被发明,进入文件管理时代网络型SQLE-RGE公司发明第一个网络模型数据库,但仅限于GE自己的主机1960年代,IT系统规模和复杂度变大,数据与应用分离的需求开始产生,数据库技术开始萌芽并蓬勃发展,并在1990年后逐步统一到以关系型数据库为主导IBME.F.Dodd提出关系模型SQL语言被发明关系型数据库ORACLE发布第一个商用SQL关系数据库,后续快速发展数据仓库数据仓库开始涌现,关系数据库开始全面普及且平台无关,进入成熟期2001年后,互联网迅速发展,数据量成倍递增,量变引起质变,开始对数据管理技术提出全新的要求1946年,电脑诞生,数据与应用紧密捆绑在文件中,彼此不分Hadoop成为Apache顶级项目,重点支持海量数据分布式管理和分布式计算GFS谷歌发表论文介绍分布式计算集团公司网络部大数据发展背景全球信息化发展已步入大数据时代150亿个设备连接到互联网全球每秒钟发送290万封电子邮件每天有2.88万小时视频上传到YoutubeFacebook每日评论达32亿条,每天上传照片近3亿张,每月处理数据总量约130万TB2011年全球产生数据量1.8ZB,预计2020年将增长到35ZB大数据正迅速成为最值得关注的IT领域之一2011年5月,EMCWorld2011大会主题“云计算相遇大数据”,EMC除了一直倡导的云计算外,还抛出大数据(BigData)概念2011年6月底,IBM、麦肯锡等众多国外机构发布大数据相关研究报告,予以积极跟进2011年10月,Gartner认为2012年十大战略技术将包括大数据2011年11月底,IDC将大数据放入2012年信息通信产业十大预测之一-4-IDC全球数据量预测(1ZB=1百万PB=10亿TB)Google网站Bigdata关键词搜索及新闻引用量集团公司网络部大数据的定义IDC对大数据的定义大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大体量(volumes)、多类别(variety)的数据中提取价值(value),是IT领域新一代的技术与架构解读大数据定义业务目标:在1E(成本可接受-economically)的条件下从大数据中提取数据的价值(Value)技术要求:满足3V(快速-Velocity、大体量-Volumes、多类别-Variety)的特征技术方案:未提及,可能是新兴技术与传统技术的混搭-5-集团公司网络部IT行业大数据相关动向和举措-6-大数据正成为IT行业全新的制高点,各企业和组织纷纷助推大数据的发展,相关技术呈现百花齐放局面,并在互联网应用领域崭露头角商业解决方案商业解决方案HP2011年推出vertica数据库Oracle2011年推出noSQL数据库EMC2010年收购GreenplumTeradata2011年收购Asterdata,并推出SQL-MapreduceIBM2010年收购NetezzaSAP2011年收购Sybase开源解决方案开源解决方案开源组织Apache在2008年将Hadoop列为顶级项目2010年HBase自Hadoop上诞生开源组织GNU2010年发布MongodbVmware2010年提供开源产品RedisTwitter2011年提供开源产品Storm商业企业和开源组织都纷纷推出各种大数据解决方案,这些方案既存在相同点,也各有侧重,目前尚无统一的行业技术标准或技术领域细分规则互联网企业IT实力强且海量数据处理需求最为迫切,是大数据发起者、倡导者、开发者和最终使用者,大数据应用场景十分清晰Google研发Bigtable并自行使用Yahoo发起Hadoop/Hbase开源并自用,FACEBOOK、百度、淘宝等均使用Twitter开发Storm自用并提供开源传统企业IT能力有限,数据处理工作主要依赖于系统集成商,重点在应用实现,IT技术路线上以跟随成熟技术(含开源技术)为主目前还是以数据库、数据仓库技术为主,对大数据技术仍处于认知或小范围摸索实验阶段,应用场景仍在分析梳理中互联网企业互联网企业传统企业传统企业集团公司网络部目录-7-一、大数据的背景与定义二、大数据的关键技术三、网管领域应用展望集团公司网络部相关概念与相关技术概览数据结构:结构化数据与非结构化数据数据库数据模型:关系型数据库与非关系型数据库数据处理特性:OLTP与OLAP数据一致性:强一致性与最终一致性数据存储方式:行式存储与列式存储数据库存储与处理架构:SMP与MPP数据存储架构:传统分布式文件与新型分布式文件数据处理架构:基于并行计算的分布式数据处理技术(MapReduce)-8-集团公司网络部数据的结构—结构化、非结构化、半结构化数据-9-对比项结构化数据非结构化数据半非结构化数据定义•有数据结构描述信息的数据•不方便用固定结构来表现的数据•介于完全结构化数据和完全无结构的数据之间的数据结构与内容的关系•先有结构、再有数据•只有数据,没有结构•先有数据,再有结构示例•各类表格•图形、图像、音频、视频信息•HTML文档,它一般是自描述的,数据的结构和内容混在一起结构化数据和非结构化数据都是客观存在,大数据技术需要涵盖两者集团公司网络部数据库数据模型—关系型数据库与非关系型数据库在大数据技术中非关系型数据库技术是必不可少的,但关系数据库也是不可或缺的-10-对比项关系型数据库非关系型数据库定义•创建在关系模型基础上,借助于集合代数等数学概念和方法来处理数据库中的数据•关系模型由关系数据结构、关系操作集合、关系完整性约束三部分组成•没有标准定义•包括:表存储数据库、键值存储数据库、面向文档的数据库等接口语言•SQL(StructuredQueryLanguage,结构化查询语言),对数据库中的数据进行查询、操作和管理•无统一标准•包括:各自定义的API、类SQL、MR等典型案例•Oracel、DB2、Sybase、SQLServer、Mysql、Postgresql等•新型的MPPRDB(Greenplum)也属于关系型数据库•Hbase、MongoDB、Redis集团公司网络部数据处理特性—OLTP与OLAP-11-比较项联机事务处理OLTP(On-LineTransactionProcessing)联机分析处理OLAP(On-LineAnalyticalProcessing)基本类型业务操作型业务分析型数据特性对一条记录数据会多次修改,支持大量并发用户添加和修改数据数据写入后基本不再修改,能较好地支持大量并发用户进行大数据量查询技术特性确保数据的一致性确保事务的完整性数据读写实时性高支持多维数据以及对多维数据的复杂分析大数据量数据量GB-TB级TB-PB级典型示例银行业务系统/数据库各类决策分析系统/数据库OLTP以业务操作型为主,OLAP以业务分析性为主,两者对技术的要求很难兼顾集团公司网络部数据一致性:强一致性与最终一致性-12-强一致性和最终一致性都是指客户端向数据库系统写入数据后,数据库系统能够提供的数据一致性的表现对比项强一致性(即时一致性)最终一致性弱一致性场景定义•假定三个进程A、B、C是互相独立的,且都在对存储系统进行读写操作数据一致性表现•A写入数据到存储系统后,存储系统能够保证后续任何时刻发起读操作的B、C可以读到A写入的数据•A写入数据到存储系统后,经过一定时间,或者在某个特定操作后,B、C最终会读到A写入的数据•A写入数据到存储系统后,存储系统不能够保证后续发起读操作的B、C可以读到A写入的数据示例•OLTP需要强一致性•OLAP需最终一致性•绝大多数应用不能够容忍弱一致性集团公司网络部数据存储方式—行式存储与列式存储-13-传统关系型数据库主要采用行存储模式,海量数据的高效存储和访问要求引发了从行存储模式向列存储模式的转变行存储用户生日聊天记录日均在线时长用户11981-10-3Xxxxyyyy...2用户21990-5-15Mmnnn…3.7用户11981-10-3Xxxxyyyy...2用户21990-5-15Mmnnn…3.7列存储用户11981‐10‐3用户21990‐5‐15用户1Xxxxyyyy..用户2Mmnnn..用户12用户23.7行存储列存储存储一行中各列一起存放,单行集中存储一行中各列独立存放,单列集中存储索引效率海量数据索引既占用大量空间,且索引效率会随着数据增长越来越低基于列自动索引,海量数据查询效率高,不产生额外存储空间效率同一行不同列数据类型不同,压缩效率低空值列依然占据空间列同数据类型,压缩效率高空值不占空间I/O查某列必须读出整行,I/O负荷高、速度慢只需读出某列数据,I/O低速度快结构表结构改变影响很大可随时动态增加列适用场景数据写入后需要修改和删除,基于行的反复查询,多用于OLTP数据库批量数据一次写入和基于少量列的反复查询,多用于OLAP数据库样例数据表集团公司网络部数据库存储与处理架构—SMP与MPP在数据量急剧膨胀的背景下,数据库处理要求超出了单机或SMP架构能力范围,最高配置小型机也无法满足,所以在大数据技术中,MPP架构(计算分布+存储分布)架构成为主流-14-计算分布,存储集中DBServ共享磁盘DBServDBServDBServ网络SAN/FC计算集中,存储集中DBServ磁盘计算分布,存储分布DBServDBServDBServDBServ高速通信网络磁盘磁盘磁盘磁盘Master如:Oracle传统单机数据库如:OracleRAC小型机+共享盘阵如:Greenplum、HbaseX86+本地硬盘传统单机数据库SMP架构数据库MPP架构数据库对称多处理,SymmetricalMulti-Processing有两台以上的服务器,各主机之间共享总线结构,共享数据存储磁盘节点数有限制,主要通过提高节点配置来提高整体处理能力,扩展能力有限对共享磁盘的访问可能成为瓶颈SMP大规模并行处理,MassivelyParallelProcessing多个松耦合处理单元组成,数据存在本机磁盘上通过增加服务器数量提高系统处理能力,理论上可无限扩展,目技术可实现上千个节点互联对软件体系要求较高,需要通过软件层来调度和平衡各个节点的负载和并行处理过程MPP集团公司网络部数据存储架构:传统分布式文件与新型分布式文件-15-传统分布式文件系统也可以适应海量数据增长,但是由于数据计算与存储是分离的,随数据量的增长,网络带宽形成瓶颈。新型分布式文件系统采用数据计算与存储绑定的新策略,可有效应对海量数据增长X86PC集群数据存储:磁盘阵列数据存储与计算合一数据计算:数据服务器数据靠网络传输本机硬盘本机硬盘本机硬盘本机硬盘计算模式拥有成本•盘阵负责存储,数据服务器负责计算,彼此靠网络连接,计算效率受网络带宽影响•PC机自行负责存储和计算,数据与计算绑定,不受网络带宽影响•专用设备价格昂贵,维护费用高•通用PC,价格低廉,维护方便存储模式•磁盘阵列存储•由每台PC机自带硬盘组成容错模式•不能容忍盘阵设备出问题,靠RAID容错个别硬盘故障•容许PC节点故障,通过多个文件副本保证数据完整性数据存储与计算分离集团公司网络部新型分布式文件系统—HadoopHDFS-16-HadoopHDFS是新型分布式文件系统的典型代表,提供高可靠、高扩展、高吞吐能力的海量文件数据存储元数据节点Namenode文件名,文件块,文件块所在数据节点,…文件元数据123数据节点Datanode数据节点Datanode数据节点Dat