天云大数据技术介绍50

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

大数据情报平台建设演讲:冯大志日期:2013.6议程大数据时代及大数据应用大数据技术与传统技术体系的对比大数据时代对数据处理的要求数据价值的再发现大数据时代及大数据应用大数据及大数据时代“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”———哈佛大学社会学教授加里·金海量(Volume)多样(Variety)快速(Velocity)个性化描述可移动设备的行为轨迹生理特征金融往来家庭信息社交关系图谱车辆位置全数据模式:样本=总体目前的云计算平台计算能力的颠覆,提供了对全数据集的实时计算,为刑侦、情报等业务专家提供创新信息化工具要效率还是要准确相对于在已有数据范畴内的准确定位,需要思考对外部海量行为信息的探索与发现。如何引入外部数据集,多元多样化的数据源和数据结构(监控视频、社交媒体、手机信令移动轨迹等等),通过系统快速处理在20%的有效时间实现80%的准确性,一定成本规模前提下有效扩大监测范围。重视因果还是相关性经验主义,大师文化,在纷繁复杂的人类行为活动数据中显得苍白无力,经济活动和人类活动都是非线性离散事件,只有借助科技手段对大量事件现象去归纳寻找发些客观规律,辅助业务人员推理判断。deeplearning等非线性的算法可以从大量稀释数据价值的海量数据中,“聪明”地学习到事物的相关性。个人通信视频信息CompStat,是COMPuterSTATistics(计算机统计)的缩写,现在已经演变为专有名词,特指一种警务模式案件发生在哪里警察就出现在哪里,是让罪犯牵着鼻子跑;要控制局面,抓到老鼠,警察一方必须掌握主动,做一只有”预测能力”的猫地图上的原点不分案值大小、案情轻重,一律同等对待珍妮特(美国第一位女司法部长)大力推行“数据驱动”的管理方法:数据和信息是执法工作当中制定战略和决策的基础通过把20多年的犯罪数据和交通数据整合到一起,并映射到一张地图上之后,警务人员发现交通事故高发地带,正是犯罪活动的高发地带,甚至交通事故的高发时间段,也是犯罪活动的高发时间段纽约警察局利用全量数据作为制定战略和决策的基础要效率,大数据3秒锁定疑犯-公安刑侦系统应用解说词:乘坐同一班列车,住同一酒店的两个人可能是同伙,刑侦人员将不同线索拼凑起来排查疑犯,可是来自于多源数据的处理在传统IOE架构上,需要数小时甚至整日。天云大数据平台将这一操作缩短至3秒,同时描述出疑犯的交往关系。公安人员可以基于计算出的线索流畅的思考。大数据的效率让量变成为质变,形成新的洞察与知识大数据还告诉我们,市民在抱怨什么?311online–智慧城市网格化管理的民情播报实时监测公共数据,聚会分类各种相关民情:公共卫生,公共安全,环境设施,社区养老,紧急事件…大数据技术与传统技术体系的对比1.数据集中≠情报融合是一场提高社会生产力的IT变革是一场推动社会整体信息化的IT变革是新时代的生产资料是推动企业业务创新的源泉云彻底改变ITTechnology大数据彻底改变业务InformationI.T.:InformationTechnology云-数据垂直整合物理资源集中管理,通过虚拟化实现数据和应用的分立Multi-VMPhysicalServerStorageNetworkExternalCloudsDataCenterSystemsGoldSilverBronze云管理平台地市多虚拟机物理设备服务器存储网络外部云数据中心系统省级垂直应用应用1安全管理调度报告应用2应用N....基于X86平台MPP架构1231000+以太网前端主机LINUX前端高性能数据库引擎Streamingjoins,aggregations,sorts,etc.Processor&streamingProcessor&streamingProcessor&streaming数据节点处理核心Processor&streaming天云大数据平台高速加载/导出执行引擎编译器查询计划优化管理源系统客户端ODBCJDBCType4SQL非共享MPP架构数据节点处理核心数据节点处理核心数据节点处理核心大数据-数据融合:分布式计算框架的构建,解决大数据查询,分析和计算的瓶颈传统的垂直架构在处理海量数据面临的问题RDBMSServerStorage++RDBMSServerStorageRDBMSServerStorage++RDBMSServerStorageRDBMSServerStorage++RDBMSServerStorage应用一应用二应用N应用CommoditizeServerFormX86InfrastructureHadoopDistributionsDataPlatformasServiceStreamingJob/SQL/Batch/Script…DataScienceasServiceMachineLearning&PatternRecognitionStreamingSearching&IndexMemDBBDP(BeagleDataPlatform)Integration/Automation/Provision/OrchTaskPlan/Dispatch/MaintenanceMoveDataMoveCode2.传统技术体系的瓶颈分区数据库模型数据库被分成多个分区数据库分区运行在各个节点上每个数据库分区具有自己的资源(Engine,LogMg.,LockMg.,Caches,etc.)数据库协调所有分区进行并行处理对用户和应用来看,是一个单独的系统非共享并行计算体系结构datalogdatalogdatalogdatalog追求线性扩展能力!90年代后期数据仓库的发展–交易和分析的分离•Share-nothing的MPP结构成为主流(1990s后期)–NCR/Teradata–InformixXPS(ExtendedParallelServer)•OLTP的功能不足–DB2EEE•2001年之前没有特别建树–SybaseNavigationServer•停留在设计层面,对数据分片描述不清,始终未能正式推出•联机分析应用的专项优化(2000左右)–RedBrick•RalphKimball创立的公司并倡导Star-Schema•Star-Index,Star-Join–SybaseIQ•从位图索引到列式存储•坚持传统的厂商–Oracle仍试图推出同时适应于OLTP和OLAP的数据库–微软专注在低端市场和系统整合方面•高性价比、与Windows应用的集成大数据时代的发展之路:“Evenasanalyticsistakingcenterstage,yesterday’sBI-ETL-EDWstackiswrong-sidedfortomorrow’sneeds,andquicklybecomingirrelevant.”-----Gartner&Wikibon2013UserConsumptionDataManagementAnalyticTransparency•Hadoop已经成为企业管理大数据的基础支撑技术•主要的Hadoop发行商想要在HadoopHDFS之上提供实时、互动的查询服务•新的数据分析范型必须是目标导向型的。能够无缝处理结构化、非结构化和半结构化数据•机器自学习和描述•增加对底层数学和算法解释•增加预测分析的信心•能够输出有效的结果•发布可复用的应用•创建最佳实践•组织范围内的横向协作•无缝重组模型•能够面向更广泛的普通员工快速部署分析应用•分析应用将不再是数据科学家的专利,20成本服务器/存储/网络/操作系统/数据库/维护/技术支持性能Superdome,OracleRAC,XP24000专家调优数据加载:450GB/hrPCServer*62CPU/48GBMem/SATA*6数据加载:1TB/hr总体拥有成本TCO传统的技术架构需要从存储、服务器、操作系统、数据库软件方面考虑采购成本。同时,数据的设计和架构需要专业人员的规划,体现整体性能的最优。所以,在人员配备上,通常需要数据库专家,操作系统专家,网络优化专家和存储专家,相互配合达到较高的协同能力。因此,传统的技术体系下,其成本构成折算成每TB的价格大概如下,如果选用的是一体机方案,成本会更高:存储成本(每TB)20,000rmb数据库和中间件成本(每TB)15,000rmb计算资源(每TB)30,000rmb技术服务(每TB)10,000rmb应用开发取决于合作伙伴总体拥有成本(每TB)75,000rmb大数据时代对数据处理的新要求线性扩展,以小搏大关键字:组件成本,整体性能,横向扩展商品化的X86服务器无需定制HadoopDistributionsStreamingSearching&IndexMemDBBDP(BeagleDataPlatform)集成/自动化/监控/调度任务管理/任务分配/日常维护DataMgnt:企业友好数据视图位置感知/数据膨胀/生命周期管理/容灾平台能力旧架构难以管理和使用海量数据有多少IT投资继续被“O”,“E”,“U”恐龙们吃掉?问题沉重的维护成本低下的数据管理性能惊人的储存成本天云科技大数据平台产品BDPBDP(BeagleDataPlatform)是一款基于成熟Hadoop核心架构,由天云科技进行集成和模块开发后形成的满足企业级需求的大数据存储与处理的平台软件。BDP具备的特性:•稳定性•高可靠性•高性能•高可扩展性•成熟性•易用易维护性•低成本•前瞻性集中Web式管理,数据多份拷贝,PB级的线性扩展能力高可用性–协调节点高可用Client1Client2Namenode1Namenode2DatenodeNFS共享存储服务器BPD管理平台Client1Client2Namenode1Namenode2DatenodeNFS高可用性–协调节点高可用高可用性–数据节点高可用Client1Client2Namenode1Namenode2DatenodeNFS共享存储服务器维护简单,可切分关键字:资源划分,资源管理磁盘控制解码引擎投影限制条件可见性处理器/内存接口写数据路径解析引擎•压缩数据•4倍的存储容量•磁盘扫描速度:100MB/s流动中的数据压缩引擎高速引擎创新•数据解压•倍增的扫描速度•高速引擎过滤压缩的核心理念就是在用CPU换IO吞吐量/磁盘空间。天云大数据平台主要有三种算法:GZIP,LZO,Snappy互联网的基因:支持对统一表中不同的列族,定义不同的压缩比冷热数据切分:可选的压缩算法---数据“冷热”分离商品化的X86服务器无需定制HadoopDistributionsBDF(BeagleDataFlow)Hadoop中间件开发运行BDA(BeagleDataAccelerator)ML机器学习工具包发布语义计算行为关系视觉计算DataPlatformasService(数据平台即服务)工作流/SQL/批量操作/脚本开发…DataScienceasService(数据科学即服务)机器学习&模式识别政府智慧城市公共安全金融历史纪录/影像/风险管理医疗卫生EMR/HER/重症监护医疗/BI/能源智能电网/油田制造自动控制/质检零售消费行为分析StreamingSearching&IndexMemDBBDP(BeagleDataPlatform)集成/自动化/监控/调度任务管理/任务分配/日常维护电信精准营销/话单查询/IT支撑优化DataMgnt:企业友好数据视图位置感知/数据膨胀/生命周期管理/容灾业务能力数据能力平台能力平台能力的切分分布式协调节点客户端客户端客户端计算节点计算节点计算节点QueryIUDIndexWALMQM/RFileIndexWAL/MQRESTIndexReplicaIndexReplicaIndexReplica分布式计算分布式数据库分布式文件系统即席查询引擎统一数据源之上,可以根据不同的逻辑将数据映射到单独的分布式数据库

1 / 50
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功