大数据指南-方案与案例大数据(BigData)时代来临结构化•数据库•电子表格•格式化文件半结构化•XML文档•日志•点击流量•设备、RFID标签非结构化•网页内容•邮件•媒体文件•及时通讯•文档文件移动互联网物联网2新量级、新处理模式、新行业智能传统模式大数据要解决的问题4VVolume海量的数据规模流式处理实时处理准实时处理批量处理TBPBEB结构化非结构化半机构化价值Velocity快速的数据流转巨大的数据价值Variety多样的数据类型大数据带来的挑战不同“看”数据的方式需要更高性价比的数据计算与储存方式不同的数据管理策略超越现有IT的数据解决能量不同“看”数据的方式可视:结构化资料15%未视:半/非结构化数据85%领导者看到的,其实是残缺的…10万GB10万TB需要更高性价比的数据计算与储存方式数据库数据仓库计算更快存储更省85%半/非结构化的Log/Webpage/Email/PDF/Image/Full-text/MS-Officefile7不同的数据管理策略当想要扩充时,才发觉:•架构只能scale-up,scale-out不易•处理时间过长,time-to-value受限•成本过高,cost-efficiency受限15%结构化的DB/DW遗憾残缺每天几百GB、几TB的资料,且持续成长中储存Storing在收数据的同时做必要的前置处理(pre-processing),并区分数据处理的优先等级(prioritizing)计算Processing如何有效的避免因硬件毁坏所导致的资料损毁管理Managing如何从中挖掘出所关注事件的pattern或behavior分析Analyzing超越企业现有IT的数据解决能量Hadoop不只是Hadoop9HIVE大数据应用Pig!ZooKeeper关系数据文本数据大数据的储存与处理/运算大数据储存大数据处理数据分享数据检索数据分析数据展现分布式软件架构并行计算框架分布式存储横向扩容(Scale-out)架构NameNodeDataNodeSwitch(1Gbabove)藉由DataNode容易扩充的能力可轻易满足数据量成长的需求最小package1台NameNode+3台DataNodes大数据的部属DataNodeDataNode大数据建设策略数据仓库ERPCRMLOBAPPs非结构化数据源SSRSSSAS业务支撑终端用户基础工具业务展示数据产品传统BI预测分析结构化数据源大数据处理国家意志2020/1/32015年8月19日,国务院总理李克强主持召开国务院常务会议,讨论通过了《关于促进大数据发展的行动纲要》。大数据被喻为“金矿”、“石油”,大数据的价值被业界公认为无价,然而怎么用大数据,怎么发挥大数据的价值,业界众口纷纭,到现在为止也没见到大数据究竟产生了多大价值。大数据无法发挥其巨大价值,有技术、应用、机制、法律法规等多方面的原因。大数据的发展知易行难,知道其有巨大价值,但不清晰具体可行的发展路径,也面临很多不知道如何解决的问题。地级以上人力资源社会保障部门普遍建立了数据中心多数地区实现了业务数据在市级的集中统一管理部、省、市三级网络进一步贯通全国统一的核心业务应用软件已在绝大部分统筹地区部署实施信息化建设成果在人力资源和社会保障工作中发挥了基础支撑作用,创新管理模式、降低行政成本、提升服务能力等方面发挥了重要的作用,推动了人力资源和社会保障工作向精细化、一体化、科学化、规范化转变。人力资源社会保障信息化取得的成就社保大数据带来的大挑战2020/1/3海量数据如何存储数据导入导出的时间成本业务数据读取要依靠业务系统查询性能低非结构难存储、难分析维护成本高昂无标准化规范旧架构不能承受之重2020/1/3社保总体规划2020/1/3支撑层硬件资源软件资源网络资源…数据层基础数据业务数据交换数据宏观决策数据公共服务数据数据应用层数据服务层服务接口资源目录服务规范服务总线运维管理体系系统安全体系社会保险管理系统人力资源管理系统公共服务系统管理决策系统应用支撑层工作流搜索引擎报表身份认证办公界面管理界面服务界面大数据架构访问层应用门户数据门户管理门户数据应用层数据资产层数据聚合层基础环境层应用门户查询工具/统计工具/分析工具/挖掘工具/辅助决策工具对外数据支撑Service/File/Sdk/…公共组件数据服务应用层业务数据规则引擎统计引擎查询引擎分析引擎挖掘引擎数据服务总线数据封装Oracle数据库数据资产Oracle数据库MPP数据库数据处理数据采集文件处理实时流数据采集关系型数据库采集(SQOOP)传统数据处理流数据处理大数据M/RHDFSHBase终端虚拟化服务器虚拟化分布式架构社保数据“云化”2020/1/3人口数据养老数据医疗数据就业数据生育保险其他数据统一分析统一规划数据BI数据挖掘云技术是手段,管数据是目的大数据利用2020/1/3基础数据共享,数据交换,业务联动进阶查询,统计,分析高阶数据挖掘,决策支持查询实例2020/1/3现状:系统经过一段使用后,效率低,不能满足业务发展目前对策:半夜跑任务思考:越来越多如何搞?对策:数据剥离。统计、查询、报表从业务部门剥离。形成统一的数据统计、统计、报表平台。人口数据养老数据医疗数据就业数据生育保险其他数据统一分析统一规划数据BI数据挖掘查询、统计、报表ESB2020/1/3数据标准服务标准管理标准统一桌面2020/1/3现状:系统众多,用户系统间的切换,系统的管理不全面目前对策:暂缺思考:业务越来越多如何搞?对策:统一用户管理、统一日志管理、统一权限管理等E维2020/1/3现状:硬件管理比较详实,但对数据的管理,业务系统的管理欠缺目前对策:暂缺对策:数据服务、业务管理。实现全资源管理。ESBE维数据异常服务异常权限异常…….应用管理数据管理…….2020/1/3Q&A