201508_数梦科技-广东省地税大数据方案汇报v1.1

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

广东省地税大数据解决方案交流广东省地税大数据解决方案交流广东省地税大数据解决方案交流广东省地税大数据解决方案交流杭州数梦工场科技有限公司日期:20150810大数据产品团队大数据产品团队大数据产品团队大数据产品团队*目录�公司介绍�成熟大数据平台要素�数梦大数据解决方案�数梦大数据产品详解�方案实践*数数数数梦梦梦梦工工工工场场场场中国中国中国中国创新战创新战创新战创新战大大大大据据据据程师程师程师程师方向方向方向方向::::云、数据库、大数据分析、安全员工:员工:员工:员工:400400400400余人,研发占比65%65%65%65%研发机构:研发机构:研发机构:研发机构:北京、杭州助力:助力:助力:助力:青山绿水、政治安定、民生幸福、经济繁荣*基于飞天基于飞天基于飞天基于飞天使命级战略合作伙伴关系使命级战略合作伙伴关系使命级战略合作伙伴关系使命级战略合作伙伴关系用用用用DTDTDTDT圆梦圆梦圆梦圆梦((((IIIInternetnternetnternetnternet+)+)+)+)面向政企面向政企面向政企面向政企场景化开发和服务场景化开发和服务场景化开发和服务场景化开发和服务数梦工场的数梦工场的数梦工场的数梦工场的愿景和使命愿景和使命愿景和使命愿景和使命*企业企业企业企业应用应用应用应用政务政务政务政务应用应用应用应用公安公安公安公安应用应用应用应用卫生卫生卫生卫生应用应用应用应用税务税务税务税务应用应用应用应用其他其他其他其他应用应用应用应用数梦工场的产数梦工场的产数梦工场的产数梦工场的产品品品品全家福全家福全家福全家福行业行业行业行业解决方案解决方案解决方案解决方案数据服数据服数据服数据服务务务务PortalPortalPortalPortal大大大大数据数据数据数据云云云云平台平台平台平台基础硬件平台(网络、服务器、存储、安全等)DDoS漏扫云安全云安全云安全云安全云盾MDUMDUMDUMDU数据库大数据智慧应用服务服务服务服务生命周期服务基于API定制开发服务云业务服务ODPSADSDPCECSSLBRDSOTSOCS存储OSSVPC专有网络弹性计算云数据库工业云政务云卫生云教育云智慧工场*目录�公司介绍�成熟大数据平台要素1.1.1.1.源于实践2.2.2.2.数据生态3.3.3.3.安全可控�数梦大数据解决方案�数梦大数据产品详解�方案实践*数据生态数据生态数据生态数据生态————————存、通、用存、通、用存、通、用存、通、用数据数据数据数据上云上云上云上云�数据集中存储�大规模计算能力�统一元数据数据资产化数据资产化数据资产化数据资产化�数据整合�数据地图�数据管理�资产计量数据开放数据开放数据开放数据开放�前店后厂�Enable开发者�共享/交换/售卖机制�安全管控能力数据数据数据数据生态生态生态生态�Enable业务创新�闭环�多物种�运营数据存存存存通通通通用用用用1111222233334444*数据生态数据生态数据生态数据生态————————清晰清晰清晰清晰角色角色角色角色平台平台提供者平台运营者数据消费者数据提供者数据开发者应用开发者*数据安全体系安全可控安全可控安全可控安全可控————————体系化闭环体系化闭环体系化闭环体系化闭环服务可靠性:99.9%数据可用性:99.99999999%数据开发可用不可见1、数据密级灵活定义2、机密信息自动脱敏3、生产环境与开发环境隔离数据运营多租户隔离1、无超级管理员设计2、多租户间数据隔离3、数据管理者与系统管理者分离数据交换严格授权交换1、基于角色、表、字段的精细化授权2、非机密数据的共享交换授权3、机密数据在第三方仲裁下严格授权4、数据血缘管理,防止二次交易*目录�公司介绍�成熟大数据平台要素�数梦大数据解决方案�数梦大数据产品详解�方案实践*数梦数梦数梦数梦大数据大数据大数据大数据平台架构平台架构平台架构平台架构业界主流的数据库引擎业务应用1业务应用2业务应用N数据交换CDPMySqlSqlServerOracleDB2……应用SaaS服务PaaS计算存储数据库ETL大数据分布式数据库多租户云数据库DBaaSDBaaSDBaaSDBaaS数据库服务运维服务开发平台开发平台开发平台开发平台超大规模的离线计算超大规模的离线计算超大规模的离线计算超大规模的离线计算海量数据的实时计算海量数据的实时计算海量数据的实时计算海量数据的实时计算流式计算引擎流式计算引擎流式计算引擎流式计算引擎离线计算引擎ODPS实时OLAP引擎ADS流式计算引擎OSPS咨询渠道分析办税渠道分析纳税人特征分析风险控制……数据数据数据数据服务服务服务服务开发套件算法平台数据地图结构化数据半结构化数据非结构化数据文本文件网站日志多媒体文件数据质量监控告警运维管理*数梦大数据的数梦大数据的数梦大数据的数梦大数据的系统能力系统能力系统能力系统能力基于ODPS的大数据开发,支持SQL、M/R等编程框架,以及XLIB算法框架数据数据数据数据开发开发开发开发支持多种异构数据源的数据同步和整合,消除数据孤岛数据集成数据集成数据集成数据集成可支持PB、EB级别的数据处理能力,存储规模可线性扩展海量处理海量处理海量处理海量处理基于流式的数据同步和计算引擎,实现秒级、毫秒级的实时数据应用实时处理实时处理实时处理实时处理将数据封装成服务,可同时提供给离线和在线系统使用,提供服务开发和运行框架开放服务开放服务开放服务开放服务基于统一的元数据服务来提供数据资源管理视图数据管理数据管理数据管理数据管理数据服务能力计算&存储能力*数据处理能力数据处理能力数据处理能力数据处理能力----超大规模的离线计算超大规模的离线计算超大规模的离线计算超大规模的离线计算WebSDKIDEConsoletunnelUMMCacheSLBWorker1Worker2WorkernScheduler….ExecutorExecutorExecutor….存储调度协作储存调度协作存储调度协作存储调度协作….Cluster1Cluster2Cluster3Clustern客户端接入层调度集群计算集群开放数据处理服务ODPS(OpenDataProcessingService)万亿级数据JOIN,百万级job并发,每天PB级I/O吞吐支持单集群10000+节点,同时具备跨集群(机房)数据共享能力内置数据挖掘算法库,快速实现分布式并行计算提供功能强大易用的SQL、MapReduce引擎,兼容大部分标准SQL语法*数据处理能力数据处理能力数据处理能力数据处理能力----千亿级千亿级千亿级千亿级规模规模规模规模实时实时实时实时OLAPOLAPOLAPOLAP分析分析分析分析飞天DBZookeeper数据节点消息节点升级管理接入服务(MySQL/REST/…)资源管理Console数据库管理数据管理节点管理负载均衡账号体系安装部署日志管理分析数据库服务ADS(AnalyticDatabaseService)千亿级数据的毫秒级多维透视,毫秒级的多个大表关联计算简单易用,通过SQL方式对数据进行多维分析、数据透视及数据筛选支持ACL授权、policy授权、角色授权、跨projectapp授权等多种权限管理方法,所有操作记录审计日志支持多租户的使用场景,同时满足多用户协同、数据共享、数据保密和安全需求*数据集成能力数据集成能力数据集成能力数据集成能力----跨跨跨跨平台的异构数据平台的异构数据平台的异构数据平台的异构数据整合整合整合整合ORACLEMysqlODPSCDPOthersSqlServerOSSOTSHBasePostgreSql半结构化弹性伸缩的传输通道四通 达的数据链路强劲迅速的同步能力可靠健壮的安全保障TXT*数据开发能力数据开发能力数据开发能力数据开发能力----集成数据开发集成数据开发集成数据开发集成数据开发环境环境环境环境数据开发工作台数据分析工作台数据挖掘工作台OLAP工作台管理工作台功能层功能层功能层功能层离线计算ODPS实时计算ADS流式计算OSPS数据同步CDP数据库RDS/DBMS…………workflow消息服务元数据服务权限服务调度服务业务无关,服务化、开放性服务层服务层服务层服务层执行层执行层执行层执行层*数据开发能力数据开发能力数据开发能力数据开发能力----集成集成集成集成的数据开发环境的数据开发环境的数据开发环境的数据开发环境�提供WebIDE编程和调试环境,支持多种程序类型:ODPSSQL、PL、M/R、XLIB、数据同步、数据脱敏、数据服务、状态检测等�一键发布,快速将程序部署到生产调度系统。系统可根据程序代码自动解析出任务节点间的依赖关系�团队开发:代码版本管理,代码分类管理,多人协同模式下的代码锁管理和冲突检测机制�提供Eclipse插件用于M/R和UDF编程,并且与WebIDE紧密集成�提供ODPS表搜索、数据查询功能,用户可轻松touch数据�提供代码扫描规则引擎,支持用户编程实现各类扫描规则*数据开发能力数据开发能力数据开发能力数据开发能力----数据数据数据数据仓库建模仓库建模仓库建模仓库建模指标指标指标指标管理系统,管理系统,管理系统,管理系统,对业务数据进行标准化定义物理模型设计,物理模型设计,物理模型设计,物理模型设计,类似PowerDesigner工具,用户可对ODPS表进行可视化设计(同时也兼容DDL编辑模式)。设计稿与ODPS真实表可以双向同步逻辑模型设计,逻辑模型设计,逻辑模型设计,逻辑模型设计,支持数据流图、ER图、字段mapping等功能*数据开发能力数据开发能力数据开发能力数据开发能力----百万级生产作业百万级生产作业百万级生产作业百万级生产作业调度调度调度调度执行引擎调度API平台DB调度引擎IDE部署服务客户端�调度系统可支撑的job数量达到百万级�执行框架采用分布式架构,并发作业数可线性扩展�支持多种调度周期:分钟、小时、日、周、月、季度、年。支持跨周期依赖�支持节点空跑、暂停、一次性运行等特殊状态控制�可视化展示调度任务DAG图,极大地方便用户对线上任务进行运维管理�支持任务运行状态监控告警,支持单任务重跑、多任务重跑、kill、重置成功、暂停等操作�支持线上冒烟测试�支持补数据(串行执行多周期实例)*数据管理能力数据管理能力数据管理能力数据管理能力----数据质量数据质量数据质量数据质量监控监控监控监控系统系统系统系统数据质量监控服务DQC(DataQualityCenter)覆盖数据采集清洗监测、数据加工处理监测、数据质量规则优化全过程,形成线上质量监控闭环预置30种以上的模板规则,覆盖波动率、一致性、离散值、业务逻辑、缺失值、约束检查等零延时的统计数据采集模块(数据落地,校验即完成)、多级容错、缓存,系统更加稳健支持标准SQL形式的自定义规则,任意复杂度,可任意扩展;智能阈值算法,给用户合理的建议阈值数据质量管理流程源数据源数据源数据源数据数据加工流水线ODLEDWADMCDM源表清源表清源表清源表清洗洗洗洗数据质量监控数据质量监控数据质量监控数据质量监控在线处理监控报警在线处理监控报警在线处理监控报警在线处理监控报警监控效果分析监控效果分析监控效果分析监控效果分析持续改进持续改进持续改进持续改进11112222333354444优化清洗规则优化监控规则线上质量监控闭环线上质量监控闭环线上质量监控闭环线上质量监控闭环*数据管理能力数据管理能力数据管理能力数据管理能力----任务监控告警任务监控告警任务监控告警任务监控告警系统系统系统系统任务监控告警智能预测算法,提前预警,防患于未然。根据余量和当前时间(是否工作时段)选择报警时机)智能告警系统,零人工干预,精准告警推送。可配置多种告警方式,电话、短信、邮件、IM可设置告警策略,包括告警时段、间隔、持续时间支持标准SQL形式的自定义规则,任意复杂度,可任意扩展;智能阈值算法,给用户合理的建议阈值强保障模式弱保障模式任务A任务B任务C任务出错时通知责任人任务B任务C1任务C2任务D1任务D

1 / 53
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功