淘宝数据应用开发平台iData.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

淘宝数据应用开发平台泽远@数据平台与产品Weibo.com/apeks•数据规模•数据产品•总台架构背景——进入淘宝数据平台•产品架构•技术架构概览——数据应用开发架构•知识库(元数据)•调度•数据集成•IDE•成本优化•生命周期深入——关键服务介绍展望——数据创造未来大纲每日新增数据20T累积数据14P2000+服务器的云计算平台每天处理100,000+作业任务,包括100+新增作业任务每天处理1P+数据,包括0.5%新增数据总体数据规模数据分析师ETL开发工程师模型架构师运营程序员数据化运营商业决策产品设计理解业务文档化业务和需求BI产品设计PD业务分析师/数据PD卖家买家数据产品PD店铺经营购买决策行业分析分析、挖掘用户需求数据产品设计数据平台ETL作业设计,实施,维护,优化数据模型建模架构师技术框架设计平台与工具的实现数据产品开发团队商业智能团队数据开发团队内部用户外部用户基础开发&开发架构……使用、建设建设如何使用数据——传统数据仓库模式数据分析师ETL开发工程师模型架构师运营程序员数据化运营商业决策产品设计理解业务文档化业务和需求BI产品设计PD业务分析师/数据PD卖家买家数据产品PD店铺经营购买决策行业分析分析、挖掘用户需求数据产品设计培训,咨询,解决方案架构师技术框架设计平台与工具的实现数据产品开发团队商业智能团队数据开发团队内部用户外部用户基础开发&开发架构……使用、建设建设服务数据开放之路——人人都是数据专家ISV数据应用开发平台——数据工场DataIntegrationDBsyncTTHiveHadoopMapReduceHadoopHDFSDatax报表需求(淘数据)Hbase即席查询(adhoc)数据分析数据挖掘数据产品数据平台——产品架构实时计算底层平台数据开发平台数据应用GatewayServersOracle备库MySQL备库日志系统LogServerHadoop开发平台GatewayServersDBSync爬虫数据MapReduceJavaJobsStreamingJobsHiveJobsTimeTunnelDataX数据流向主站服务(淘宝,B2B,广告,搜索,BOSS)HbaseHbaseMysqlOracleDataXMyfoxLoaderLzLoaderOtherSystem数据产品Adhoc报表(淘数据,BusinessPreview)回流主站应用流式计算其它数据开发平台——数据流向实时计算平台OLAPserver•愿景和目标•降低数据开发门槛,人人都可以方便加工和获取数据•提升数据项目开发效率•有效控制计算存储成本•沉淀最佳实践,打造数据应用开发的标准•用户分类•非技术背景用户•技术背景用户•需求分类•ADHOC需求?–类Excel查询工具–图形化拖拽–HIVEIDE•数据项目/数据产品?–数据应用开发平台数据应用开发平台数据字典,知识库,问答图形化辅助建模工具,自动建模数据集成(DataX,DBSync,TT3)IDE(web,RCP),代码优化器支持HIVE,map-reduce,mahout工作流编辑准入测试,持续集成,性能测试调度引擎分析工具集指标系统(Dashboard)监控告警,数据质量,生命和周期数据集成,OLAP,图标引擎,可视化引擎需求分析运行时监控业务建模数据集成线上部署管理生命周期数据开发&挖掘报表配置数据质量监控结果数据导出数据可视化配置测试运行成本优化计算成本元数据center权限控制审计日志搜索引擎缓存…技术服务基础服务项目实施流程数据工场产品架构HadoopMR•Job/Task级别运行日志•MR级别运行日志•各个环节延迟•系统吞吐HadoopHDFS•文件Meta•目录Meta•文件,目录统计信息•权限属性•访问记录HIVE•表Schema•分隔符,格式,压缩方式•记录数•权限信息工作流调度•数据流定义,任务依赖•节点级运行日志•系统延迟•调度开销•Gateway集群负载,并发度•任务优先级,基线代码库•代码•与用户的关联数据工场关键服务——知识库(元数据管理)其它服务生成捕获/解析/处理/归一化元数据应用归一化存储HadoopMRHadoopHDFSHIVE调度系统代码J/HI/PYRACMySQLSphinxRedis需求系统收集器收集器收集器收集器解析器收集器…数据字典指标库知识库数据质量监控自动建模/模型优化SQL自动改写MetadataService……生命周期血缘分析&影响分析SQL优化监控告警…BUS数据工场关键服务——知识库(元数据)系统优化宏观数据微观数据任务依赖关系/datapipeline天网调度效率Gateway并行度Jobtracker调度效率关键路径分析运行趋势分析系统关键路径点数据源监控末端监控比较重点节点运行时间等待时间同步时间算法优化集群计算效率系统吞吐瓶颈ETL元数据分析/血缘关系参数调优计算模型优化工具优化优先级事后评分数据工场关键服务——知识库(元数据)1.0Crontab•完全为了解决定时启动的问题•应用自己解决依赖关系•无均衡负载问题•无优先级问题•全人工运维2.O调度系统(天网)•基于工作流,自动管理以来关系•资源分配,并行度控制•容错机制:任务自动重跑、机器自动倒换•自动负载平衡•支持业务优先级•大部分场景支持自动运维,小部分半自动运维•独立的系统3.0调度服务(数据工场)•结合IDE•自动部署•全自动运维•自助监控,自助值班,100%监控覆盖•开放式服务•与系统其他部分集成,服务平台的一部分数据工场关键服务——调度StandardizedGatewayservercluster调度服务标准化配置统一包管理批量管理工具标准化运维failoverdynamicLB智能调度high-usagehigh-availableLowermaintenancecostpermachinebenefit消息总线调度前台其它服务定义数据工场关键服务——调度调度服务3.0调度服务3.0智能调度数据工场关键服务———调度数据源监控末端监控acdbfe数据流1末端监控acdbfe数据流2末端监控acdbfe数据流3末端监控acdbfe数据流4末端监控acdbfe数据流5系统关键路径点监控关键路径分析数据工场关键服务———调度全量/非实时同步增量实时同步数据源Mysql备库oracle备库日志数据爬虫数据Hadoop集群DataXTimeTunnel2Dbsync计算结果Mysqloracle全量/非实时同步DataXHDFS数据工场关键服务——数据集成数据工场关键服务——IDE数据工场关键服务——RCPJDBCHive元数据库…HadoopClusterBUSCLICLICLIIDEServer(CLImode)元数据调度优化引擎生命周期…HiveserverJDBCJDBCHTTPHTTPPIPEIDEServer(HSmode)RPCRCPWeb数据工场关键服务——IDE数据仓库表打散为表.列归一化表达式用户提交的数据流打散为表.列归一化表达式进入匹配数据流rewrite模型优化建议提交反馈进入用户重写规则引擎字段仓库数据工场关键服务——成本优化生命周期对象(Object)动作(Action):规则(Rule):对象(Object):HivetableHDFS中的目录动作(Action):仅保留,不作操作删除合并/压缩极限存储HDFSRaid移动到其它文件系统其它操作(可增加)动作可以级联规则(Rule):指定管理对象,在指定时间后,执行指定操作策略。每个管理对象可以配置多条管理规则。保留删除合并压缩极限存储HDFSRAIDMoveout…数据工场关键服务——生命周期编辑SQL代码工程管理调试版本控制监控告警语句优化发布管理调度计划运行监控生成生命周期配置选项作业管理配置调优配置生命周期配置多维分析配置char/dashborad配置数据导出End数据工场关键服务——数据开发流程数据质量监控总结

1 / 27
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功