薛奎2012-04-05淘宝数据仓库架构实践主题概述元数据平台架构开发管理平台架构应用开放平台架构展望存储计算架构概述阿里集团未来更像一家数据公司而不是一家电商公司淘宝数据仓库架构元数据概述元数据平台架构元数据在淘宝中的应用子主题元数据架构元数据系统元数据数据库表元数据数据表描述数据字段描述ETL代码元数据对数据表,字段引用关系代码元素元数据ETL仸务运行过程元数据map数,reduce数运行起至时间数据容量元数据记录数占用空间大小ETL仸务调度元数据依赖关系调度周期优先级……业务元数据业务逻辑单元元数据业务主题元数据语义元数据系统元数据与业务元数据关系元数据元数据在淘宝中的应用元数据血缘分析系统Reduce自适应系统数据波动监控系统告警系统ETL代码优化系统自动化建模系统自助分析提数系统调度系统……存储计算平台选型传统存储计算平台架构分布式平台设计理念淘宝存储计算平台发展子主题存储计算架构存储计算平台选型规模评估01容量评估02需求评估02使用人数、数据量、数据保存周期、数据需求量计算(CPU/内存),存储(磁盘),网络(网卡,路由器).线性扩展、成本、稳定性、性能、运维……传统数据仓库平台架构根据对节点(CPU/内存),磁盘,网络的共享分为完全共享、部分共享与完全不共享几种类型..对称多处理SMP共享磁盘完全不共享DB磁盘ClientClientDBSAN/共享磁盘DBDBDBClientDB磁盘DB磁盘DB磁盘DB磁盘分布式平台设计理念移动计算比移动数据更划算异构软硬件平台间的可移植性简单的一致性模型(写一次,不限读次数)流式数据访问硬件错误是常态而不是异常大规模数据集淘宝计算存储平台发展hadoop集群(2000节点)Greenplum分布式数据库OracleRAC多节点(20)Oracle单节点特点:可线性扩展;多副本机制保证系统7*24小时不间断提供服务。开源系统与低廉设备特点:可线性扩展,但当集群到达一定规模时,数据仓库的不可写时间会越来越长。低廉的设备与收费软件特点:有一定的扩展能力,但不是线性扩展。高端存储与商业软件成本高昂特点:无扩展能力,计算存储能力有限总体规划云分析ETL任务调度子主题开发管理平台架构总体规划....................开发测试布署上预发预发布署上生产.....冒烟云分析问答知识中心天网天网版本/发布功能(开发中)版本/发布功能(开发中)自动化测试平台(开发中)云分析AD-HOC开发平台社区、知识库、帮助中心HIVEShellPythonPIGMRMahoutR已支持计划支持Crontab调度RAC天网调度分布式天网调度完全为了解决定时启动的问题无法解决时序前后置依赖问题元法解决均衡负载问题无法解决优先级问题运维的灾难根节点定时启动任务之间完全基于触发启动能很好解决均衡负载的问题能很好的解决优先级问题一键式运维,轻松快捷不能解决rac单节点失效的问题。根节点启动仸务之间基于触发启动能很好解决均衡负载ETL仸务的优先级能传递到云梯的资源分配调度很好解决gateway失效的问题一键式运维,轻松快捷调度系统之于数据仓库有如大脑于人体一样重要,他是数据仓库所有任务高度协同有序运转的指挥中心.ETL任务调度平台早期天网原型总体规划数据采集统一淘宝数据体系统一指标库、CUBE群、TOP结果集数据应用商店DAS(DataAPPStore)官方数据应用:DSM、ADM子主题应用开放平台架构总体规划事实层主题层ODSTTdataxdbsync统一指标库CUBETOPX……DataAPPStore(DAS)DSMADM淘数据商城数据portal你的数据应用产品数据采集DW(云梯)结果集(OB集群)数据应用产品数据应用商店(接口)云分析数据采集采集TT:浏览日志数据同步,基本上实时同步Dbsync:DBlog解析,准实时同步Datax:全量同步,基本上延迟一天DATA统一淘宝数据体系基于ODS、主题与实事三层标准核心业务数据驱动+其它业务应用驱动初期人工为主,后期自动化建模为主基于云存储计算环境打造电子商务行业数据模型标准统一淘宝数据体系淘宝业务模型发布销售收款分销营销物流浏览购买支付收藏物流评价旺旺评价投诉处罚退款P4P卖家工具聚划算统一指标库—生成过程维度W1W2W3W4W5W6W7W8周期一级类目地域卖家性别年龄段卖家星级指标I1I2I3GMV支付宝成交PV指标库唯一标识指标名称度量代码度量值(元)标签20120401001周期=日|一级类目=男装|地域=上海|日交易大于等于1W的店铺Sum(GMV)300000000GVM|男装|上海|网站运营部|男装运营统一指标库—目前指标来源10%5%60%25%淘数据接入ETL开发第三方系统接入建模+应用驱动统一指标库:逐步切换为统一建模+应用驱动的来源,目前绝大多数指标库来源为淘数据指标DataAppStore(DAS)JsionXMLhttpAPI……指标库CUBE群……DSMDSM系统DataSuperMarket:简称DSM,就像在超市购物一样获取你想要的数据,从此您只需要看一张报表,100%DIYByYourself.搜索的方法查找数据通过业务元数据定位数据支持定期邮件发送功能格式一次定义,永久生成数据一次定义,定期自动产生取你所想,用你所用支持EXCEL的所有编辑功能支持excel导出展望联系我们•数据平台与产品Blog:百科:邮件列表:taobao-dw@list.alibaba-inc.com•薛奎微博:淘薛奎mail:xuekui@taobao.com旺旺:薛奎