数据仓库中的ETL和Metadata

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据仓库中的ETL和Metadata数据仓库简介元数据的实际问题元数据与维护数据仓库数据仓库简介数据仓库是……数据仓库是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程W.H.Inmon元数据组成(Metadata)业务系统到数据仓库数据仓库数据展现工具ETLTargetDatabaseFront-EndTool数据采集数据传输数据转换数据清洗数据加载数据汇总数据模型人事销售库存财务RDBMSODS/StagingAreaRDBMS数据仓库数据集市企业经营分析客户关系管理业务流程分析财务分析Metadata外部系统StatisticsClusteringNeuralNetsArtificialIntelligence业务股东管理OLAP“维”Keys属性Facts地点Table时间Table产品Table客户TableManyRecords...数据仓库不是……某种具体的产品简单的数据物理集中只能输入而不能输出的仓库报表中心可以一期到位的工程业务分析专家的替代品……术语解释ETL(Extract/Transform/Loading)是数据从业务系统抽取转化到数据仓库的过程Metadata可以理解成Dataaboutdata,关于数据的数据术语解释OLAP(On-LineAnalyticalProcessing)面向分析的在线处理OLTP(On-LineTransactionalProcessing)面向交易的在线处理术语解释数据集市则是范围较小,面对单一主题或部门,同样是为了查询、报表、分析等目的进行优化ODS(OperationalDataStore)通常作为混合性可操作数据源StagingArea是数据处理区域,为了实现ETL过程的临时存储数据挖掘是通过一些数学方法对数据进行深层次的分析从而发现其规律前端开发ETL开发需求/建模数据仓库项目三部曲元数据的实际问题仓库过程仓库操作转换XML记录型多维关系型业务信息软件发布UML1.3对象OLAP数据挖掘信息可视化业务术语数据类型表达式键索引类型映射管理资源分析基础对象模型举例:CWM模型数据仓库的整合性是基于元数据的统一ETL是数据仓库从业务系统获得数据的必经之路,元数据则是地图建立可维护的数据仓库依赖很多因素,ETL/Metadata是非常重的两大块CustomerCustomerNumberNameAddressComments建模工具CustomerTblCustomerIDNameAddressAddress1CommentsETL工具CustomerDetailsCustomerNumberNameAddressRemarks前端工具CustomerIDNameAddress1Address2Descr数据仓库客户标记,加前缀进行区分对公和对私客户客户标记,01打头表示对公客户,02打头表示对私客户无描述客户标记,01打头表示对公客户,02打头表示对私客户,03打头表示海外客户多个系统都包含元数据不同的字段名补充字段业务定义不同CustomerCustomerNumberNameAddressComments建模工具CustomerTblCustomerIDNameAddressAddress1CommentsETL工具CustomerDetailsCustomerNumberNameAddressRemarks前端工具CustomerIDNameAddress1Address2Descr数据仓库客户标记,加前缀进行区分对公和对私客户客户标记,01打头表示对公客户,02打头表示对私客户无描述客户标记,01打头表示对公客户,02打头表示对私客户,03打头表示海外客户哪份正确?正在使用哪份?应该用哪份?CustomerCustomerNumberNameAddressComments建模工具CustomerTblCustomerIDNameAddressAddress1CommentsETL工具CustomerDetailsCustomerNumberNameAddressRemarks前端工具CustomerIDNameAddress1Address2Descr数据仓库项目中经常遇到的问题元数据定义在业务层面难以在多个系统或部门间统一数据质量的元数据被忽略需求难以确认,而且在不断变化对业务系统的元数据尚缺乏理解,就匆匆开始开发ETL过程,不断返工建议首先做选择题,是否要先有模型再有数据仓库,然后决定元数据是否要统一结合业务系统文档,对数据质量做初步的评价,在ETL过程中引入校验点,然后不断完善建议尝试用简单的报表和公式跟用户交流需求,分阶段来冻结需求对业务系统清晰的理解,会减少歧义而且及早的发现问题项目中经常遇到的问题项目周期不断在压缩、延迟中反复,开发人员不再关心如何维护元数据的版本来自各种角落的元数据五花八门最终用户过分依赖报表本身,而不是元数据技术人员对元数据期望过高,集中在理论层面建议当项目压力很大的时候,至少要做到分阶段的元数据一致性根据项目的具体情况,制定元数据管理的策略及形式,简单的项目可以尝试自行开发元数据管理,对于仓库模型及ETL的参数进行一些必要的管理建议提供给业务人员一个友好的元数据访问、查询界面元数据的管理及标准尚未成熟,格式转换、查询、版本管理实现比较简单,并容易看到效果,进一步的分析则应该结合具体项目需求元数据与维护数据仓库LegalHROperationalDataSourcesDataSourcesDataWarehousemetadataExtract/Transform/LoadBusinessIntelligenceDataforAnalysisExecutiveInformationManagementReportingDailyReportingProductOperationalDataStoreFinancialCustomerStoreExtractTransformLoadExtractTransformLoadRealEstateDataQualitymetadataDataQualityEnterpriseMetadata项目一期开发14个月ETL开发了9个月3.5个版本最终还是没有元数据二期……重做用元数据维护仓库及时发现系统变化找出需要调整的ETL程序给出仓库中数据和指标的来源及规则调整仓库的数据模型促进项目组成员的沟通监控数据质量采用元数据跟用户确认新的需求小结ETL/元数据配合整体的建设策略从简单元数据管理做起,规范ETL设计项目必须分阶段依据元数据冻结需求让业务人员尽早的使用元数据小心数据质量的元数据,提供校验点设计企业模型的同时,搭建数据集市MSN&Email:tommychang77@hotmail.comMobile:13910828951多谢

1 / 33
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功