数据集市建设、数据质量及数据管理方法

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

集市建设及数据管理方法(初稿)目录◇数据集市数据集市数据集市:–数据仓库的子集–经过ETL流程的一定粒度汇总数据–面向部门级业务–针对特定主题的数据集–星型模式(不遵循3NF结构)–缓解仓库访问瓶颈实现方式:–独立型(RalphKimball)•仓库是集市的联合•数据来源于业务系统•首先满足数据展示的需求•必需统一的数据仓库建设思想协调–从属型(BillInmon)•集市是仓库的子集•数据来源于仓库•提供更强的数据一致性和灵活性•长期规划实现目的–合并不同系统数据源–非实时更新数据的访问–信息发布面向特定用户群体–合理的查询响应时间–快速一致的视图访问–独立型–从属型实现步骤:–定义商业目标–理解数据源–确定汇总粒度–定义数据模型实现原则:–统一构建–总体指导–稳定性–可适应性–可扩展性数据分层架构数据业务数据业务数据业务数据外部数据数据仓库应用数据层元数据基础数据层事实、维集市集市过渡区集市主题分类...针对性营销数据集市基于EDW/ODS,通过对EDW/ODS中的数据进行一定粒度的汇总,满足针对性营销IT支撑需求的数据集合包括营销分析数据和营销事务数据营销分析数据–数据挖掘宽表–自助取数汇总表–外部数据宽表–数据挖掘宽表•旨在为数据挖掘模型的建立和分析提供基础支撑,并为之提供有效的数据集合,提升系统效率。•包含客户属性类数据、客户拥有类数据、客户行为类数据、客户价值类数据和客户交互类数据。–自助取数汇总表•自助取数汇总表主要包含按照客户、用户等维度进行数据的初级汇总和整合,实现自助取数系统对客户、产品等相关信息数据提取–外部数据宽表(外部调研数据)•在成功获取了外部数据后,可构建合适的数据集市,纳入系统的外部数据可包括:竞争对手信息、客户偏好信息、客户满意度信息等•外部数据涵盖的范围非常广泛,将所有的外部数据都加载到针对性营销的数据集市中存在较大难度。营销事务数据•营销事务数据用以支撑营销活动的制定与开展–套餐资料库–营销资料库–营销资源库–套餐资料库•套餐资料库存储已有的套餐资料,为套餐梳理和套餐方案设计环节提供数据支撑。–套餐的结构包括基本套餐和可选套餐两部分。基本套餐是套餐的主体部分,它包含了套餐的核心产品及主要优惠规则,可以独立存在;可选套餐是由客户自行选择的叠加套餐,一般不单独提供,需以购买基本套餐为前提。–营销资料库–营销资料库包含了整个营销活动的策划、分析、评估环节所涉及到的除了套餐以外的内容:•市场调研所需的问卷题库•营销脚本•宣传方案•促销方案•营销活动案例–营销资源库–营销资源库包含了电信公司所拥有的渠道、销售品、外呼中心等资源的,供营销策划人员在策划时可以查询当前营销活动可以利用的营销资源;用于对营销活动所需资源的可利用性进行检查•人力资源•财务预算•广告资源•渠道资源•合作伙伴•促销品资源(包括赠送品、搭售品等)•其他支撑系统功能(如计费系统)目录◇数据集市◇数据管理数据整合数据质量元数据管理数据整合整合准备:–源/目标模型–数据预处理整合过程:–数据抽取–数据转换–数据加载整合规则:–数据编码统一–保证数据质量–支持异常控制–流程可维护–异常处理–流程管理输出:–规则分析•包括:候选数据源确定、源与目标的映射关系、估计行数等–执行分析•包括:执行时间、执行方式、执行顺序、执行频度等–异常报告•包括:异常位置、异常原因、处理方式等–版本控制数据整合总体流程总体处理流程目录◇数据集市◇数据管理数据整合数据质量元数据管理数据质量解决方法数据质量问题管理问题域技术问题域流程问题域信息问题域信息问题域数据质量问题企业模型元数据管控技术元数据业务元数据数据采集点唯一性一致性合法性完整性准确性信息问题统一数据管理统一企业数据模型技术问题域数据加载数据获取数据检查数据校验数据迟延数据转换算法数据清洗算法数据使用展示方式展示工具展示周期数据维护人为调整数据维护验证机制数据存储能力数据备份、恢复数据传递文件传输方式及时性漏传传输技术网络传输过程不可靠技术问题数据质量问题数据加载算法流程问题域数据获取流程数据维护流程流程问题数据获取数据清洗数据加载人为调整数据流程数据转换错误数据维护流程变更维护流程数据测试流程数据质量问题数据稽核流程稽核规则设置数据稽核数据评估稽核数据完善数据检查流程检查规则设定数据检查数据评估检查数据完善管理制度管理组织架构目标工作优先级责任人职责激励奖惩制度奖惩制度的执行反馈机制反馈渠道管理问题数据质量问题岗位设置管理组织架构培训培训资金培训时间培训内容培训制度培训计划管理问题域数据质量管理流程数据质量评估分析问题解决和验证数据质量问题分析源系统数据人员ODS系统维护人员数据质量管理人员数据质量检查人员数据质量检查问题汇总数据质量稽核分析问题问题展现ETL处理过程数据质量问题发现问题工单生成派单派单判断源系统问题工单ODS系统问题工单工单处理问题解决N数据质量分析评估问题验证数据质量考核源系统评估报告ODS系统评估报告数据质量检查稽核数据质量评估监控管理功能源系统1源系统2ETL/EAI企业数据平台数据质量任务派发数据质量角色管理数据质量组织管理数据质量工单管理数据质量权限管理数据属性关系检查数据属性检查数据表关系检查数据对比稽核异常处理数据对比展现数据质量分析数据质量评估数据质量告警数据质量异常跟踪数据质量修正跟踪数据质量监控数据质量管理平台数据质量基础管理规则配置数据处理情况考核算法配置统一指标定义流程配置异常流程跟踪接口定义数据质量管理总体流程总体处理流程:目录◇数据集市◇数据管理数据整合数据质量元数据管理元数据管理元数据定义–元数据最本质,最抽象的定义为:dataaboutdata(关于数据的数据)–在数据仓库领域中,元数据被定义为:描述数据及其环境的数据元数据存储–技术元数据:为企业技术用户和IT人员提供支持的元数据–业务元数据:为企业业务用户提供支持的元数据元数据管理元数据管理技术——公共仓库元模型CWMCWM–公共仓库元模型(CommonWarehouseMetamodel)是OMG国际标准化组织提出的,主要目的是在异构环境下,使不同数据仓库工具、平台和元数据知识库进行元数据交换。元数据管理-支持五类系统管理功能–描述哪些数据在数据仓库中;–定义要进入数据仓库中的数据和从数据仓库中产生的数据;–记录根据业务事件发生而随之进行的数据抽取工作时间安排;–记录并检测系统数据一致性的要求和执行情况;–衡量数据质量。数据仓库元数据管理数据仓库涉及的元数据管理包括:–数据源元数据–ETL规则元数据–数据仓库元数据–报表元数据–接口文件格式元数据–商业元数据–其他元数据各类元数据管理办法:–数据源元数据•数据源元数据主要是数据库模型设计文档、为综合统计分析平台提供数据的各种业务系统的数据字典及数据接口文件等。•数据源元数据的管理:由相关人员对各类文档进行统一版本的管理。各类元数据管理办法:–ETL规则元数据•ETL规则元数据中涉及到数据源元数据、目标系统元数据、ETL流程、源与目标的映射关系等元数据信息。•数据源元数据包括业务系统元数据和数据仓库元数据等;目标系统元数据可能是数据仓库元数据、数据集市元数据等。•ETL规则元数据的管理:由数据库开发人员根据各个模块的ETL过程以及过程运行的顺序,形成相关元数据管理文档进行统一管理。各类元数据管理办法:–数据仓库元数据•数据仓库采用RDBMS进行数据的存储和管理,设计模式遵循数据仓库的设计准则,实现主题、维、度量等多维概念模型,这些元素在RDBMS中物理上是具体的数据表,这些表与具体多维模型的映射关系需要通过元数据进行描述和定义。•数据仓库元数据的管理:制定数据仓库模型设计文档记录事实表、维度、属性、层次等信息,物理表与多维模型的映射关系等信息,对文档进行统一版本的管理。各类元数据管理办法:–报表元数据•包括对报表和报表中具体指标(度量)的描述信息等•报表元数据的管理:对数据集上可以计算的度量进行相关元数据的管理,包括详细设计文档中对各个表中度量的定义、描述等;对所有表和度量之间的关系进行严格的文档记录,包括度量的计算、度量之间的相互依赖关系、以及历史信息进行元数据管理各类元数据管理办法:–接口文件格式元数据•接口数据文件格式,包括接口数据文件的命名、传输周期、格式等说明信息。•接口文件格式元数据:与ETL规则元数据进行统一管理。各类元数据管理办法:–商业元数据•系统中对各项指标的业务含义的描述性信息,在综合统计分析平台中,包括维、度量的业务含义描述,主题的分析目标描述,报表指标的解释信息等。•商业元数据的管理可以分解成数据仓库元数据的管理和报表元数据的管理。各类元数据管理办法:–其他元数据•数据访问日志、数据装载日志等信息。数据访问日志记录数据库的访问信息,包括对数据库表的操作、锁、内存使用、I/O使用等信息;数据装载信息记录每个ETL过程的抽取时间、操作人员、起始和截止时间、抽取涉及到的表、操作行数等相关信息•其他元数据的管理:将元数据信息记录到日志,形成元数据文件进行统一管理智能营销数据管理智能营销元数据管理?????谢谢!

1 / 51
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功