2012/11/6数据仓库与数据挖掘1第2章数据仓库的数据存储与处理2012/11/6数据仓库与数据挖掘22.1数据仓库的三层数据结构一、概念数据仓库就是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,通常用于辅助决策支持(DDS)2012/11/6数据仓库与数据挖掘32.1数据仓库的三层数据结构导出数据(如:数据集市)数据集市元数据调和数据(EDW&ODS)EDW元数据操作型数据(如:业务处理系统)操作型元数据企业数据模型通常存储在遍及组织的各种不同的操作型记录系统中存储在企业级数据仓库和操作型数据存储中的数据存储在各个数据集市中的数据描述了一个解释组织所需数据的整体轮廓元数据:描述其他数据的属性或特征的技术和业务数据.描述调和数据层的数据特性及抽取、转换、加载操作性数据到调和数据的ETL规则提供给企业数据仓库的数据特性2012/11/6数据仓库与数据挖掘42012/11/6数据仓库与数据挖掘52.2数据仓库的数据特征一、状态数据与事件数据(前像)状态数据--〉事件数据--〉(后像)状态数据事件是一个由事务引起的数据库活动。2012/11/6数据仓库与数据挖掘62.2数据仓库的数据特征二、当前数据与周期数据操作型业务存储大量“当前数据”。周期数据物理上就是不再变化和删除的数据。见表2.1和2.2。2012/11/6数据仓库与数据挖掘72.2数据仓库的数据特征三、数据仓库中的元数据DW中还有一类重要的数据:元数据(metedata)。元数据是“关于数据的数据”元数据就是关于数据的数据,它描述了数据的结构、内容、码、索引等项内容、粒度定义等。DW中的元数据DB中的数据字典是一种元数据。设计一个描述能力强,内容完善的元数据,是有效管理DW的重要前提,它是DW设计的一个重要组成部分。DW的元数据内容除了与DB的数据字典中的内容相似外,还应包括DW的一些关于数据的特有信息。2012/11/6数据仓库与数据挖掘92.2数据仓库的数据特征三、数据仓库中的元数据技术元数据:商业智能系统结构的描述,包括对数据源、数据转换、抽取过程、数据加载策略以及对目标数据库的定义等内容;包括数据仓库使用的模式、视图、维度、层次结构、类别和属性的定义。技术元数据提供给系统管理人员和数据仓库开发人员使用,管理人员需要了解操作环境到商业智能环境的映射关系(即ETL数据抽取的映射关系),数据的刷新规则,数据的安全性,数据库优化和任务调度等内容。2012/11/6数据仓库与数据挖掘102.2数据仓库的数据特征三、数据仓库中的元数据业务元数据:业务元数据从业务角度描述了商业智能系统中的数据,使得不懂计算机技术的业务人员也能够理解商业智能系统中的数据。包括以下信息:用户的业务术语和它们表达的数据模型信息、对象名称及其属性,数据的来源信息和数据访问的规则信息,商业智能系统提供的各种分析方法以及报表展示的信息。业务元数据使数据仓库管理人员和用户更好地理解和使用数据仓库,用户通过查看业务元数据可以清晰地理解各指标的含义,指标的计算方法等信息。元数据举例(数据字典):读者DS3借还书记录DS1读者记录图书详细信息DS2图书信息记录图书借阅信息IPO2.1.2借书数目校验IPO2.1.3拒绝借书IPO2.1.6输出读者身份错误IPO2.1.1读者身份校验IPO2.1.4过期图书校验IPO2.1.5登记借书读者身份读者身份错误有效读者借书被拒绝过期图书信息提示借阅成功信息借阅事务数据流名:图书详细信息说明:简要根据图书编号将图书记录信息表中图书的详细信息返回,以供借阅数据流来源:图书记录信息表数据流去向:登记借书数据流组成:图书编号+图书名称+{作者}+出版社+版次+出版日期+库存数量数据流量:高峰(5000次/天),平时(1000次/天)数据流名:借阅成功信息说明:简借阅成功后读者所借阅的图书清单等信息,给读者核实或留存数据流来源:登记借书数据流去向:读者数据流组成:读者编号+读者姓名+借书证号+{图书编号+图书名称}+借出时间+经办者数据流量:高峰(3000次/天),平时(1000次/天)数据元素定义举例数据项名:读者姓名别名:ReaderName简述:读者的姓名类型:文字长度:10取值范围:中英文元数据举例(数据字典):数据元素定义举例数据项名:管理员编号别名:LibrarianID简述:图书管理员的唯一标示类型:文字长度:8取值范围及含义:数字/英文字母第1-4位:入职年份第5位:进人单位的类别号0-3:校本部;4:应用文理学院;5:师范学院;6:商务学院;7:生物化学工程学院;8:旅游学院/特教;9:继续教育学院/实习工厂第6-8位:职工顺序号8:旅游学院(0~500)、特教(501~999);9:继续教育学院(0~500)、实习工厂(501~999)元数据举例(数据字典):数据存储定义举例数据文件名:借还书记录简述:存放所有借还书的数据记录数据组成:{借书信息编号+借书证号+图书编号+借阅日期+归还日期+应还日期+续借次数+操作员}来源/去向:读者借还书时系统自动写入存储方式:数据库表存取频率:5000次/天保存时间:已还记录保存5年,之后定期备份并移出系统;未还记录永久保存。元数据举例(数据字典):数据存储定义举例借还书记录文件的数据结构:借还书记录文件={借书信息编号+借书证号+图书编号+借阅日期+归还日期+应还日期+续借次数+操作员}借书信息编号=借书证号+图书编号+借阅日期+借阅时间图书编号=图书ISBN借阅日期=年(2000..2030)+月(1..12)+日(1..31);借阅时间=时(“00”..“23”)+分(“00”..“59”)+秒(“00”..“59”)续借次数=0..3操作员=图书管理员编号元数据举例(数据字典):2012/11/6数据仓库与数据挖掘162.3数据仓库的数据ETL过程ETL概念ETL过程前后数据的特征数据的ETL过程描述抽取(Capture/Extract)清洗(Scrub/Cleanse)转换(Transform)加载和索引(Load/Index)2012/11/6数据仓库与数据挖掘17一、ETL的概念数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽取(Capture/Extract)、清洗(Scrubordatacleansing)、转换(Transform)、装载与索引(LoadandIndex)等数据调和工作。2012/11/6数据仓库与数据挖掘18二、数据的ETL过程描述操作型系统EDW或ODS抽取/抓取清洗转换加载与索引拒绝数据的信息有关拒绝数据的信息集结地(StagingArea)空值处理规范化数据格式拆分数据聚合数据验证数据正确性数据替换2012/11/6数据仓库与数据挖掘20三、数据ETL过程的实施要点ETL过程是一个数据流动的过程,中间的“T”(转换)是关键;ETL工具的选择非常重要如何保证数据质量?数据质量在一定程度上决定了数据仓库的价值。ETL识别错误数据,不是处理它们。2012/11/6数据仓库与数据挖掘21三、数据ETL过程的实施要点数据抽取:静态抽取增量抽取2012/11/6数据仓库与数据挖掘22三、数据ETL过程的实施要点数据清洗:在数据转换或移到数据仓库前升级原始数据质量。2012/11/6数据仓库与数据挖掘23三、数据ETL过程的实施要点数据转换把数据从源操作型业务系统的格式转换到企业数据仓库的数据格式。数据转换功能:记录级功能:选择、连接、规范化和聚集字段级功能:从源记录中给定的格式转变到目标记录中不同的格式,单子段转换和多字段转换。2012/11/6数据仓库与数据挖掘24三、数据ETL过程的实施要点数据加载和索引:数据加载到数据仓库或者数据集市的过程。刷新方式和更新方式。ETL的实施SQLServer的SSIS:Oracle的OWB:Oracle的ODI,OracleDataIntegratorInformaticPowerCenterDataStageSSIS应用举例将Adventureworks数据库中的transactionHistoryArchive表中的数据计算汇总,输出到文本文件中,并进行备份。2012/11/6数据仓库与数据挖掘292.4多维数据模型和星模式数据仓库中导出数据层的数据存储方式:存储在多维数据库中。存储在关系数据库中。2012/11/6数据仓库与数据挖掘302.4多维数据模型和星模式多维数据模型及其相关概念多维数据模型的物理实现多维建模技术简介一个星模式的例子2012/11/6数据仓库与数据挖掘31一、多维数据模型及其相关概念有关多维数据模型的几个概念:维、维类别、维属性、度量、粒度及分割等关于数据综合级别与粒度的确定:一般把数据分成四个级别:早期细节级、当前细节级、轻度综合级、高度综合级数据仓库中的数据组织数据仓库中的数据分为四个级别:早期细节级,当前细节级,轻度综合级,高度综合级。1985~1998年销售明细表1998~2003年销售明细表1998~2003年每月销售表1998~2003年每季度销售表2012/11/6数据仓库与数据挖掘33二、多维数据模型的物理实现多维数据库(MDDB):数据是存储在大量的多维数组中。而不是关系表中,与之相对应的是多维联机分析处理(MOLAP)关系数据库:以关系型结构进行多维数据的表示和存储。是存储OLAP数据的另一种主要方式。与之对应的是关系联机分析处理(ROLAP)2012/11/6数据仓库与数据挖掘34三、多维建模技术简介两种主流建模技术:由Inmon提出的企业级数据仓库模型和由Kimball提出的多维模型;基于关系数据库的多维数据建模:星型,雪花和事实星座模式;关于事实表、维表及键的设计2012/11/6数据仓库与数据挖掘35一个星模式的例子销售分析表PK,FK2时间编号PK,FK1产品编号PK,FK3地址编号销售数量销售金额产品维表PK产品编号产品类别产品名称时间维表PK时间编号年度月份周日地区维表PK地址编号国家省份城市门店