第3章数据仓库系统的设计与开发

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

2019/12/21数据仓库与数据挖掘1第3章数据仓库系统的设计与开发通过对数据仓库的概念、体系结构与存储结构、ETL过程等内容了解以后,如何建立数据仓库系统呢?2019/12/21数据仓库与数据挖掘23.1数据仓库系统的设计与开发概述建立一个数据仓库系统的参考步骤数据仓库系统的生命周期创建数据仓库系统的两种思维模式数据仓库数据库的设计步骤2019/12/21数据仓库与数据挖掘3建立一个数据仓库系统的参考步骤数据仓库系统的建立是一个复杂而漫长的过程。涉及到:源数据库系统数据仓库对应的数据库系统数据分析与报表工具……2019/12/21数据仓库与数据挖掘4建立一个数据仓库系统的参考步骤收集和分析业务需求步骤建立数据模型和数据仓库的物理设计定义数据源选择数据仓库技术和平台从操作型数据库中抽取、清洗及转换数据到数据仓库选择访问和报表工具,选择数据库连接软件,选择数据分析和数据展示软件更新数据仓库2019/12/21数据仓库与数据挖掘5数据仓库系统的生命开发周期数据仓库系统的开发与设计是一个动态的反馈和循环过程。一个数据仓库系统包括:数据仓库数据库数据分析应用系统2019/12/21数据仓库与数据挖掘6数据仓库系统的生命开发周期数据仓库系统的生命周期规范与需求分析用户评价与反馈系统安装与测试数据填充与调试中间件开发数据的ETL处理数据库与元数据体系结构设计逻辑模型概念模型系统维护系统上线应用分析维护实施设计2019/12/21数据仓库与数据挖掘7建立数据仓库系统的两种思维模式自顶向下(Top-down)将数据通过ETL汇集到数据仓库中,然后再把数据通过复制的方式存入各个数据集市中。自底向上(Bottom-Up)通过ETL将数据汇集到数据集市中,再将数据汇集到数据仓库中。2019/12/21数据仓库与数据挖掘8数据仓库数据库的设计步骤概念模型设计业务需求物理模型设计逻辑模型设计收集、分析和确认将需求模型转为关系模型由关系模型转为存储模型常用方法:信息包图法关键任务:分析和理解数据仓库中的主题常用方法:星形图法关键任务:事实表与维度表的设计,包括事实、粒度、聚合与分割、维度等问题的确定常用方法:关系表(通用数据库物理设计法)关键任务:物理数据库表及其存储结构设计面向用户的需求详细的技术细节有反复的逐步设计过程2019/12/21数据仓库与数据挖掘93.2基于SQLServer的数据仓库数据库设计过程详解SQLServer2005介绍集成了三个服务。SQLServer2005的数据仓库架构2019/12/21数据仓库与数据挖掘10MSSQLServer2005的数据仓库架构SQLServerBusinessIntelligenceDevelopmentStudio集成(SSIS)报表(SSRS)分析(SSAS)数据抽取数据整合自定义报表数据展现OLAP数据挖掘服务Service商业智能应用BI作用Function从企业各业务数据中获取有用信息,实现与业务流程的统一对分析结果提供类型多样、美观且适合不同需求的图表和报告为已有数据建立模型,分析并找出数据的内在关系2019/12/21数据仓库与数据挖掘113.2基于SQLServer的数据仓库数据库设计过程详解包括以下步骤:分析组织的业务状况及数据源结构组织需求调研,收集业务需求采用信息包图法进行数据仓库的概念模型设计利用星形图进行数据仓库的逻辑模型设计数据仓库的物理模型设计2019/12/21数据仓库与数据挖掘12分析组织的业务状况及数据源结构以SQLServer2005实例数据库AdventureWorksDW中所描述AdventureWorksCycles公司的用户需求为例。公司概况业务系统流程介绍对数据源结构的分析与理解2019/12/21数据仓库与数据挖掘13组织需求调研,收集业务需求坚持数据驱动+用户(需求)驱动的设计理体念,因此需要充分了解用户的需求,进而对需求进行分析。关于用户需求的调研(确定主题域)对用户需求调研结果的分析(确定度量指标和维度)2019/12/21数据仓库与数据挖掘14物理模型星型、雪花模型物理数据模型概念模型逻辑模型面向用户的需求细化层次更详细的技术细节信息包图采用信息包图法进行概念模型设计2019/12/21数据仓库与数据挖掘15•信息包图:是数据仓库的数据模型的第一层或最高层。由于大多数商务数据是多维的,但传统的数据模型表示三维以上的数据有一定困难。而信息包图简化了这一过程并且允许用户设计多维信息包并与开发者和其他用户建立联系。这种模型集中在用户对信息包的需要,信息包提供了分析人员思维模式的可视化表示。信息包图法简介2019/12/21数据仓库与数据挖掘16•工作:–确定系统边界:决策类型、需要的信息、原始信息–确定主题域及其内容:主题域的公共键码、联系、属性组–确定维度:如时间维、销售位置维、产品维、组别维等–确定类别:相应维的详细类别–确定指标和事实:用于进行分析的数值化信息2019/12/21数据仓库与数据挖掘17信息包图的建立信息包:维度类别空白信息包图样式指标和事实2019/12/21数据仓库与数据挖掘18〖例〗试画出销售分析的信息包图。解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标与事实:(1)维度:包括日期维、区域维、产品维、客户维、广告维(待用)等。(2)类别:确定各维的详细类别,如:日期维包括年(5)、季度(20)、月(60)、日(1800),括号中的数字分别指出各类别的数量;区域维包括国家(10)、省州(100)、城市(500)、销售点(8000),括号中的数字同样分别指出各类别的数量;类似地,可以确定产品维、客户维、广告维等的详细类别。(3)指标和事实:确定用于进行分析的数值化信息,包括实际销售额、计划销售额和计划完成率。2019/12/21数据仓库与数据挖掘19销售分析的信息包图日期维区域维产品维客户维广告维(待用)年度(5)国家(10)产品类别(500)年龄分组(7)广告费分组(2)季度(20)省州(100)产品名称(9000)收入分组(8)月(60)城市(500)信用组(2)日(1800)销售点(8000)指标和事实:实际销售额、计划销售额、计划完成率信息包:销售分析维度类别2019/12/21数据仓库与数据挖掘20设计基于主题域的概念模型供应商ID相关信息有关信息商品信息供应商供应商主题顾客顾客ID顾客主题商品商品ID商品主题2019/12/21数据仓库与数据挖掘21利用星形图进行数据仓库的逻辑模型设计根据分析需求与信息包图制作星形图销售分析客户广告区域时间产品2019/12/21数据仓库与数据挖掘22根据分析需求与信息包图制作雪花图销售分析客户广告区域时间产品产品类别雪花模型对星型模型的维度表进一步标准化,对星型模型中的维度表进行了规范化处理。2019/12/21数据仓库与数据挖掘23确定主题的属性组主题名公共键码属性组商品商品号基本信息:商品号、商品名、类型和颜色等采购信息:商品号、供应商号、供应价、供应日期和供应量等库存信息:商品号、库房号、库存量和日期等销售销售单号基本信息:销售单号、销售地址等销售信息:客户号、商品号、销售价、销售量和销售时间等客户客户号2019/12/21数据仓库与数据挖掘24事实表及其特征度量是客户发生事件或动作的事实记录,如客户打电话,可能选择的度量有通话时长、通话次数和通话费用等。客户购买商品,可能选择的度量有购买的次数、购买商品的金额和购买商品的数量等。事实表则是在星型模型或雪花模型中用来记录业务事实,并作相应指标统计的表。事实表的特征有:记录数量情况维度表情况2019/12/21数据仓库与数据挖掘25事实表的类型与设计事实是一种度量,所以事实表中的这种指标往往需要具有数值化和可加性的特征。即:要考虑决策分析的需要(必要的数据)要考虑系统运行的需要(派生的数据)2019/12/21数据仓库与数据挖掘26粒度的选择与设计步骤根据需求和系统运行情况确定粒度:粒度的不同选择导致逻辑模型的差异粒度的不同选择导致数据存储容量的差异粒度的设计步骤:粗略估计数据量确定粒度的级别粒度设计实例:2019/12/21数据仓库与数据挖掘27关于数据仓库的聚合模型数据的分割处理星形图中的维度表简介常用维度的设计模式2019/12/21数据仓库与数据挖掘28事实表及其特征事实表的类型与设计粒度的选择与设计步骤关于数据仓库的聚合模型与数据的分割处理星形图中的维度表简介常用维度的设计模式2019/12/21数据仓库与数据挖掘29数据仓库的物理模型设计物理模型设计的主要工作物理存储结构设计的原则数据仓库索引设计的特殊性存储优化与存储策略2019/12/21数据仓库与数据挖掘303.3使用SQLServer2005建立多维数据模型SQLServer2005示例数据仓库环境的配置与使用基于SQLServer2005示例数据库的多维数据模型的建立与应用。2019/12/21数据仓库与数据挖掘313.3使用SQLServer2005建立多维数据模型在SQLServer2005数据库环境中安装数据仓库组件、示例和工具利用示例数据仓库(AdventureWorksDW)环境及帮助系统学习2019/12/21数据仓库与数据挖掘323.3使用SQLServer2005建立多维数据模型创建一个新的数据仓库分析项目定义数据源定义数据源视图定义多维数据集部署“销售分析示例”项目浏览已部署的多维数据集提高多维数据集的可用性和易用性

1 / 32
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功