第7章:决策支持系统的开发与实例(3)27.3新决策支持系统的开发7.3.1数据仓库开发过程7.3.2数据抽取、转换与装载34.2数据仓库开发4.2.1数据仓库开发过程4.2.2数据质量与数据清洗4.2.3数据粒度与维度建模47.3.1数据仓库开发过程7.3.1.1分析与设计阶段7.3.1.2数据获取阶段7.3.1.3决策支持阶段7.3.1.4维护与评估阶段需求分析数据装载信息查询概念设计逻辑设计物理设计数据抽取数据转换知识探索数据仓库增长数据仓库维护数据仓库评估决策支持数据获取分析与设计维护与评估数据仓库开发过程67.3.1.1分析与设计阶段1.需求分析2.概念设计3.逻辑设计4.物理设计71.需求分析确定决策主题域分析主题域的商业维度分析支持决策的数据来源确定数据仓库的数据量大小分析数据更新的频率确定决策分析方法82.概念设计建立概念模型:对每个决策主题与属性以及主题之间的关系用E-R图模型表示。E-R图将现实世界表示成信息世界,便利向计算机的表示形式进行转化。93.逻辑设计将概念模型(E-R图)转换成逻辑模型,即计算机表示的数据模型。数据仓库数据模型一般采用星型模型。星型模型由事实表、维表组成。104.物理设计对逻辑模型设计的数据模型确定物理存储结构和存取方法。数据仓库的星型模型在计算机中仍用关系型数据库存储。物理设计还需要进行存储容量的估计;确定数据存储的计划;确定索引策略;确定数据存放位置以及确定存储分配。117.3.1.2数据获取阶段1.数据抽取2.数据转换3.数据装载121.数据抽取对数据源的确认,确定数据抽取技术,确认数据抽取频率,按照时间要求抽取数据。由于源系统的差异性,如计算机平台、操作系统、数据库管理系统、网络协议等的不同造成了抽取数据的困难。132.数据转换数据格式的修正字段的解码单个字段的分离信息的合并变量单位的转化时间的转化数据汇总143.数据装载初始装载:第一次装入数据仓库。增量装载:根据定期应用需求装入数据仓库。完全刷新:完全删除现有数据,重新装入新的数据。157.3.1.3决策支持阶段1.信息查询2.知识探索161.信息查询信息查询者使用数据仓库能发现目前存在的问题。创建数据阵列将相关的数据(每月的数据)放在同一个物理位置上。预连接表格对于两个或多个表格共享一个公用链。17预聚集数据以每天为基础存储数据。在一周结束时,以每周为基础存储数据(即累加每天的数据)。月末时,则以每月为基础存储数据。聚类数据聚类将数据放置在同一地点,这样可以提高对聚类数据的查询。182.知识探索发现的问题并找出原因。创建一个单独的探索仓库,不影响数据仓库的常规用户。同时采用“标识技术”进行数据压缩,提高数据分析速度。使用一些模型帮助决策分析,例如客户分段、欺诈监测、信用分险、客户生存期、渠道响应、推销响应等模型。通过模型的计算来得出一些有价值的商业知识。19采用数据挖掘工具来获取商业知识。例如,得到如下一些知识:哪些商品一起销售好?哪些商业事务处理可能带有欺诈性?高价值客户的共同点是什么?获取的知识为企业领导者提供决策支持,达到保留客户,减少欺诈,提高公司利润具有重要作用。207.3.1.4维护与评估阶段1.数据仓库增长2.数据仓库维护3.数据仓库评估211.数据仓库增长数据仓库建立以后,随着用户的不断增加,时间的增长,用户查询需求更多,数据会迅速增长。在数据仓库的开发过程中需要适应数据仓库不断增长的现实。222.数据仓库维护适应数据仓库增长的维护数据增长的处理工作有:去掉没有用的历史数据;根据用户使用的情况,取消某些细节数据和无用的汇总数据,增加些实用的汇总数据。23正常系统维护数据仓库的备份和恢复。备份数据为系统恢复提供基础,一旦系统出现灾难时,利用备份数据可以很快将数据仓库恢复到正常状态。243.数据仓库评估(1)系统性能评定(2)投资回报分析(3)数据质量评估25(1)系统性能评定硬件平台是否能够支持大数据量的工作和多类用户、多种工具的大量需求?软件平台是否是用一个高效的且优化的方式来组织和管理数据?是否适应系统(数据和处理)的扩展?26(2)投资回报分析定量分析:计算投资回报率(ROI),即收益与成本的比率。定性分析:企业与客户之间关系状态?对机会快速反应能力如何?改善管理能力如何?27(3)数据质量评估①数据是准确的。②数据符合它的类型要求和取值要求。③数据具有完整性和一致性。④数据是清晰的且符合商业规则。⑤数据保持时效性并不能出现异常。287.3.2数据抽取、转换和装载数据仓库的数据来源于多个数据源,主要是企业内部数据;存档的历史数据;企业的外部数据。这些数据源可能是在不同的硬件平台上,使用不同的操作系统。源数据是以不同的格式存放在不同的数据库中。数据仓库需要将这些源数据经过抽取、转换和装载的过程,存储到数据仓库的数据模型中。可以说,数据仓库的数据获取需要经过抽取(Extraction)、转换(Transform)、装载(Load)三个过程即ETL过程。297.3.2.1数据抽取(1)确认数据源(2)数据抽取技术301.确认数据源列出对事实表的每一个数据项和事实列出每一个维度属性对于每个目标数据项,找出源数据项一个数据元素有多个来源,选择最好的来源确认一个目标字段的多个源字段,建立合并规则确认一个目标字段的多个源字段,建立分离规则确定默认值检查缺失值的源数据312.数据抽取技术当前值。源系统中存储的数据都代表了当前时刻的值。当商业交易时,这些数据是会发生变化的。周期性的状态。这类数据存储的是每次发生变化时的状态。例如,对于每一保险索赔,都经过索赔开始、确认、评估和解决等步骤,都要考虑有时间说明。327.3.2.2数据转换1.数据转换的基本功能2.数据转换类型3.数据整合和合并4.如何实施转换331.数据转换的基本功能选择:从源系统中选择整个记录或者部分记录。分离/合并:对源系统中的数据进行分离操作或者合并操作。转化:对源系统进行标准化和可理解化。汇总:将最低粒度数据进行汇总。清晰:对单个字段数据进行重新分配和简化。342.数据转换类型(1)格式修正(2)字段的解码(3)计算值和导出值(4)单个字段的分离(5)信息的合并(6)特征集合转化(7)度量单位的转化(8)关键字重新构造(9)汇总(10)日期/时间转化353.数据整合和合并数据整合和合并是将相关的源数据组合成一致的数据结构,装入数据仓库。(1)实体识别问题数据来源于多个不同的客户系统,对相同客户可能分别有不同的键码,将它们组合成一条单独的记录。(2)多数据源相同属性不同值的问题不同系统中得到的值存在一些差别,需要给出合理的值。364.如何实施转换自己编写程序实现数据转换使用转换工具377.3.2.3数据装载(1)数据装载方式(2)数据装载类型381.数据装载方式基本装载按照装载的目标表,将转换过的数据输入到目标表中去。追加如果目标表中已经存在数据,追加过程在保存已有数据的基础上增加输入数据。破坏性合并用新输入数据更新目标记录数据。建设性合并保留已有的记录,增加输入的记录,并标记为旧记录的替代。392.数据装载类型最初装载这是第一次对整个数据仓库进行装载。增量装载由于源系统的变化,数据仓库需要装载变化的数据。完全刷新这种类型的数据装载用于周期性重写数据仓库。40ETL工具数据转换引擎代码生成器通过复制捕获数据41习题14,15第三部分结束