第一章数据仓库与数据挖掘概述1.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用于决策分析;数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较明确,操作数据量少,对数据仓库操作不明确,操作数据量大。数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。6.说明OLTP与OLAP的主要区别。答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用,事务驱动;OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。8.元数据的定义是什么?答:元数据(metadata)定义为关于数据的数据(dataaboutdata),即元数据描述了数据仓库的数据和环境。9.元数据与数据字典的关系什么?答:在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。18.说明统计学与数据挖掘的不同。答:统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。19.说明数据仓库与数据挖掘的区别与联系。答:数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信;数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。数据仓库与数据挖掘都是决策支持新技术。但它们有着完全不同的辅助决策方式。在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。数据仓库和数据挖掘的结合对支持决策会起更大的作用。23.数据仓库与联机分析处理、数据挖据在决策知识方面有什么不同?答:数据仓库中有大量的综合数据,为决策者提供了综合信息。数据仓库保存有大量历史数据,通过预测模型计算可以得到预测信息。联机分析处理(OLAP)对数据仓库中的数据进行多维数据分析,即多维数据的切片、切块、旋转、钻取等,得到更深层中的信息和知识。数据挖掘(DM)技术能获取关联知识、时序知识、聚类知识、分类知识等。数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)等结合,形成决策支持系统。25.画出基于数据仓库的决策支持系统的结构图。答:第二章数据仓库原理1、画出数据仓库结构图,说明各部分内容。答:高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。当前基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。2、说明数据仓库结构图中包含轻度综合数据层与高度综合数据层的作用。这些数据是根据需要临时计算的吗?高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。3、说明数据集市与数据仓库的区别与联系。答:区别:(1)数据仓库是基于整个企业的数据模型建立的,它面向企业范元数据高度综合数据层轻度综合数据层当前基本数据层历史数据层数据仓库综合数据1.数据库与数据仓库的本质差别是什么?数据库用于事务处理,数据仓库用于决策分析数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据数据仓库的数据是大量数据库的集成对数据库的操作比较明确,操作数据量少。对数据仓综合数据1.数据库与数据仓库的本质差别是什么?数据库用于事务处理,数据仓库用于决策分析数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据数据仓库的数据是大量数据库的集成对数据库的操作比较明确,操作数据量综合数据1.数据库与数据仓库的本质差别是什么?数据库用于事务处理,数据仓库用于决策分析数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据数据仓库的数据是大量数据库的集成对数据库的操作比较明确,元数据本质差别是什么?数据库用于事务处理,数据仓库用于决策分析数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据数据仓库的数据是大量数据库的集成对数据库的操作比较明确,操作数据量少。对数据仓库操作数据库库与数据仓库的本质差别是什么?数据库用于事务处理,数据仓库用于决策分析数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据数据仓库的数据是大量数据库的集成对数据库的操作比较明确,操作数据量决策信息知识综合信息分析信系息联机分析处理数据挖掘1.数据库与数据仓库的本质差别是什么?数据库用于事务处理,数据仓库用于决策分析数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据数据仓库的数据是大量数据库的集成对数据库的操作比较明确,操作数据量少。对数据仓决策用户围内的主题。而数据集市是按照某一特定部门的数据模型建立的。(2)部门的主题与企业的主题之间可能存在关联,也可能不存在关联。(3)数据集市的数据组织一般采用星型模型。大型数据仓库的数据组织,如NCR公司采用第三范式。联系:数据集市(DataMarts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。11、说明星形模型有什么好处。答:大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。“事实表”中存放大量关于企业的事实数据(数量数据)。星型模型在进行多维数据分析时,速度是很快的。17、说明数据抽取工作的内容。答:当前值:源系统中存储的数据都代表了当前时刻的值。当商业交易时,这些数据是会发生变化的。周期性的状态:这类数据存储的是每次发生变化时的状态。18、说明数据转换的基本功能。答:选择:从源系统中选择整个记录或者部分记录。分离/合并:对源系统中的数据进行分离操作或者合并操作。转化:对源系统进行标准化和可理解化。汇总:将最低粒度数据进行汇总。清晰:对单个字段数据进行重新分配和简化。21、说明数据库中的元数据以及数据仓库中的元数据的不同。答:元数据定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的。数据库元数据相当于数据库系统中的数据字典。26、数据仓库中的元数据如何发挥作用的。答:(1)元数据告诉数据仓库中有什么数据,它们从哪里来。即如何按主题查看数据仓库的内容。(2)元数据提供已有的可重复利用的查询语言信息。如果某个查询能够满足他们的需求,或者与他们的愿望相似,他们就可以再次使用那些查询而不必从头开始编程。关于数据仓库使用的元数据能帮助用户到数据仓库查询所需要的信息,用于解决企业问题。第三章联机分析处理1、联机分析处理(OLAP)的简单定义是什么?它体现的特征是什么?答:联机分析处理是共享多维信息的快速分析。它体现了四个特征:(1)快速性:用户对OLAP的快速反应能力有很高的要求。(2)可分析性:OLAP系统应能处理任何逻辑分析和统计分析。(3)多维性:系统必须提供对数据分析的多维视图和分析。(4)信息性:OLAP系统应能及时获得信息,并且管理大容量的信息。5、比较ROLAP与MOLAP在数据存储、技术及特点上的不同。答:数据存储:ROLAP服务器需要将SQL语句转化为多维存储语句,临时“拼合”出多维数据立方体。因此,ROLAP的响应时间较长。MOLAP在数据存储速度上性能好,响应速度快。ROLAP使用的传统关系数据库的存储方法,在存储容量上基本没有限制。MOLAP通常采用多平面叠加成立体的方式存放数据。技术及特点:MOLAP能够支持高性能的决策支持计算。ROLAP无法完成多行的计算和维之间的计算。MOLAP增加新的维度,则多维数据库通常需要重新建立。ROLAP对于维表的变更有很好的适应性。当数据频繁的变化时,MOLAP需要进行大量的重新计算,甚至重新建立索引乃至重构多维数据库。在ROLAP中灵活性较好,对于数据变化的适应性高。ROLAP对软硬件平台的适应性很好,而MOLAP相对较差。7、举例说明多维数据显示的两种不同方法。答:9、举例说明四维数据显示。答:商店3(页面)上衣裤帽子直接销售固定成本直接销售固定成本直接销售固定成本1月4503505504505004002月3802804603604003203月40031048041045040010、举例说明六维数据显示。答:商店3,老年(页面)直接销售间接销售总销售实际计划实际计划实际计划1月桌子250300125150375450台灯2653201331604004802月桌子333400167200500600台灯2833401421704255103月桌子350420175210525630台灯25030012515037545012、举例说明OLAP的多维数据分析的切片操作。答:产品名时间销售量衣服1月100衣服2月200鞋1月150鞋2月300电视机电冰箱广州上海13、举例说明OLAP的多维数据分析的切块操作。答:第四章数据仓库的设计与开发1、数据仓库的需求分析的任务是什么?答:1.确定主题域;2.支持决策的数据来源;3.数据仓库的成功标准和关键性能指标;4.数据量与更新频率4、什么是概念模型?它的特点是什么?答:概念模型是对真实世界中问题域内的事物的描述。概念模型的特点是:(1)能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。(2)易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。(3)易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。(4)易于向数据仓库的数据模型(星型模型)转换。7、解释下图的概念模型。答:有两个主题:商品和客户,主题也是实体。商品有如下属性组:商品的固有信息(商品号、商品名、类别、价格等);商品库存信息(商品号、库房号、库存量、日期等);商品销售信息(商品号、客户号、销售量等);客户有如下属性组:客户固有信息(客户号、客户名、住址、电话等);客户购物信息(客户号、商品号、售价、购买量等)。商品的销售信息与用户的购物信息是一致的,它们是两个主题之间的联系。商品商品固有信息商品号商品库存信息客户客户固有信息客户号销售信息购物信息=9、数据仓库的逻辑模型与数据库的逻辑模型有什么不同?答:数据仓库逻辑模型主要工作为:(1)主题域进行概念模型(E—R图)到逻辑模型(星型模型)的转换;(2)粒度层次划分;(3)关系模式定义;(4)定义记录系统数据库逻辑模型主要工作为:主题域进行概念模型(E—R图)到逻辑模型(星型模型)的转换13、什么是物理模型?数据仓库的物理模型设计包括哪些工作?答:物理模型用来确定一个最适合应用要求的物理结构(包括存储结构和存取方法)。包括:(1)估计存储容量;(2)确定数据的存储计划;(3)确定索引策略;(4)确定数据存放位置;(5)确定存储分配20、说明数据仓库开发的4个阶段和12个步骤答:1、分析与设计阶段(①需求分析②概念设计③逻辑设计④物理设计)2、数据获取阶段(⑤数据抽取⑥数据转换⑦数据装载)3、决策支持阶段(⑧信息查询⑨知识探索)4、维护与评估阶段(○10数据仓库增长○11数据仓库维护○12数据仓库评估)22、简要说明数据仓库开发的数据获取阶段的内容。答:1、数据抽取:①对数据源的确认②确定数据抽取技术③确认数据抽取频率④按照时间要求抽取数据。2、数据转换: