第七章练习题一、选择题:1.在数据仓库中,所有数据都是围绕一定的进行组织的A主题B主键C外键D视图2.对于DSS,是非常重要的A最新数据B历史数据C分析数据D多媒体数据3.是从外部数据中收据数据,它是数据仓库中数据综合的一种类型A数据提取B数据清洗C数据抽取D数据切割4.是关于数据的数据A外部数据B内部数据C元数据D纯数据5.数据粒度有两种形式,其中一种形式的数据粒度是面向的AOLTPBCRMCOLAPDERP6.数据集市的数据直接来源于中央数据仓库A独立的B依赖的C内部的D中央的7.数据仓库的是具有层次性的A主键B变量C维D索引8.由各维度的取值和变量值构成A维成员B维C事实D索引9.技术的核心是多维分析AOLAPBCRMCOLTPDERP10.三种多维数据模型中,最为流行A星型模型B雪花型模型C星座模型D网型模型11.由于的应用,数据需要定期的从数据仓库中导入多维数据库中AOLAPBOLTPCCRMDERP12.由类和类之间的关系构成的模型称为A关系模型B类模型CER模型D对象模型13.的设计是数据仓库模型设计的第一步A部门模型B类模型C企业模型D对象模型14.的选取是模型设计中极为重要的一部分A主题B类C变量D对象15.无论数据仓库以怎样的数据模型组织数据,最终还是以各种来完成的A表空间B类C变量D表16.在中,只有一个事实表,每个维表都与事实表直接连接A星型模型B雪花型模型C星座模型D网型模型17.中的数据是最丰富的、最详细的A事实数据库B关系数据库C高级数据库D数据仓库18.数据挖掘的基础是AOLAPBOLTPC人工智能D数据仓库19.对一组数据的集合分组成为有类似的对象组成的多个类的过程称为A分类B汇集C类分析D聚类20.也常常作为数据挖掘的第一部,对数据进行预处理A分类分析B关联分析C聚类分析D孤立点分析二、填空1.数据仓库(datawarehouse)是一个面向主题的(subjectoriented)、集成的(integrated)、非易失的(non-volatile)、随时间变化的(timevariant)数据集合,用于。2在数据仓库中涉及两个非常重要的概念,即和。3.常见的数据分割有以下几种形式:、和。4.是用于支持企业日常的、全局应用的数据集合。5.是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。6.用户分析问题的角度或决策分析的出发点构成了数据仓库中的。7.OLAP技术的核心是。8.从数据仓库的最终用户看,可以将用户分为和两类。9.在CRM系统中实现,是CRM系统成败的关键之一。10.数据主要有四个方面的来源:、客户行为、和其他相关数据。11.数据仓库的就是逻辑模型在数据仓库中的实现模式。12.对于数据仓库的应用效益,一般有两种分析方法:和。13.ROI的计算公式是:。14.是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、潜在有用的信息。15.中的数据是最丰富、最详细的。16.和关联分析相似,其目的也是为了挖掘出数据间的联系,但序列模式分析的侧重点在于分析数据间的前后(因果)关系。17.孤立点又叫,是数据库中与数据的一般模式不一致的数据对象。18.数据挖掘的第一步是。19.是指将所有的客户分成不同的类的过程。20.是提高企业客户关系管理的一个重要目标。三、判断题1.数据仓库只能存储当前数据,而数据库存放历史数据。()2.数据库中的数据是动态变化的,随时刷新,而数据仓库的数据是静态的,一般不会改变。()3.数据库使用频率比数据仓库使用频率高。()4.数据仓库中数据可以随意改变。()5.在数据仓库中,数据必须有统一的格式。()6.外部数据有很多是非结构数据,它包括声音文件、图像文件。()7.粒度的大小反应数据仓库的综合程度,粒度越大,数据越详细。()8.一般来说,元数据越大,抽样率就越大。()9.ODS只存放当前和近期数据。()10.数据集市不可独立存于数据仓库中。()11.对于不同的层次,由上到下,层次逐渐细化的。()12.数据切块得到的多维立方体与原立方体的维数是相同的。()13.数据钻取对应于维的层次,它是由维的低层次展开到高层次的一个动作。()14.如果一味地在算法上将孤立点去掉或忽略有可能失去重要信息。()15.空间关联分析和关系数据库中的关联规则挖掘在思想上有很大区别。()16.数据挖掘中不包括数据的元数据。()17.客户分析可以对消费者的行为分析,也可对消费者的心理分析。()18.客户周期性是客户消费周期和频率的表现。()19.客户盈利率的计算也需要数据挖掘。()20.数据挖掘在分析客户忠诚度的过程中对客户盈利率的提高有一定的影响。()四、简单题1.简述数据库和数据仓库的区别2.数据仓库有哪些特性?3.联机分析处理的概念有哪些?4.数据切片是如何定义的5.概述数据挖掘的定义?6.物理模型设计分为哪几个方面?7.根据数据仓库的应用目标不同可将数据仓库分为哪几类?8.在客户关系管理中,数据仓库主要有哪些作用?9.数据挖掘的数据来源有哪些?10.简述数据挖掘的基本步骤五、论述题1.为什么会产生数据仓库?2.论述数据仓库和数据库的区别和联系?3.数据仓库在CRM中是如何应用的?4.如何进行数据仓库的模型设计?5.数据挖掘与数据仓库是怎样联系的?第七章:一、选择题:123.45678910BCCCCACBAB11121314151617181920AABADADDDB二、填空题:1.支持管理决策2.数据粒度数据分割3.垂直分割水平分割图解分割4.ODS5.联机分析处理6.维7.多维分析8.信息使用者知识挖掘者9.数据仓库系统10.关系数据库事务数据库11.物理模型12.定性方法定量方法13.ROI=收益现值÷成本现值14.数据挖掘15.关系数据库16.序列模式分析17.噪声18.确定分析和预测目标19.客户分类20.客户忠诚度三、判断题:12345678910FTFFTTFTFT11121314151617181920TFFTFTFTTT四、简答题:1.简述数据库与数据仓库的区别答:数据库只存储当前数据,而数据仓库存放历史数据;数据库主要面向业务操作,而数据仓库面向数据分析和决策支持;数据库中的数据是动态变化的,随时刷新,而数据仓库中的数据是静态的,一般不会改变;数据库的使用频率比数据仓库使用的频率高,数据访问量少,且要求的响应时间短2.数据仓库有哪些特性?答:1)面向主题的特性在数据仓库中,所有的数据都是围绕一定的主题进行组织的2)集成性数据仓库中的数据都是经过清洗、过滤、转换的。它们有统一的格式、表示方式、代码含义、相同的单位表示3)非易失性数据仓库中的数据一旦写入,几乎就不再更改了,除非数据有错误,而对数据仓库进行的主要操作只是数据追加,因此数据仓库中的数据相对是稳定的,而且提供了足够的数据4)时变性数据仓库中的数据只增不删的,所以它记录了从开始使用数据仓库起的所有数据,它能反映企业各个时期的信息,也可以说它反映的是企业数据的动态变化。这对于决策分析也是至关重要的3.什么叫做数据清理?答:将提取出来的数据进行检测,并修正数据中的错误的过程称为数据清理。数据清理首先要检测抽取的数据中存在错误或不一致的数据,比如由于录入时的失误造成同一记录在不同表中的信息不一致,或者有的数据已经进行了更新,在其他表中没有同时更新。然后将错误或不一致进行修正,有的数据被检测出来却无法确定不一致的两个数据哪个是正确的,此时如果数据不是特别重要的话,可以将数据删除。数据清理对于保证数据仓库中数据的真实性是必要的,进而也决定了决策的准确性4.数据切片是如何定义的?答:在多维数据立方体中,确定某些维度的取值范围,得到一个原立方体的子立方体的过程称为数据切块。数据切块与数据切片得到的多维数组都是原多维数据立方体的子集,不同的是数据切片使多维立方体降低了一个维度,而数据切块得到的多维立方体与原立方体的维数是相同的5.多维数据库与数据仓库的区别和联系有哪些?答:多维数据库与数据仓库是有区别的。数据仓库中的细节数据为多维数据库提供数据源。由于OLAP的应用,数据需要定期地从数据仓库中导入多维数据库中。由于数据仓库中存储的已经是集成的数据,因此多维数据库无需从业务处理系统中再抽取、集成数据。利用多维数据库可以对数据进行切片、切块、旋转等操作,动态的观察综合数据与细节数据之间的关系6.物理模型设计分为几个方面?答:1)确定数据结构的类型在数据仓库中包含了细节数据、概括数据、外部数据、多维数据、存档数据等多种数据类型。因此必须确定合理的数据结构类型2)确定索引策略数据仓库中的数据变动很小,所以可以设计索引结构来提高数据访问速度。虽然对各个数据建立专门的索引相当复杂,但建立后不需要过多地维护,因此还是可行的3)确定数据存放位置数据存放时,一般根据数据的重要性、使用频率、对响应时间的要求等指标将数据分类并存入不同的介质4)优化存储分配在数据仓库的物理模型设计中,需要确定不同的存储分配方式。数据可以集中在一台服务器上也可以分散在多个服务器上7.根据数据仓库的应用目标不同可将数据仓库分为哪几类?答:1)数据仓库作为企业核心业务。将数据仓库作为企业核心业务的企业以研发、设计数据仓库,提供数据仓库工具为企业工作内容,或者通过数据仓库收集、分析数据得到信息,并将信息提供给有需求的用户。这两种企业都是依靠数据仓库的,也就是说没有数据仓库这类企业也将不存在。2)数据仓库用于优化企业内部结构。有些企业运用数据仓库分析内部生产因素或管理环境,以提高管理效率或生产效率。这种企业将数据仓库作为一项内部管理工具。3)数据仓库用于为企业增加商业机会。有些企业运用数据仓库分析市场信息、销售状况、客户信息,以辅助决策。这类企业将数据仓库作为一种决策分析工具8.在客户关系管理中,数据仓库主要有那些作用答:1)保留客户在客户中,并不是所有的客户都有保留价值,因此要通过数据仓库中的数据分析出最具价值的客户,并针对这些客户制定相应的保留客户政策2)降低管理成本对于企业来说管理大量的客户数据也是一项工作量庞大的工作,数据仓库的应用使数据的统一、规范管理成为可能,同时提供了快速、准确的查询工具。这可以大大降低企业的管理成本3)分析利润的增长可以通过历史趋势发现产品销售与客户关系管理的关系以及利润增长同客户关系管理的关系。分析利润增长的最终目的还是促进利润增长4)增强竞争优势数据仓库的应用使得企业有更快的市场适应能力9.数据挖掘的数据来源有哪些?答:1)关系数据库关系数据库中的数据是最丰富、最详细的。因此数据挖掘可以从关系数据库中找到大量的数据2)数据仓库数据仓库中的数据已经进行了清洗和转换,数据中不存在错误和不一致的情况,因此数据挖掘从数据仓库中获取数据后就不需要再进行这些数据处理工作了3)事务数据库数据挖掘可以从事务数据库中提取数据。事务数据库中的每个记录代表一个事务。在进行数据挖掘时,可以只将一个或几个事务数据库集中到数据挖掘库中进行挖掘4)高级数据库这些高级数据库包括了面向对象的数据库、空间数据库、时间和时间序列数据库、文本和多媒体数据库等新的数据库10.简述数据挖掘的基本步骤答:1)确定分析和预测目标这是数据挖掘的第一步,确定分析和预测的目标相当于需求分析,主要是明确业务目标2)建立数据挖掘库建立数据挖掘库是数据挖掘过程中较为复杂的一步3)分析数据分析数据即对数据挖掘库中的数据进行分析,比如计算数据的平均值、标准差等统计信息,以便发现数据的分布4)建立模型建立模型是根据模型分析目标选择合适的方法和算法对数据进行分析,得到一个数据挖掘模型的过程5)模型评估与验证为了验证模型的有效性,选择最优的模型,一般会将数据集分为两部分,一部分用于建立模型,另一部分则用于测试模型6)模型实施模型建立并通过验证以后就是具体实施了