已经完成的数据挖掘作业

lin52
0 ℃
2020-02-17

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

《数据挖掘》作业第一章引言一、填空题（1）数据库中的知识挖掘(KDD)包括以下七个步骤：数据清理，数据集成，数据选择，数据变换，数据挖掘，模式评估，和知识表示（2）数据挖掘的性能问题主要包括：算法的效率、可扩展性和并行处理（3）当前的数据挖掘研究中，最主要的三个研究方向是：统计学、数据库技术和机器学习（4）在万维网()上应用的数据挖掘技术常被称为：WEB挖掘（5）孤立点是指：一些与数据的一般行为或模型不一致的孤立数据二、单选题B（1）数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于：A、所涉及的算法的复杂性；B、所涉及的数据量；C、计算结果的表现形式；D、是否使用了人工智能技术D（2）孤立点挖掘适用于下列哪种场合？A、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测（3）下列几种数据挖掘功能中，（D）被广泛的应用于股票价格走势分析A.关联分析B.分类和预测C.聚类分析D.演变分析（4）下面的数据挖掘的任务中，（B）将决定所使用的数据挖掘功能A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示（5）下列几种数据挖掘功能中，（A）被广泛的用于购物篮分析A、关联分析B、分类和预测C、聚类分析D、演变分析（6）根据顾客的收入和职业情况，预测他们在计算机设备上的花费，所使用的相应数据挖掘功能是（B）A.关联分析B.分类和预测C.演变分析D.概念描述（7）帮助市场分析人员从客户的基本信息库中发现不同的客户群，通常所使用的数据挖掘功能是（C）A.关联分析B.分类和预测C.聚类分析D.孤立点分析E.演变分析（8）假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述，通常所使用的数据挖掘功能是（E）A.关联分析B.分类和预测C.孤立点分析D.演变分析E.概念描述三、简答题（1）什么是数据挖掘？答：数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。（2）一个典型的数据挖掘系统应该包括哪些组成部分？答：一个典型的数据挖掘系统应该包括以下部分：数据库、数据仓库或其他信息库数据库或数据仓库服务器知识库数据挖掘引擎模式评估模块图形用户界面（3）请简述不同历史时代数据库技术的演化。答：1960年代和以前：研究文件系统。1970年代：出现层次数据库和网状数据库。1980年代早期：关系数据模型,关系数据库管理系统(RDBMS)的实现1980年代后期：出现各种高级数据库系统（如：扩展的关系数据库、面向对象数据库等等）以及面向应用的数据库系统（空间数据库，时序数据库，多媒体数据库等等。1990年代：研究的重点转移到数据挖掘,数据仓库,多媒体数据库和网络数据库。2000年代：人们专注于研究流数据管理和挖掘、基于各种应用的数据挖掘、XML数据库和整合的信息系统。（4）请列举数据挖掘应用常见的数据源。（或者说，我们都在什么样的数据上进行数据挖掘）答：常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括：空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网()等。（5）什么是模式兴趣度的客观度量和主观度量？答：客观度量指的是基于所发现模式的结构和关于它们的统计来衡量模式的兴趣度，比如：支持度、置信度等等；主观度量基于用户对数据的判断来衡量模式的兴趣度，比如：出乎意料的、新颖的、可行动的等等。（6）在哪些情况下，我们认为所挖掘出来的模式是有趣的？答：一个模式是有趣的，如果(1)它易于被人理解；（2）在某种程度上，对于新的或测试数据是有效的；（3）具有潜在效用；（4）新颖的；（5）符合用户确信的某种假设。（7）根据挖掘的知识类型，我们可以将数据挖掘系统分为哪些类别？答：根据挖掘的知识类型，数据挖掘系统可以分为特征分析，区分，关联分析，分类聚类，孤立点分析/演变分析，偏差分析，多种方法的集成和多层级挖掘等类型。第二章数据仓库和数据挖掘的OLAP技术一、填空题一、（1）数据仓库的多维数据模型可以有三种不同的形式，分别是：星形模式、雪花模式和事实星座模式（2）给定基本方体，方体的物化有三种选择：不物化、部分物化和全物化（3）著名的数据仓库系统设计师W.H.Inmon认为，数据仓库与其他数据存储系统的区别的四个特征是：面向主题、数据集成、随时间而变化和数据不易丢失（4）在数据访问模式上，数据仓库以事务操作为主，而日常应用数据库则以只读查询为主。（1）（5）数据立方体度量可以根据其所使用的聚集函数分为三类，分别是：分布的、代数的和整体的（2）（6）关于数据仓库的设计，四种不同的视图必须考虑，分别是：自顶向下视图、数据源视图、数据仓库视图、商务查询视图（3）（7）OLAP服务器的类型主要包括：关系OLAP服务器(ROLAP)、多维OLAP服务器(MOLAP)和混合OLAP服务器(HOLAP)（4）（8）求和函数sum()是一个分布的的函数。（5）（9）方体计算的主要挑战是海量数据，有限的内存和时间之间的矛盾。二、单选题B（1）下面的数据操作中，哪些操作不是多维数据模型上的OLAP操作A、上卷(roll-up)B、选择(select)C、切片(slice)D、转轴(pivot)D（2）以下哪个范围是数据仓库的数据库规模的一个合理范围A、1－100MB、100M－10GC、10－1000GD、100GB－数TBC（3）存放最低层汇总的方体称为：A、顶点方体B、方体的格C、基本方体D、维A（4）哪种OLAP操作可以让用户在更高的抽象层，更概化的审视数据？A、上卷B、下钻C、切块D、转轴B（5）平均值函数avg()属于哪种类型的度量？A、分布的B、代数的C、整体的D、混合的三、多选题ABD（1）OLAP系统和OLTP系统的主要区别包括（）。A、OLTP系统主要用于管理当前数据，而OLAP系统主要存放的是历史数据；B、在数据的存取上，OLTP系统比OLAP系统有着更多的写操作；C、对OLTP系统上的数据访问量往往比对OLAP系统的数据访问量要大得多；D、OLAP系统中往往存放的是汇总的数据，而OLTP系统中往往存放详细的数据。ABC（2）从结构的角度看，数据仓库模型包括以下几类：A、企业仓库B、数据集市C、虚拟仓库D、信息仓库BCD（3）数据仓库的三层架构主要包括以下哪三部分？A、数据源B、数据仓库服务器C、OLAP服务器D、前端工具ACD（4）以下哪些是数据仓库的主要应用？A、信息处理B、互联网搜索C、分析处理D、数据挖掘四、简答题1）为什么在进行联机分析处理(OLAP)时，我们需要一个独立的数据仓库，而不是直接在日常操作的数据库上进行。答：使用一个独立的数据仓库进行OLAP处理是为了以下目的：(1)提高两个系统的性能操作数据库是为OLTP而设计的，没有为OLAP操作优化，同时在操作数据库上处理OLAP查询，会大大降低操作任务的性能；而数据仓库是为OLAP而设计，为复杂的OLAP查询,多维视图，汇总等OLAP功能提供了优化。(2)两者有着不同的功能操作数据库支持多事务的并行处理，而数据仓库往往只是对数据记录进行只读访问；这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作，就会显著降低OLAP的性能。(3)两者有着不同的数据数据仓库中存放历史数据；日常操作数据库中存放的往往只是最新的数据。（2）为什么说数据仓库具有随时间而变化的特征？答：（1）数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统主要保存当前数据，而数据仓库从历史的角度提供信息（比如过去5-10年）。（2）数据仓库中的每一个关键结构都隐式或显式地包含时间元素，而操作数据库中的关键结构可能就不包括时间元素。（3）试述对于多个异种信息源的集成，为什么许多公司宁愿使用更新驱动的方法（update-driven），而不愿使用查询驱动（query-driven）的方法？答：因为对于多个异种信息源的集成，查询驱动方法需要复杂的信息过滤和集成处理，并且与局部数据源上的处理竞争资源，是一种低效的方法，并且对于频繁的查询，特别是需要聚集操作的查询，开销很大。而更新驱动方法为集成的异种数据库系统带来了高性能，因为数据被处理和重新组织到一个语义一致的数据存储中，进行查询的同时并不影响局部数据源上进行的处理。此外，数据仓库存储并集成历史信息，支持复杂的多维查询。（4）请简述几种典型的多维数据的OLAP操作答：典型的OLAP操作包括以下几种上卷：通过一个维的概念分层向上攀升或者通过维归约，在数据立方体上进行聚集；下钻：上卷的逆操作，由不太详细的数据得到更详细的数据；通常可以通过沿维的概念分层向下或引入新的维来实现；切片：在给定的数据立方体的一个维上进行选择，导致一个子方；切块：通过对两个或多个维执行选择，定义子方；转轴：转动数据的视角，提供数据的替代表示；钻过：执行涉及多个事实表的查询；钻透：使用关系SQL机制，钻到数据立方体的底层，到后端关系表（5）为什么说相对于日常的应用数据库，数据仓库中的数据更加不容易丢失？答：（1）尽管数据仓库中的数据来自于操作数据库，但它们却是在物理上分离保存的，操作数据库的更新操作不会出现在数据仓库环境下。（2）数据仓库不需要事务处理，恢复，和并发控制等机制。（3）数据仓库只需要两种数据访问：数据的初始转载和数据访问（读操作）。（6）假定Big_University的数据仓库包含如下4个维：student,course,semester和instructor；2个度量：count和avg_grade。在最低得到概念层（例如，对于给定的学生、课程、学期和教师的组合），度量avg_grade存放学生的实际成绩。在较高的概念层，avg_grade存放给定组合的平均成绩。(a)为数据仓库画出雪花模式图。(b)由基本方体[student,course,semester,instructor]开始，为列出Big_University每个学生的CS课程的平均成绩，应当使用哪些OLAP操作（如，由学期上卷到学年）。(c)如果每维有5层（包括all），如studentmajorstatusuniversityall，该数据方包含多少方体（包含基本方体和顶点方体）？（7）在数据仓库中，元数据的主要用途包括哪些？答：在数据仓库中，元数据的主要用途包括：（1）用作目录，帮助决策支持系统分析者对数据仓库的内容定义（2）作为数据仓库和操作性数据库之间进行数据转换时的映射标准（3）用于指导当前细节数据和稍加综合的数据之间的汇总算法，指导稍加综合的数据和高度综合的数据之间的汇总算法。（8）数据仓库后端工具和程序包括哪些？答：数据仓库后端工具主要指的是用来装入和刷新数据的工具，包括：（1）数据提取：从多个外部的异构数据源收集数据（2）数据清理：检测数据种的错误并作可能的订正（3）数据变换：将数据由历史或主机的格式转化为数据仓库的格式（4）装载：排序、汇总、合并、计算视图，检查完整性，并建立索引和分区（5）刷新：将数据源的更新传播到数据仓库中五、计算题（1）假定基本立方体有三个维A，B，C，其单元数如下：|A|=100,000，|B|=10,000，|C|=1,000，假定分块将每维分成10部分a.请指出方体中内存空间需求量最小的块计算次序和内存空间需求量最大的块计算次序；b.分别求这两个次序下计算二维平面所需要的内存空间的大小。答：a.内存空间需求量最小的块计算次序和内存空间需求量最大的块计算次序分别如下图所示：ABCBCACABABCall内存空间需求最小的块计算次序ABCBCACABABCall内存空间需求最大的块计算次序b.这两个次序下计算二维平面所需要的内存空间的大小：内存空间需求最小的次序：10,000×1,000（用于整个BC平面）＋(100,000/10)×1,000（用于AC平面的一行）＋(100,000/10)×(10,000/10)