数据仓库与数据挖掘重点

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1《数据仓库与数据挖掘》一、填空(1’*15)1、数据库中存放的数据基本上是保存当前的数据。2、数据库是为满足事务处理需求而设计和建立的,从而使计算机在事务处理上发挥了极大的效果。3、联机事务处理(OLTP)是在网络环境下面向交易的事务处理,利用计算机网络技术,以快速的事务响应和频繁的数据修改为特征,使用户利用数据库能够快速的处理具体的业务。这样的系统也称为实时系统。4、OLAP专门用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持,可以应分析人员的要求快速、灵活的进行大数据量的复杂处理,并且以一种直观易懂的形式将查询结果提供给决策制定人,以便他们准确掌握企业的经营情况,了解市场需求,制定正确方案,增加效益。5、元数据在数据仓库中是描述数据仓库中数据及其环境的数据。在数据仓库中引入元数据的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身功能的说明数据。元数据在数据仓库中不仅定义了数据仓库有什么,还指明了数据仓库中信息的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的。它已成为为整个数据仓库的核心。6、数据仓库中数据量的比重是索引和综合数据占2/3,原始数据占1/3。7、OLAP是在多维数据结构上进行数据分析的。一般在多维数据库中取出(切片、切块)二维或三维数据来进行分析,或对层次的维进行钻取操作、向下钻取获得更详细的数据,向上钻取获得更综合的数据。OLAP要适应大量用户同时使用同一批数据,适用于不同地理位置的分散化的决策。OLAP的功能和算法包括聚合、分配、比率、乘积等描述性的建模功能。8、数据挖掘是从人工智能机器学习中发展起来的。机器学习的方法有归纳学习法、遗传算法、发现学习算法等。9、数据仓库结构包括当前基本数据、历史基本数据、轻度综合数据、高度综合数据、元数据。10、数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段;而数据集市则是部门级的,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。11、数据集市有两种,即独立的数据集市和从属的数据集市。12、数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。13、仓库管理包括数据建模;数据抽取、转换、装载(ETL);系统管理等四部分。14、使用的多维数据模型主要有星型模型、雪花模型、星网模型、第三范式等。15、元数据分为四类,分别为关于数据源的元数据、关于数据模型的数据库、关于数据仓库映射的元数据和关于数据仓库使用的元数据。16、联机分析处理是共享多维信息的快速分析。217、基本的多维数据分析操作包括切片、切块、旋转、钻取等。18、向下钻取是使用户在多层数据中通过导航信息而获得更多的细节性数据。19、Codd将数据分析模型分为四类:绝对模型、解释模型、思考模型和公式化。20、数据仓库分析与设计由需求分析、概念模型设计、逻辑模型设计和物理模型设计四个部分组成。21、数据仓库索引技术:位索引技术、标识技术与广义索引。22、细化程度越高,粒度级别越小;相反,细化程度越低,粒度级别越高。23、数据仓库的用户有两类:信息使用者和探索者。24、文本分析包括关键词或特征提取;相似性检索;文本聚类和文本分类等。25、数据浓缩包括两方面:○1属性约简;○2元组(记录)压缩。26、数据挖掘各种方法获得的知识的表现形式,主要有六种:规则、决策树、知识基(浓缩数据)、网络权值、公式和案例。27、规则知识由前提条件和结论两部分组成。前提条件由字段项(属性)的取值的合并(与)和获取(或)组合而成。结论为决策字段项(属性)的取值或类别组成。28、一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)三者组成。29、ID3在选择重要特征时利用了互信息的概念,算法的基础理论清晰,使得算法较简单。30、用信息增益率来选择属性,它克服了用信息增益选择属性时偏向选择取值多的属性的不足。31、感知机网络是双层模型。二、名词解释(3’*5)1、元数据被定义为关于数据的数据。2、数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于经营管理中决策制定的过程。3、商业智能以数据仓库为基础,通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境,做出快速、准确的决策。4、数据集市是一种更小、更集中的数据仓库,为公司提供了一条分析商业数据的廉价途径。数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用。5、切片就是在某两个维上取一定区间的维成员或全部维成员,而在其余的维上选定一个维成员的操作。6、数据立方体是数据仓库结构图中的综合数据层(轻度和高度)。7、关联规则时发现交易数据库中不同商品(项)之间的联系,这些规则找出顾客购买行为模式。3三、简答(5’*4)1、从数据库发展到数据仓库的原因:○1数据太多,信息贫乏;○2异构环境数据的转换和共享;○3利用数据进行事务处理转变为利用数据支持决策。例如,利用历史数据的分析来进行预测,对大量数据的综合得到宏观信息等。2、数据库和数据仓库的性质差别是什么?○1数据库用于事务处理,数据仓库用于决策分析;○2数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;数据仓库中的数据不随时间变化而变化。○3数据仓库的数据时大量数据库的集成;○4对数据库的操作比较明确,操作数据量少。对数据仓库操作不明确,操作数据量大。3、数据仓库的特点:○1数据仓库是面向主题的;○2数据仓库是集成的;○3数据仓库是稳定的;○4数据仓库是随时间变化的;○5数据仓库中的数据量很大;○6数据仓库软硬件要求较高。4、请列举出机器学习的例子:手写识别、搜狗输入法、亚马逊网上书店。5、数据仓库的决策支持功能:○1对当前和历史数据完成查询和报表处理;○2可以用不同方法进行“如果,将怎样(what-if)”分析;○3可以查询细节,查询综合,并能深入追踪查询(钻取分析);○4认清过去的发展趋势,并将应用于对未来结果的分析。6、数据仓库(DW)和联机分析处理(OLAP)及数据挖掘(DM)相结合的决策支持系统,是以数据仓库为基础的,被称为基于数据仓库的决策支持系统。基于数据仓库的决策支持系统是从数据仓库的数据中获取辅助决策的信息和知识,为决策提供支持。7、商业智能改进企业决策过程,表现在一下方面:○1信息共享;○2实时反馈分析;○3鼓励用户找出问题的根本原因;○4使用主动智能;○5实时智能。8、数据集市与数据仓库的差别○1数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题,而数据集市则是按照某一特定部门的数据模型建立的。○2部门主题与企业的主题之间可能存在关联,也可能不存在关联。○3数据集市的数据组织一般采用星型模型,大型数据仓库的数据组织采用第三范式。49、数据装载方式:基本装载、追加、破坏性合并、建设性合并。10、数据装载类型:最初装载、增量装载、完全刷新11、一个数据的抽取要经过许多步骤:获取、过滤、验证、融合、综合、装载、存档12、联机分析处理的特征:○1快速性○2可分析性○3多维性○4信息性13、清洗数据要明确以下问题:○1需要清洗哪些数据○2在什么地方清洗○3怎么清洗○4建立一个数据质量框架14、处理丢失数据的方法:○1基于已知数据的方法○2基于猜测的方法○3基于模型的方法○4基于贝叶斯理论的方法○5基于决策树的方法15、数据挖掘方法依据的基本原理主要有:○1信息论;○2集合论;○3仿生物技术;○4人工智能技术;○5可视化技术。16、遗传算法中包含了如下五个基本要素:○1问题编码;○2初始群体的设定;○3适应值函数的设计;○4遗传操作设计;○5控制参数设定(主要是指群体大小和使用遗传操作的概率等。)17、建树算法P14218、连续属性的处理P14519、ID3算法基本思想P14020、各种作用函数P187四、计算1、决策树(15’)P1392、K-均值聚类(10’)P1693、关联Apriori(15’)P172&P1764、ID3算法P1415、K-近邻(10’)

1 / 4
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功