数据挖掘重点(最新版)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

题型:1、单项选择题(每小题1分,共10分)2多项选择题(每小题2分,共20分)3简答题(每小题15分,共30分)4、算法实现(每小题20分,共40分)重点1、企业资源的要素组成企业资源包括如下要素。有形资源:(1)人:人力资源。(2)财:资金资源。(3)物:包括材料、设备和能源在内的资源。无形资源:数据、信息和知识2、数据资源的要素组成数据资源由以下3个要素组成(1)有用的数据。(2)作为企业神经系统的信息基础设施(InformationInfrastructure),如计算机硬件、软件以及网络系统。(3)人的因素,如系统人员和用户。3、数据资源管理生命周期的各个过程(1)数据获取:确保能够收集到必要的原始数据。(销售小票、员工工资单)(2)数据加工:将原始数据加工成为有用的信息。(统计报表、工作总结)(3)数据利用:确保能够在适当的时间、以适当的形式得到必要的数据和信息;从数据中发现决策所需要的知识。(发展战略、销售计划)(4)数据报废:在适当的时候废弃过时的数据,并代之以及时、准确的数据。4、数据资源管理的技术框架(1)面向业务操作的数据资源管理:包括数据库、事务处理系统(TPS)以及管理信息系统(MIS)。(2)面向决策分析的数据资源管理:包括数据仓库以及与之紧密相关决策支持系统(DSS)。(3)知识资源的管理和利用:包括知识库以及基于知识的系统。5、数据库与数据仓库的区别6、数据仓库的关键特征数据仓库关键特征一——面向主题面向主题(subject-oriented),数据仓库显著区别于关系数据库系统的一个特征数据仓库关键特征二——数据集成数据仓库的集成性(integrated):是指根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,使数据仓库的数据具有集成性。数据仓库关键特征三——随时间而变化数据仓库是从历史的角度提供信息数据仓库关键特征四——数据不易丢失7、商务智能的四大部分包含:商务分析、OLAP、数据挖掘和数据仓库四大部分8、多维数据模型的存储形式在多维数据模型中,数据以数据立方体(datacube)的形式存在数据立方体允许以多维数据建模和观察。它由维和事实定义维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。多维数据模型围绕中心主题组织,该主题用事实表表示事实表包括事实的名称或度量以及每个相关维表的关键字事实指的是一些数字度量9、数据仓库应用的关键步骤1、数据源数据仓库的数据源是指存储在数据仓库中的数据来源,数据仓库在使用过程中所涉及的数据来源,主要包括:①业务数据②历史数据③办公数据④Web数据⑤外部数据⑥数据源元数据2、数据准备数据的标准化处理数据的过滤与匹配数据的净化处理标明数据的时间戳确认数据质量元数据抽取和创建3、数据重整数据的集成与分解数据的概括与聚集数据的预算与推导数据的翻译与格式化数据的转换与映射4、数据仓库创建数据仓库的建模数据的概括数据的聚集数据的调整与确认建立结构化查询5、建立数据集市/知识挖据库6、数据仓库的数据存取与使用10、数据仓库的概念模型数据仓库概念模型的设计是给出一个数据仓库的粗略蓝本,以此为设计图纸来确认数据仓库的设计者是否已经正确地了解数据仓库最终用户的决策信息需求。在概念模型的设计中,必须将注意力集中在对商务的理解上,要保证管理者的所有决策信息需要都被归纳进概念模型。在构建数据仓库的概念模型时,可以采用在业务数据处理系统中经常应用的实体联系模型:E-R图11、数据仓库的粒度模型在蔡博课件3的第97-103页12、元数据元数据描述了数据仓库的数据和环境,即关于数据的数据(dataaboutdata)。它描述了数据的结构、内容、码、索引等项内容。传统数据库中的数据字典是一种元数据,但在数据仓库中,元数据的内容比数据库中的数据字典更丰富、更复杂13、OLAP与OLTP的对比OLAP是以数据仓库为基础的,其最终数据来源与OLTP一样均来自底层的数据库系统,但由于二者面对的用户不同,OLTP面对的是操作人员和低层管理人员,OLAP面对的是决策人员和高层管理人员,因而数据的特点与处理也明显不同。用户和系统的面向性面向顾客(事务)VS.面向市场(分析)数据内容当前的、详细的数据VS.历史的、汇总的数据数据库设计实体-联系模型(ER)和面向应用的数据库设计VS.星型/雪花模型和面向主题的数据库设计数据视图当前的、企业内部的数据VS.经过演化的、集成的数据访问模式事务操作VS.只读查询(但很多是复杂的查询)任务单位简短的事务VS.复杂的查询访问数据量数十个VS.数百万个用户数数千个VS.数百个数据库规模100M-数GBVS.100GB-数TB设计优先性高性能、高可用性VS.高灵活性、端点用户自治度量事务吞吐量VS.查询吞吐量、响应时间OLTPOLAP数据库数据数据库或数据仓库数据细节性数据综合性数据当前数据历史数据经常营更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理用户数量大用户数据相对较少面向操作人员,支持日常操作面向决策人员,支持管理需要面向应用,事务驱动面向分析,分析驱动14、多维分析的基本分析动作切片(Slice)、切块(Dice)、旋转(Pivoting)1、切片(Slice)定义1在多维数组的某一维上选定一组成员的动作称为切片,即在多维数组(维1,维2,……,维n,变量)中选一维,即维i,并取其一维成员(设为“维成员Vi”),所得的多维数组的子集(维1,……,维成员Vi,……,维n,变量)称为在维i上的一个切片。定义2选定多维数组的一个二维子集的动作叫作切片,即选定多维数组(维1,维2,……,维n,变量)中的两个维:维i和维j,在这两个维上取某一区间或任意维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维i和维j上一个二维子集,称这个二维子集为多维数组在维i和维j上的一个切片,表示为:(维i,维j,变量)。2、切块(Dice)定义1在多维数组的某一维上选定某一区间的维成员的动作称为切块,即限制多维数组的某一维的取值区间。显然,当这一区间只取一个维成员时,即得到一个切片(切片的定义1)。定义2选定多维数组的一个三维子集的动作称为切块。即选定多维数组(维1,维2,……,维n,变量)中的三个维:维i、维j和维r,在这三个维上取某一区间或任意的维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维i、维j和维r上一个三维子集,称该三维子集为多维数组在维i、维j和维r上的一个切块,表示为:(维i,维j,维r,变量)。3、旋转(Pivoting)旋转即是改变一个报告或页面显示的维方向。4、下钻/上探下钻(drilldown):从汇总数据深入到细节数据进行观察或增加新维。例如,用户分析“各地区、城市的销售情况”时,可以对某一个城市、某一年度的销售额,可以继续细分为各个季度的销售额。通过下钻的功能,使用户对数据能更深入了解,更容易发现问题,做出正确的决策上探(rollup):是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;是指自动生成汇总行的分析方法。通过向导的方式,用户可以定义分析因素的汇总行,例如对于各地区各年度的销售情况,可以生成地区与年度的合计行,也可以生成地区或者年度的合计行。15、Codd关于OLAP产品的十二条评价准则(少了第十二条)准则1OLAP模型必须提供多维概念视图准则2透明性准则准则3存取能力准则准则4稳定的报表性能准则5客户客/服务器体系结构准则6维的等同性准则准则7动态的稀疏矩阵处理准则准则8多用户支持能力准则准则9非受限的跨维操作准则10直观的数据操纵准则11灵活的报表生成16、知识发现KDD的过程17、数据挖掘工具与传统数据分析工具的比较18、数据挖掘技术的分类(1)、根据数据挖掘任务,可以分为关联规则挖掘、数据分类规则挖掘、聚类规则挖掘、依赖性分析和依赖性模型发现,以及概念描述、偏差分析、趋势分析和模式分析等;(2)、根据所挖掘的数据库对象来看,可以分为关系型数据库、面向对象型数据库、空间型数据库、时间型数据库、多媒体型数据库和异构型数据库等;(3)、按挖掘方法分类:包括统计方法,机器学习方法,神经网络方法和数据库方法(4)其它分法:经常将数据挖掘技术分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。有时也将数据挖掘技术分为预测模式和知识性模式的验证驱动(Verification-driven)和发现驱动(Discovery-driven)两大类。19、数据挖掘系统的组成数据库、数据仓库或其它信息库:它表示数据挖掘对象是由一个(或组)数据库、数据仓库、数据表单或其它信息数据库组成。通常需要使用数据清洗和数据集成操作,对这些数据对象进行初步的处理;数据库或数据仓库服务器:这类服务器负责根据用户的数据挖掘请求,读取相关的数据;知识库:此处存放数据挖掘所需要的领域知识,这些知识将用于指导数据挖掘的搜索过程,或者用于帮助对挖掘结果的评估。挖掘算法中所使用的用户定义的阈值就是最简单的领域知识;数据挖掘引擎:这是数据挖掘系统的最基本部件,它通常包含一组挖掘功能模块,以便完成定性归纳、关联分析、分类归纳、进化计算和偏差分析等挖掘功能模式评估模块:该模块可根据趣味标准(interestingmeasure),协助数据挖掘模块聚焦挖掘更有意义的模式知识。当然该模块能否与数据挖掘模块有机结合,与数据挖掘模块所使用的具体挖掘算法有关。显然若数据挖掘算法能够与知识评估方法有机结合将有助提高其数据挖掘的效率;可视化用户界面:该模块帮助用户与数据挖掘系统本身进行沟通交流。一方面用户通过该模块将自己的挖掘要求或任务提交给挖掘系统,以及提供挖掘搜索所需要的相关知识;另一方面系统通过该模块向用户展示或解释数据挖掘的结果或中间结果;此外该模块也可以帮助用户浏览数据对象内容与数据定义模式、评估所挖掘出的模式知识,以及以多种形式展示挖掘出的模式知识。20、数据挖掘的过程数据挖掘是一个反复迭代的人机交互处理过程。该过程需要经历多个步骤,并且很多决策需要由用户提供。从宏观上看,数据挖掘过程主要由三个部分组成,即数据整理、数据挖掘和结果的解释评估。(1)定义商业问题(2)建立数据挖掘库(3)分析数据(4)准备数据(5)建立模型(6)评价和解释(7)实施21、数据预处理的主要方法数据清洗(数据清理)填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性数据集成集成多个数据库、数据立方体或文件数据变换规范化和聚集数据归约(消减)得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果包括:数据聚合、消减维数、压缩数据、数据块消减等。数据离散化数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要22.Clementine中常用的建模节点神经网络、C5.0、C&RT、QUEST、CHAID、Kohonen、K—Means、TwoStep、Apriori、GRI、Carma、序列、主成份/因子分析、特征选择、回归、Logistic算法:1、关联规则(Apriori算法)Apriori算法是最有影响的关联规则挖掘算法之一。它的中心思想是首先通过对事务数据库进行扫描,找出支持度不小于最小支持度的所有项目,即频繁1-项集.接下来的工作是循环的,每次循环分2步进行:1)连接,对频繁k-项集中的项进行连接.2)减枝,在减枝这一步主要根据一个频繁项目集的任何一个子集都应该是频繁的这一思想对连接后的项目集进行筛选,删除那些子集不是频繁集的项目集,得出候选(k+1)-项集.即对数据库进行扫描,计算候选项的支持度,从候选集中删除支持度小于最小支持度的候选项,进而得出频繁(k+1)-项集.循环的终止条件是频繁k-项集为空,也就是说再也找不出相关联的项目了.连接:用Lk-1自连接得到修剪:一个k-项集,如果他的一个k-1项集(他的子集)不是频繁的,那他本身也不可能是频繁的。伪代码:Ck:CandidateitemsetofsizekLk:freque

1 / 13
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功