数据挖掘word版

celever1215
4 ℃
2019-12-25

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

数据挖掘——期末复习第一章、数据挖掘概论数据挖掘:数据库中的知识挖掘(KDD)数据挖掘——知识挖掘的核心知识挖掘的步骤了解应用领域了解相关的知识和应用的目标创建目标数据集:选择数据数据清理和预处理:(这个可能要占全过程60％的工作量)数据缩减和变换找到有用的特征，维数缩减/变量缩减，不变量的表示。选择数据挖掘的功能数据总结,分类模型数据挖掘,回归分析,关联规则挖掘,聚类分析等.选择挖掘算法数据挖掘:寻找感兴趣的模式模式评估和知识表示可视化，转换，消除冗余模式等等运用发现的知识体系结构:典型数据挖掘系统数据挖掘的主要功能概念/类描述:特性化和区分归纳，总结和对比数据的特性。关联分析发现数据之间的关联规则，这些规则展示属性－值频繁的在给定的数据中所一起出现的条件。分类和预测通过构造模型(或函数)用来描述和区别类或概念，用来预测类型标志未知的对象类。聚类分析将类似的数据归类到一起，形成一个新的类别进行分析。孤立点分析通常孤立点被作为“噪音”或异常被丢弃，但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。趋势和演变分析描述行为随时间变化的对象的发展规律或趋势数据挖掘:多个学科的融合数据挖掘的主要问题挖掘方法在不同的数据类型中挖掘不同类型的知识,e.g.,生物数据,流式数据,Web数据性能:算法的有效性、可伸缩性和并行处理模式评估:兴趣度问题背景知识的合并处理噪声何不完全数据并行,分布式和增量挖掘算法新发现知识与已有知识的集成:知识融合用户交互数据挖掘查询语言和特定的数据挖掘数据挖掘结果的表示和显示多个抽象层的交互知识挖掘应用和社会因素特定域的数据挖掘&不可视的数据挖掘数据安全,完整和保密的保护第二章、数据仓库和OLAP技术什么是数据仓库?数据仓库的定义很多，但却很难有一种严格的定义它是一个提供决策支持功能的数据库，它与公司的操作数据库分开维护。为统一的历史数据分析提供坚实的平台，对信息处理提供支持“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合，支持管理部门的决策过程.”—W.H.Inmon（数据仓库构造方面的领头设计师）建立数据仓库(datawarehousing):构造和使用数据仓库的过程。数据仓库与异种数据库集成传统的异种数据库集成:在多个异种数据库上建立包装程序（wrappers）和中介程序（mediators）查询驱动方法——当从客户端传过来一个查询时，首先使用元数据字典将查询转换成相应异种数据库上的查询；然后，将这些查询映射和发送到局部查询处理器缺点：复杂的信息过虑和集成处理，竞争资源数据仓库:更新驱动将来自多个异种源的信息预先集成，并存储在数据仓库中，供直接查询和分析高性能OLTP系统和OLAP系统的比较从关系表和电子表格到数据立方体数据仓库和数据仓库技术基于多维数据模型。这个模型把数据看作是数据立方体形式。多维数据模型围绕中心主题组织，该主题用事实表表示。事实是数值度量的。数据立方体允许以多维数据建模和观察。它由维和事实定义。维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联，称为维表。事实表包括事实的名称或度量以及每个相关维表的关键字在数据仓库的研究文献中，一个n维的数据的立方体叫做基本方体。给定一个维的集合，我们可以构造一个方体的格，每个都在不同的汇总级或不同的数据子集显示数据，方体的格称为数据立方体。0维方体存放最高层的汇总，称作顶点方体；而存放最底层汇总的方体则称为基本方体。度量的分类一个数据立方体的度量是一个数值函数，该函数可以对数据立方体的每一个点求值。度量可以根据其所用的聚集函数分为三类：分布的(distributive)：将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样。比如：count()，sum()，min()，max()等代数的(algebraic)：函数可以由一个带M个参数的代数函数计算（M为有界整数），而每个参数值都可以有一个分布的聚集函数求得。比如：avg()，min_N()，standard_deviation()整体的(holistic)：描述函数的子聚集所需的存储没有一个常数界。比如：median()，mode()，rank()概念分层：location维的一个概念分层多维数据模型上的OLAP操作上卷(roll-up):汇总数据通过一个维的概念分层向上攀升或者通过维规约下钻(drill-down)：上卷的逆操作由不太详细的数据到更详细的数据，可以通过沿维的概念分层向下或引入新的维来实现切片和切块(sliceanddice)投影和选择操作转轴(pivot)立方体的重定位，可视化，或将一个3维立方体转化维一个2维平面序列其他OLAP操作钻过(drill_across)：执行涉及多个事实表的查询钻透(drill_through)：使用关系SQL机制，钻到数据立方体的底层，到后端关系表数据仓库设计的四种视图数据仓库设计的四种视图自顶向下视图允许我们选择数据仓库所需的相关信息数据源视图揭示被操作数据库系统所捕获、存储和管理的信息数据仓库视图有事实表和维表所组成商务查询视图从最终用户的角度透视数据仓库中的数据三种数据仓库模型企业仓库搜集关于跨越整个组织的主题的所有信息数据集市企业范围数据的一个子集，对于特定的客户是有用的。其范围限于选定的主题，比如一个商场的数据集市独立的数据集市VS.非独立的数据集市（数据来自于企业数据仓库）虚拟仓库操作数据库上的一系列视图只有一些可能的汇总视图被物化OLAP服务器类型逻辑上，OLAP服务器从数据仓库或数据集市中给商业用户提供多维数据物理上，OLAP的底层数据存储实现可以有多种不同的方式关系OLAP服务器(ROLAP)使用关系数据库或扩展的关系数据库存放并管理数据仓库的数据，而用OLAP中间件支持其余部分包括每个DBMS后端优化，聚集导航逻辑的实现，附加的工具和服务较大的可扩展性多维OLAP服务器(MOLAP)基于数组的多维存储引擎（稀疏矩阵技术）能对预计算的汇总数据快速索引混合OLAP服务器(HOLAP)结合上述两种技术，更大的使用灵活性特殊的SQL服务器在星型和雪花模型上支持SQL查询方体计算的多路数组聚集方法(1)将数组分成块（chunk,一个可以装入内存的小子方）压缩的稀疏数组寻址：(chunk_id,offset)通过访问立方体单元，计算聚集。可以优化访问单元组的次序，使得每个单元被访问的次数最小化，从而减少内存访问和磁盘I/O的开销。第三章、数据预处理为什么要预处理数据？现实世界的数据是“肮脏的”不完整的：有些感兴趣的属性缺少属性值，或仅包含聚集数据含噪声的：包含错误或者“孤立点”不一致的：在编码或者命名上存在差异没有高质量的数据，就没有高质量的挖掘结果高质量的决策必须依赖高质量的数据数据仓库需要对高质量的数据进行一致地集成数据预处理的主要任务数据清理填写空缺的值，平滑噪声数据，识别、删除孤立点，解决不一致性数据集成集成多个数据库、数据立方体或文件数据变换规范化和聚集数据归约得到数据集的压缩表示，它小得多，但可以得到相同或相近的结果数据离散化数据归约的一部分，通过概念分层和数据的离散化来规约数据，对数字型数据特别重要如何处理空缺值忽略元组：当类标号缺少时通常这么做（假定挖掘任务设计分类或描述），当每个属性缺少值的百分比变化很大时，它的效果非常差。人工填写空缺值：工作量大，可行性低使用一个全局变量填充空缺值：比如使用unknown或-∞使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值：使用像Bayesian公式或判定树这样的基于推断的方法噪声数据噪声：一个测量变量中的随机错误或偏差引起不正确属性值的原因数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致其它需要数据清理的数据问题重复记录不完整的数据不一致的数据如何处理噪声数据分箱(binning):首先排序数据，并将他们分到等深的箱中然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等聚类：监测并且去除孤立点计算机和人工检查结合计算机检测可疑数据，然后对它们进行人工判断回归通过让数据适应回归函数来平滑数据数据变换平滑：去除数据中的噪声（分箱、聚类、回归）聚集：汇总，数据立方体的构建数据概化：沿概念分层向上汇总规范化：将数据按比例缩放，使之落入一个小的特定区间最小－最大规范化z-score规范化小数定标规范化属性构造通过现有属性构造新的属性，并添加到属性集中；以增加对高维数据的结构的理解和精确度数据归约策略数据仓库中往往存有海量数据，在其上进行复杂的数据分析与挖掘需要很长的时间数据归约数据归约可以用来得到数据集的归约表示，它小得多，但可以产生相同的（或几乎相同的）分析结果数据归约策略数据立方体聚集维归约数据压缩数值归约离散化和概念分层产生用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间。分类数据的概念分层生成分类数据是指无序的离散数据，它有有限个值（可能很多个）。分类数据的概念分层生成方法：由用户或专家在模式级显式的说明属性的部分序。通过显示数据分组说明分层结构的一部分。说明属性集，但不说明它们的偏序，然后系统根据算法自动产生属性的序，构造有意义的概念分层。对只说明部分属性集的情况，则可根据数据库模式中的数据语义定义对属性的捆绑信息，来恢复相关的属性。第四章、数据挖掘原语和DMQL数据挖掘原语的组成部分数据挖掘原语应该包括以下部分：说明数据库的部分或用户感兴趣的数据集要挖掘的知识类型用于指导挖掘的背景知识模式评估、兴趣度量如何显示发现的知识数据挖掘原语用于用户和数据挖掘系统通信，让用户能从不同的角度和深度审查和发现结果，并指导挖掘过程。说明数据挖掘任务的原语任务相关的数据数据库（仓库）名、数据立方体、选择条件、相关属性、分组条件挖掘的知识类型特征化、区分、关联、分类/预测、聚类背景知识概念分层，关联的确信度模式兴趣度度量简单性、确定性、实用性、新颖性发现模式的可视化规则、表、图表、图、判定树…兴趣度度量没有兴趣度度量，挖掘出来的有用模式，很可能会给淹没在用户不感兴趣的模式中。简单性确定性实用性新颖性兴趣度的客观度量方法：根据模式的结构和统计，用一个临界值来判断某个模式是不是用户感兴趣的。第五章、特征化和比较两种不同类别的数据挖掘从数据分析的角度看，数据挖掘可以分为描述性挖掘和预测性挖掘描述性挖掘：以简洁概要的方式描述数据，并提供数据的有趣的一般性质。预测性数据挖掘：通过分析数据建立一个或一组模型，并试图预测新数据集的行为。什么是概念描述？描述性挖掘VS.预测性挖掘描述性挖掘：以简洁概要的方式描述数据，并提供数据的有趣的一般性质。预测性数据挖掘：通过分析数据建立一个或一组模型，并试图预测新数据集的行为。概念描述：为数据的特征化和比较产生描述（当所描述的概念所指的是一类对象时，也称为类描述）特征化：提供给定数据集的简洁汇总。区分：提供两个或多个数据集的比较描述。数据概化数据概化数据库中的数据和对象通常包含原始概念层的细节信息，数据概化就是将数据库中的跟任务相关的数据集从较低的概念层抽象到较高的概念层的过程。主要方法：数据立方体（OLAP使用的方法）面向属性的归纳方法面向属性的归纳Attribute-orientedinduction,AOI(KDD`89Workshop)受数据类型和度量类型的约束比较少面向属性归纳的基本思想：使用关系数据库查询