第一章引论1、什么是数据挖掘?数据挖掘更正确的命名为“从数据中挖掘知识”,是数据中的知识发现(KDD)的同义词。数据挖掘是从大量数据中挖掘有趣模式和知识的过程,数据源包括数据库、数据仓库、web、其他信息存储库或动态的流入系统的数据。2、知识发现的过程是什么?知识发现的过程为:(1)数据清理(消除噪声和删除不一致的数据)(2)数据集成(多种数据源可以组合在一起)(3)数据选择(从数据库中提取与分析任务相关的数据)(4)数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)(5)数据挖掘(基本步骤,使用智能方法提取数据模式)(6)模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)(7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)3、什么类型的数据可以挖掘?数据挖掘可以作用于任何类型的数据,数据的最基本形式是数据库数据、数据仓库数据、事务数据。也可以用于数据流、有序/序列数据、图或网络数据、空间数据、文本数据、多媒体数据和万维网。(1)数据库数据由一组内部相关的数据和一组管理和存储数据的软件程序组成。关系数据库是表的汇集,每个表被赋予一个唯一的名字,含有一组属性(列或字段),并且通常存放大量元组(记录或行)。每个元组代表一个对象,被唯一的关键字标识,并被一组属性值描述。通常为关系数据库构建语义数据模型,如实体-联系(ER)数据模型。(2)数据仓库数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。数据存储从历史的角度提供信息,并且通常是汇总的。数据仓库用称作数据立方体的多维数据结构建模。每个维对应于模式中的一个或一组属性,每个单元存放某种聚集度量值(3)事务数据每个记录代表一个事务4、什么类型的模式可以挖掘?数据挖掘功能用于指定数据挖掘任务发现的模式,一般而言,这些任务可以分为两类:描述性和预测性。描述性挖掘任务刻画目标数据中数据的一般性质,预测性挖掘任务在当前数据上进行归纳,以便进行预测。(1)类/概念描述:特征化与区分数据可以与类或概念相关联。数据特征化是目标类数据的一般特性或特征的汇总。将数据汇总和特征化的方法:基于统计度量和图的简单数据汇总、基于数据立方体的OLAP上卷操作、面向属性的归纳技术。数据特征的输出可以用多种形式提供:饼图、条图、曲线、多位数据立方体、多维表;数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。(2)挖掘频繁模式、关联和相关性频繁模式包括频繁项集(基础)、频繁子序列和频繁子结构。(3)用于预测分析的分类与回归分类预测类别标号,而回归建立连续值函数模型。回归分析是最常用的数值预测统计学方法,相关分析可能需要在分类和回归之前进行,它试图识别与分类和回归过程显著相关的属性。(4)聚类分析聚类分析数据对象,而不考虑类标号。(5)离群点分析大部分数据挖掘都将离群点作为噪声或异常而丢弃,然而在一些应用中可以做离群点分析或异常挖掘5、支持度与置信度支持度表示事物数据库中满足规则的事物所占的百分比,置信度评估所发现的规则的确信程度。)()(supYXPYXport)|()(XYPYXconfidence准确率即被一个规则正确分类的数据所占的百分比,覆盖率类似于“支持度”表示规则可以作用的数据所占的百分比。第二章认识数据1、数据对象与数据类型数据对象又称样本、实例、数据点或对象,数据对象存放在数据库中,则他们为数据元组,即数据库的行对应于数据对象,列对应于属性。属性:表示数据对象的一个特征(属性、维、特征、变量)标称属性:一些符号或事物的名称(分类的或枚举的),标称属性可以取整数值,但是不能把它视为数值属性。二元属性:是一种标称属性,只有两种状态,0或1,0通常表示该属性不出现,1表示出现。二元属性有对称与非对称两种。序数属性:可能的值之间具有意义的序或秩评定,但是相继值之间的差是未知的。中心趋势可以用它的众数和中位数表示,但不能定义均值。数值属性:定量的,用整数或实数值表示,数值属性可以是区间标度的或比率标度的。除了中心趋势度量中位数和众数之外,还可以计算均值。比率标度属性是具有固有零点的数值属性。离散属性与连续属性:离散属性具有有限或无限可数个值,可以用或不用整数表示2、数据的基本统计描述(1)中心趋势度量,度量数据分布的中部或中心位置,包括均值、加权平均、中位数、众数和中列数;均值对极端值比较敏感,为了抵消少数极端值的影响,可以使用截尾均值;对于非对称数据,数据中心最好用中位数;众数是集合中出现最频繁的值,分为单峰、双峰和三峰,对于适度倾斜的单峰数值数据,有经验公式:均值-众数=3*(均值-中位数);中列数是数据集的最大和最小值的平均值。(2)数据的散布,最常见度量是极差、四分位数、四分位极差、五数概括和盒图,以及数据的方差和标准差。极差:最大值与最小值之差;分位数:是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合;识别可以的离群点的通常规则是,挑选落在第3个四分位数之上或第1个四分位数之下至少1.5*IQR处的值,IQR为四分位数极差(Q3-Q1);五数概括由中位数、四分位数Q1和Q3、最小和最大观测值组成;盒图是一种流行的分布的直观表示。中位数Q3Q1最大观测值最小观测值离群点方差和标准差指出数据分布的散布程度。低标准差意味数据观测趋向于非常靠近均值,高标准差表示数据散布在一个大的值域中。(3)可视化审视数据,包括条图、饼图和线图,还有分位数图、分位数-分位数图、直方图和散点图。分位数图:是一种观察单变量数据分布得简单有效方法,显示给定属性的所有数据。分位数-分位数图(q-q图),可以观察从一个分布到另一个分布是否有漂移。直方图:概括给定属性X的分布的图形方法;散点图:确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一。基本数据描述和图形统计显示有助于识别噪声和离群点,对于数据清理特别有用。3、数据可视化数据可视化旨在通过图形表示清晰有效地表达数据。(1)基于像素的可视化技术像素的颜色反应该维的值,每维创建一个窗口。(2)几何投影可视化技术几何投影技术帮助用户发现多维数据集的投影,二维散点图通过不同颜色或形状表述不同的数据点,三维散点图使用笛卡尔坐标系的三个坐标轴,对于维数超过4的数据集,散点图一般不太有效。平行坐标可以处理更高的维度,绘制n个等距离、相互平行的轴,每维一个。(3)基于图符的可视化技术两种流行的图符技术——切尔诺夫脸和人物线条画。切尔诺夫脸:有助于揭示数据中的趋势,脸的要素表示维的值,局限性为在表示多重联系的能力方面,且无法显示具体的数据值,此外面部特征因感知的重要性而异。人物线条画:把多维数据映射到5段人物线条画中,其中每个画都有四肢和一个躯体。(4)层次可视化技术把所有维划分成子集,这些子空间按层次可视化。(5)可视化复杂对象和关系标签云是用户产生的标签的统计量的可视化。标签云的用法有两种,单个术语的标签云可以使用标签的大小表示该标签被不同的用户用于该术语的次数,多个术语上可视化标签统计量时,使用标签的大小表示该标签用于的术语数,即标签的人气。4、度量数据的相似性和相异性(1)数据矩阵与相异性矩阵数据矩阵(对象-属性结构),每行对应于一个对象,每列代表一个属性,也称为二模矩阵相异性矩阵(对象-对象结构),存放n个对象两两之间的邻近度,只包含一类实体,称为单模矩阵相似性度量可以表示成相异性度量的函数),(1),(jidjisim(2)标称属性的邻近性度量标称属性对象之间的相异性可以根据不匹配率来计算pmpjid),(M是匹配的数目(i,j取值相同状态的属性数),p是刻画对象的属性总数;(3)二元属性的邻近性度量对象j对象i10sum1qrq+r0sts+tsumq+sr+tp基于对称二元属性的相异性称作对称的二元相异性,i,j的相异性为tsrqsrjid),(基于非对称的二元属性的相异性称为非对称的二元相异性,非对称的二元属性,两个状态不是同等重要的,若取值为1被认为比取值为0更有意义,负匹配t被认为不重要而忽略,则i,j相异性为srqsrjid),((4)数值属性的相异性最流行的距离度量是欧几里得距离2222211......),(jpipjijixxxxxxjid曼哈顿距离||.......||||),(2211jpipjijixxxxxxjid欧几里得距离和曼哈顿距离都满足数学性质:非负性:d(i,j)≥0:距离是一个非负的值同一性:d(i,j)=0:对象到自身的距离为0对称性:d(i,j)=d(j,i):距离是一个对称函数三角不等式:d(i,j)≤d(i,k)+d(k,j)从对象i到对象j的距离不会大于途径任何其他对象k的距离闵可夫斯基距离hhjpiphjihjixxxxxxjid||......||||),(2211(5)序数属性的邻近性度量第三章数据预处理1、为什么要进行数据预处理?数据质量涉及很多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。不正确、不完整和不一致的数据是现实世界的大型数据库和数据仓库共同特点。数据预处理可以改进数据的质量,有助于提高挖掘过程的准确率和效率。2、数据预处理的主要任务数据预处理的主要步骤:数据清理、数据集成、数据归约和数据变换。(1)数据清理通过填写缺失值,光滑噪声数据,识别或删除离群点并解决不一致性来“清理”数据;数据归约得到数据集的简化表示,数据归约策略包括维归约和数值归约。维归约使用数据编码方案,以便得到原始数据的简化或“压缩”,包括数据压缩技术(小波变换和主成分分析)、属性子集选择和属性构造,在数值归约中,使用参数模型(回归和对数线性模型)或非参数模型(直方图、聚类、抽样或数据聚集),用较小的表示取代数据。缺失值方法适用缺点忽略元组元组有多个属性缺少值忽略元组不能使用该元组剩余属性值,这些数据可能有用人工填写缺少数据少费时,数据集大缺失值多时不适用常量填充简单不可靠中心度量填充正常数据适用均值,倾斜数据使用中位数数据不可靠同类样本属性均值或平均值填充给定类数据分布倾斜则选择中位数数据不可靠最可能的值填充可以使用回归、贝叶斯形式、决策树归纳确定最流行但数据不可靠噪声数据:被测量的变量的随机误差或方差。方法分箱考察数据邻近值,进行局部光滑,有箱中位数光滑及箱边界光滑回归函数拟合数据来光滑数据离群点分析通过聚类来检测离群点数据清理的第一步是偏差检测,唯一性规则是指每个值都必须不同于该属性的其他值,连续性规则是说属性的最低和最高值之间没有缺失值,并且所有的值都必须是唯一的,空值规则是指空白、问号、特殊符号或指示空值条件的其他串的使用,以及如何处理这样的值。有大量不同的商业工具可以帮助我们进行偏差监测:数据清洗工具使用简单的领域知识,检查并纠正数据中的错误;数据审计工具通过分析数据发现规则和联系,并检测违反这些条件的数据来发现偏差;数据迁移工具允许简单的变换;ETL工具允许用户通过图形用户界面说明变换。(2)数据集成:合并来自多个数据存储的数据,存放在一个一致的数据存储中,如存放在数据仓库中。冗余:一个属性如果能由另一个或另一组属性“导出”,则这个属性可能是冗余的。有些冗余可以被相关分析检测,对于标称数据,我们使用卡方检验,对于数值属性,我们使用相关系数或协方差;——标称数据的卡方检验:将两个数据元组用相依表显示;——数值数据的相关系数:相关系数越大,相关性越强,可以作为冗余而被删除;——数值数据的协方差:(3)数据归约数据归约策略包括维归约、数量归约和数据压缩。维归约减少所考虑的随机变量或属性的个数,维归约的方法包括小波变换和主成分分析;数量归约用替代的、较小的数据表示形式替换原数据;数据压缩使用变换,以便得到原数据的归约或“压缩”表示,分为有损和无损。——小波变换是一种线性信号处理技术,小波变换后的数据可以截短,仅存放一小部分最强的小波系数,就能保留近似的压缩数据,可以用于多维数据,如数