体系结构KDD的定义KDD与数据挖掘的关系常用KDD过程模型参考文献数据库知识发现的定义数据库知识发现(KDD:KnowledgeDiscoveryinDatabases)是从大量的、不完整的、有噪声的、模糊的和随机的数据中提取隐含在其中的、人们事先不知道的、但又是可信的、潜在的和有价值的信息和知识的过程。数据库知识发现将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。KDD与数据挖掘的关系数据挖掘(DataMining)就是从海量的数据中挖掘出隐含在其中的矿藏——知识。一般认为广义的数据挖掘又称数据库中的知识发现简称知识发现(KDD)。狭义的数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据关系之间关系的过程,是知识发现过程的一个步骤。(如下图)KDD与数据挖掘的关系常用KDD过程模型7步骤KDD发现过程模型阶梯处理过程模型(Fayyad模型)CRISP-DM模型7步骤KDD发现过程模型说明目标定义创建目标数据集数据预处理数据转换数据挖掘解释和评估采取行动目标定义目的:说明需要完成什么内容问题陈述,度量成功失败的标准数据挖掘工具的选择项目估计费用,人力资源管理计划项目完成/产品发布时间应用中的法律问题运行系统的维护计划……7步骤的KDD过程模型目标定义创建目标数据集数据预处理数据转换数据挖掘解释和评估采取行动创建目标数据集目标数据的来源数据仓库事务型数据库(数据库管理系统)文本文件7步骤的KDD过程模型目标定义创建目标数据集数据预处理数据转换数据挖掘解释和评估采取行动数据预处理数据预处理的意义在海量的原始数据中,存在着大量杂乱的、重复的、不完整的数据,严重影响到数据挖掘算法的执行效率,甚至可能导致数据挖掘结果的偏差。为此,在数据挖掘算法执行之前必须进行数据预处理,为数据挖掘算法提供干净、准确、更有针对性的数据,改进数据质量,提高挖掘效率。数据预处理数据预处理的功能数据清理数据集成数据变换数据归约数据清理噪声数据处理空缺值的处理清洗脏数据噪声数据处理噪声定义噪声是一个测量变量中的随机错误或偏差,包括错误的值或偏离期望的孤立点值。噪声数据处理方法分箱法聚类法识别孤立点回归分箱法通过考察周围的值来平滑存储数据的值。由于分箱法考虑相邻的值,因此是一种局部平滑方法。按照取值的不同可以分为:按箱平均值平滑、按箱中值平滑、按箱边界值平滑。分箱法一个关于分箱法的例子例假设有8、24、15、41、7、10、18、67、25等9个数,分为三箱。箱1:8、24、15;箱2:41、7、10;箱3:18、67、25按箱平均值平滑数据:箱1:16、16、16;按箱的中值平滑数据:箱2:7、7、7;按箱边界值平滑数据:箱3:18、18、18;通过不同的分箱方法求解的平滑数据,就是同一箱中3个数的存储数据的值。聚类法识别孤立点孤立点的定义孤立点可以被聚类检测,聚类就是将类似的值组织成群或分类。直观地看,落在聚类集合之外的值被视为孤立点。孤立点的识别可以通过计算机将被判定数据与已知的正常值比较,将差异程度大于某个阈值模式输出到一个表格中,然后人工审核表中的模式,识别出孤立点。回归可以让数据适合一个回归函数来平滑数据,如线性回归涉及找出两个变量的最佳直线,使一个变量可以预测另一个。多线性回归涉及多个变量,数据适合一个维面,使用回归找出适合数据的数学方程式,能够帮助消除噪声。数据清理噪声数据处理空缺值的处理清洗脏数据空缺值的处理空缺值简介在大多数情况下,缺失的属性值代表了缺失的信息。例如age这个属性的一个缺失值表明这个数据是存在的但没有相应的数据说明,然而,salary的一个缺失值既可以认为是一个为天的数据项,也可能表明某人是没有职业的。空缺值的处理方法丢弃含有缺失值的记录用中值代替缺失值用其他相似实例中的属性值代替某个实例缺失的属性值数据清理噪声数据处理空缺值的处理清洗脏数据清洗脏数据一般来说,数据库中的数据并不都是正确的,常常不可避免地存在着不完整、不一致、不精确和重复的数据。这些数据统称为“脏数据”。它们能使挖掘过程陷入混乱,导致不可靠的输出,所以必须对“脏数据”进行清洗。脏数据清洗方法手工实现方式。主题要针对小数据量的数据源。用专门编写的应用程序。采用概率统计原理查找异常的记录。对重复记录的检测与删除。数据预处理数据预处理的功能数据清理数据集成数据变换数据归约数据集成数据集成的定义是将多文件或多数据库运行环境中的异构数据进行合并,其中主要涉及的问题有实体识别、数据冗余等。数据集成中的关键问题实体识别问题冗余问题数据值冲突检测与处理实体识别问题在数据集成时,来自多个数据源的现实世界的实体有时并不一定是匹配的,例如数据分析者如何才能确信一个数据库中的student_id和另一个数据库中的stu_id值是同一个实体,这里我们引入元数据的概念来区分模式集成中的错误。元数据:它是对数据描述的基础,是关于数据的数据。冗余问题数据集成往往造成数据冗余,如同一属性多次出现、同一属性命名不一致等,对于属性间冗余问题可以用相关性分析检测到,然后删除。数据值冲突检测与处理对于现实世界的统一实体,来自不同数据源的属性值可能不同。这可能是因为表示、比例或编码、数据类型、单位不统一、字段长度不同。数据预处理数据预处理的功能数据清理数据集成数据变换数据归约数据变换数据变换的定义数据变换主要是找到数据的特征表示,用维变换或转换方法减少有效变量的数目或找到数据的不变式。数据变换的内容数据规范化数据类型转换数据规范化数据类型转换数据类型转换主要情形分类数据转换为等价的数值数据将初始格式的数值数据转换为离散数据数据预处理数据预处理的功能数据清理数据集成数据变换数据归约数据归约数据归约的定义数据归约是将数据库中的海量数据进行归约。归约之后的数据仍接近于保持原数据的完整性,但数据量相对小得多,这样进行数据挖掘的性能和效率会得到很大提高。数据归约的策略维归约数据压缩数值归约概念分层维归约维归约的原理通过删除不相关的属性(或维)减少数据量,不仅压缩了数据集,还减少了出现在发现模式上的属性数目,通常采用属性子集选择方法找出最小属性集,使得数据概率分布尽可能地接近使用所有属性的原分布。属性子集选择方式逐步向前选择:由空集开始,逐步选择最好的属性。逐步向后选择:由全集开始,逐步淘汰最坏的属性。向前向后选择结合:每一步选择最好同时淘汰最坏的属性。判定树归纳:使用信息增益度量建立分类判别树,形成的属性即子集数据归约的策略维归约数据压缩数值归约概念分层数据压缩为什么进行数据压缩对数据压缩就可以把数据存储在很小的空间中,数据仓库尤其需要数据压缩,因为数据仓库中的数据很少更新,而数据的稳定性又可以减少空间管理的问题。主要方法介绍主要成分分析小波变换主要成分分析方法介绍原理假设待压缩的的数据由N个取自k个维的元组数或数据向量组成。主要成分分析(PCA)搜索c个最能代表数据的k维正交向量(c=k),这样就可以把原始数据投影到一个较小的空间,实现数据压缩。与选择属性子集不同的是PCA创建一个替换的、较小的变量来“组合”属性的精华。小波变换方法介绍原理离散小波变换是一种信号处理技术,对数据向量D作变换时,将它转换成小波系数不同的向量D’。两个向量具有相同的长度。经小波变换后的数据可以裁减,仅采用一小部分最强的小波系数,就能得到近似的压缩数据。数据归约的策略维归约数据压缩数值归约概念分层原理通过选择替代的、较小的数据表现形式来减少数据量。方法有参的数值归约技术无参的数值归约技术数值归约有参的数值归约技术原理:使用一个模型来评估数据,只需要存放参数,而不需要存放实际数据。实际应用回归(线性回归、多元回归)对数线性模型(近似离散属性集中的多维分布概率)无参的数值归约技术实际应用直方图:分箱技术近似数据分布。聚类:将数据元组视为对象。选样:用数据的较小随机样本来表示大的数据集,如聚类选样。数据归约的策略维归约数据压缩数值归约概念分层概念分层概念分层定义概念分层定义了一组由底层概念集到高层概念集的映射,通过概念分层可以在较高的、一般化的抽象层上处理原始数据,可以通过较高层的概念替换较低层概念来实现数据的概化。数据概化可以让用户在更有意义、更清晰的抽象层观察数据,从中发现更易于理解的模式。概念分层的类型模式分层集合分组分层有操作导出的分层基于规则的分层7步骤的KDD过程模型目标定义创建目标数据集数据预处理数据转换数据挖掘解释和评估采取行动数据挖掘有指导或无指导学习者典型场景从实例库中选择训练和检验数据指定一组输入属性如果实习是有指导的,选择一个或多个属性用于输出选择学习参数的值调整数据挖掘工具建立概化数据模型解释和评估目的:确定学习这模型是否是可以接受的以及检验环以外的难题形式统计分析启发式分析实验分析人工分析采取行动目的:将发现的知识付诸应用主要的行为:撰写所发现知识的报告或技术性文章零售商品重新摆放待售商品有选择的放在一起将促销信息邮寄给总体中有偏好的顾客群体设计用来侦测信用卡盗用的全端系统用学到的知识推动新的科学研究常用KDD过程模型7步骤KDD发现过程模型阶梯处理过程模型(Fayyad模型)CRISP-DM模型阶梯处理过程模型数据源目标数据预处理后的数据模式缩减后的数据数据预处理数据选择数据挖掘数据缩减模式解释与评估常用KDD过程模型7步骤KDD发现过程模型阶梯处理过程模型(Fayyad模型)CRISP-DM模型CRISP-DM过程模型简介CRISP-DM过程模型注重数据挖掘技术的应用。CRISP-DM过程模型从数据挖掘技术的应用角度划分数据挖掘任务,将数据挖掘技术与应用紧密结合,注重数据挖掘模型的质量及如何与业务问题相结合。CRISP-DM过程模型从商业的角度给出了对数据挖掘方法的理解。CRISP-DM的基本步骤与炒菜待客业务理解数据理解数据准备建立模型模型评价模型实施业务理解就是了解顾客的口味;数据理解则是熟悉每一样原料可以炒什么菜;数据准备则是根据顾客的口味和厨师的经验,配菜,择菜和洗菜;建立模型则是靠大厨炒菜的水平;模型评价就是顾客品尝;模型实施则是如果顾客满意了则作为招牌菜推广。CRISP-DM过程模型图解:注意:CRISP-DM过程模型的各阶段之间的顺序并不是刚性的,经常会出现在不同阶段之间反复重复的情况。外层的圆圈表示数据挖掘项目的循环性。CRISP-DM各阶段的任务及输出业务理解数据理解数据准备建立模型模型评估模型实施确定业务目标业务背景报告业务目标报告业务成功准则收集初始数据原始数据收集数据收集报告选择数据选择与排除数据的基本原则选择建模技术建模技术建模假设评价挖掘结果DM结果的评估核准的模型计划实施实施计划进行环境评估资源清单需求、假设和约束风险和对策术语表成本和效益描述数据数据描述报告数据清洗数据清洗报告产生测试设计测试设计复审过程过程复审报告计划、监测和维护检测和维护计划数据构建导出属性生成记录确定DM目标DM目标DM成功准则探测数据探测数据报告数据集成合并的数据建立模型参数设定模型模型描述确定下一步可能的行动列表决策产生最终报告最终报告最终表述产生项目计划项目计划工具和技术初步评价检验数据质量数据质量报告数据格式化格式化的数据评估模型模型评价修改的参数设定回顾项目归纳文档注意:每个阶段中黑体为通用任务,其他为阶段或任务要求输出的文档参考文献1.RichardJ.Roiger,MichaelW.Geatz.DATAMININGATUTORIAL-BASEDPRIMER[M].清华大学出版社,2003.2.李雄飞,李军.数据挖掘与