数据仓库与数据挖掘技术(第2版)第六章现代数据挖掘技术与发展数据仓库与数据挖掘技术(第2版)6.1知识挖掘系统的体系结构(1)知识发现是用一种简洁的方式从大量的数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在应用价值。(2)知识发现可看成是一种价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。它能通过全面的信息发现与分析,找到有价值的商业规则。(3)知识发现意味着数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。6.1.1知识发现技术的定义数据仓库与数据挖掘技术(第2版)6.1.2知识发现系统的结构知识发现系统的结构由知识发现系统管理器、知识库、商业分析员、数据仓库的数据接口、数据选择、知识发现引擎、知识发现评价、知识发现描述等部分组成。见图6-1。数据仓库与数据挖掘技术(第2版)数据仓库与数据挖掘技术(第2版)1.知识发现系统管理器知识发现系统管理器控制并管理整个知识发现过程。商业分析人员的输入和知识库中的信息用于驱动以下三个过程:(1)数据选择过程。(2)抽取算法的选择及使用过程。(3)发现的评价过程。数据仓库与数据挖掘技术(第2版)2.知识库和商业分析员知识库包含源于各方面的知识。商件分析员将元数据输入数据仓库,描述数据仓库的数据结构、商业分析员还要在知识库中输入其他相关的数据知识(如应当注意的关键数据字段、分析中用于产生数据需求的商业规则、任何数据层次等)。其目的是按一种有效的方式指导对关注性信息的发现。数据仓库与数据挖掘技术(第2版)3.数据仓库的数据库接口知识发现系统利用数据库的查询机制,从数据仓库中抽取数据。对于关系数据库,可使用SQL查询语言。知识库中的数据仓库元数据指导数据库接口正确组织数据结构,并正确组织数据结构在数据仓库中存储的方式。为了提高效率,知识发现系统的数据库接口可以直接与数据仓库通信。数据仓库与数据挖掘技术(第2版)4.数据选择数据选择构件可以确定从数据仓库中需要抽取的数据及数据结构。知识库指导数据选择构件,选择需要抽取的数据以及抽取方式。如果只需示例数据,数据选择构件必须有能力选择并抽取恰当的随机事例。此外,它还要选择算法所需要的数据类型,同时将数据类型输入算法。数据仓库与数据挖掘技术(第2版)5.知识发现引擎知识发现引擎将知识库中的抽取算法提供数据选择构件抽取的数据,其目的是抽取数据元素间的模式和关系。存储在知识库中的经验对发现抽取有重要的作用。许多数据挖掘算法可与知识发现系统结合,作为知识发现引擎,如数据依赖、分类规则、聚类、概括数据、偏差检查、归纳和模糊推理等。数据仓库与数据挖掘技术(第2版)6.发现评价商业分析员需要寻找关注性的数据模式,以便了解顾客、产品、市场等等。数据仓库潜在地具有宿主模式。评价构件或过滤构件有助于商业分析员筛选模式,选出关注性的信息。用于分析关注性模式的技术包括统计的重点、覆盖级别的置信度因子,以及可视化分析。数据仓库与数据挖掘技术(第2版)7.发现描述发现描述构件提供两种必须的功能。一种是发现评价辅助商业分析员,在知识库中保存关注性的发现结果,以备引用和使用。另一种是保持发现与商业经理(或商业总经理)的通信。其目的是利用知识发现来理解业务模式,将此理解转化成可执行的建议。知识发现系统中的描述技术包括可视化导航和浏览、自然语言文本报告以及图表和图形。数据仓库与数据挖掘技术(第2版)6.2现代数据挖掘技术及应用6.2.1规则型挖掘技术及应用1.关联规则的基本概念布尔关联规则,单层规则量化规则,单层规则多层关联规则(,)(,__)buysxcomputerbuysxfinancialmanagementsoftware(3040)(4200050000)(,__)ageincomebuysxhighresolutionTV(3040)(,)agebuysxIBMCOMPUTER(3040)(,)agebuysxIBMCOMPUTER数据仓库与数据挖掘技术(第2版)SelectCust.name,P.item_nameFromPurchases,PGroupbyCust.IDHaving(Cust.age=30andCust.age=40)And(Cust.income=42000andCust.income=50000)And(p.item_name=“high_resolution_TV”)数据仓库与数据挖掘技术(第2版)2.关联规则的应用目标ABA包含和的元组数置信度(AB)=包含的元组数AB包含和的元组数覆盖率(AB)=元组总数数据仓库与数据挖掘技术(第2版)3.关联规则的算法1993年Apriori算法核心算法分成两步:(1)找出所有支持度大于最小支持度的项集,这些项集称为频集,包含k个项的称为k-项集(2)使用第(1)步找到的频集产生所期望的规则数据仓库与数据挖掘技术(第2版)数据仓库与数据挖掘技术(第2版)图6.2Apriori算法应用例子数据仓库与数据挖掘技术(第2版)4.关联规则应用关联规则是知识挖掘中一种主要的挖掘技术,通过关联规则在数据仓库中的应用,可使人们了解各种事物发生的前因后果,使企业利用挖掘的各种商业规则在市场竞争中获取优势。通常,关联规则用于值域的基数很高或有多个二值属性列的数据库。数据仓库与数据挖掘技术(第2版)表6-1前件和后件规则中的正确率和覆盖率数据仓库与数据挖掘技术(第2版)表6-2关联规则正确率和覆盖率的平衡表数据仓库与数据挖掘技术(第2版)6.2.2神经网络型挖掘技术1.神经网络及其学习方法图6.3神经网络数据仓库与数据挖掘技术(第2版)2.基于神经网络的数据挖掘1)基于自组织神经网络的数据挖掘技术2)模糊神经网络类型的数据挖掘技术模糊BP网络、模糊Kohonen网络、模糊推理网络和ART网络等。数据仓库与数据挖掘技术(第2版)3.后向传播模型(BP)及其算法具体过程:(1)选定p个样本(2)权值初始化(随机生成);(3)依次输入样本;(4)依次计算各层的输出;(5)求各层的反传误差;(6)按权值调整公式修正各权值和阀值;(7)按新权值计算各层的输出,直到误差小于事先设定的阀值。数据仓库与数据挖掘技术(第2版)ijiijjOwIjIjeO11))(1(jjjjjOTOOErrjkkkjjjwErrOOErr)1(ijijijOErrlww)(jjjErrl)(数据仓库与数据挖掘技术(第2版)4.神经网络的应用人工种经网络是—种有效的预测模型。其模型比较复杂,许多人都难以理解;但是在聚类分析、奇异点分析、特征抽取中可以得到较大的应用,例如应用在信用卡欺诈、信贷风险、客户分类、盈利客户特征分析商业模式的识别上。神经元网络在使用时需要很长的圳练时间,因而对有足够长训练时间的应用更为合适。此外,神经元网络对噪声数据具有较高的承受能力。数据仓库与数据挖掘技术(第2版)表6-3神经网络模型的比较数据仓库与数据挖掘技术(第2版)图6.4一个简单的预测贷款拖欠情况的神经网络数据仓库与数据挖掘技术(第2版)图6.5预测树结果数据仓库与数据挖掘技术(第2版)6.2.3遗传算法型挖掘技术1.遗传算法的基本原理图6.6遗传算法处理流程图数据仓库与数据挖掘技术(第2版)2.遗传算法的处理过程1)编码并生成祖先群体2)计算当前基因群体中所有个体的环境适应度3)对适应函数评价每一个体对环境的适应度4)选择适应度好的个体进行复制5)选择适应度好的个体进行复制交叉配对繁殖6)新生代的交叉操作数据仓库与数据挖掘技术(第2版)3.遗传算法的应用遗传算法作为基于生物进化过程的组合优化方法,在数据挖掘中主要用于分类系统中,并且经常与神经网络等数据挖掘技术综合应用。神经元网络在客户的分类中的应用是比较成功的。数据仓库与数据挖掘技术(第2版)表6-4客户的信息组成数据仓库与数据挖掘技术(第2版)表6-5客户群的新基因组成数据仓库与数据挖掘技术(第2版)6.2.4粗糙集挖掘技术1.粗糙集技术数据仓库与数据挖掘技术(第2版)2.粗糙集的应用表6-6流失客户的信息数据仓库与数据挖掘技术(第2版)6.2.5决策树型挖掘技术1.决策树技术数据仓库与数据挖掘技术(第2版)图6-7“是否购买计算机”的决策树数据仓库与数据挖掘技术(第2版)表6-7经过数据预处理的数据记录数据仓库与数据挖掘技术(第2版)6.3知识发现工具与应用6.3.1知识发现工具的系统结构1.无耦合2.松散耦合3.半紧密耦合4.紧密耦合数据仓库与数据挖掘技术(第2版)6.3.2知识发现工具运用中的问题1.数据挖掘技术应用中的共性问题1)数据质量2)数据可视化3)极大数据库4)性能与成本5)商业分析员的技能6)处理数据噪声和不完全数据7)模式评估-兴趣度问题数据仓库与数据挖掘技术(第2版)2.数据挖掘技术应用中的个性问题1)规则归纳应用中的问题2)神经网络应用中的问题3)遗传算法应用中的问题数据仓库与数据挖掘技术(第2版)6.3.3知识挖掘的价值1.了解商业活动2.发现商业异常3.预测未来趋势数据仓库与数据挖掘技术(第2版)6.4数据挖掘技术的发展1.文本挖掘2.可视化数据挖掘3.空间数据挖掘4.分布式数据挖掘数据仓库与数据挖掘技术(第2版)图6-8PADMA体系结构数据仓库与数据挖掘技术(第2版)图6-9CMA体系结构数据仓库与数据挖掘技术(第2版)数据挖掘分析与设计:分组:每班6组,每组5-6人,自由组合,每组选出一个做答辩,答辩PPT要求10页以上,分组答辩前学委交分组名单。讨论内容与题目:组1:教务选课系统数据挖掘的分析与设计组2:图书馆借书系统数据挖掘的分析与设计组3:学生成绩管理系统数据挖掘的分析与设计组4:学生学籍管理系统数据挖掘的分析与设计组5:超市CRM系统数据挖掘的分析与设计组6:股票分析管理数据挖掘的分析与设计数据仓库与数据挖掘技术(第2版)答辩PPT包含以下几个部分:1、前言(1分)2、使用聚集创建数据挖掘模型(4分)3、使用决策树创建挖掘模型(4分)4、结论(1分)