第六章 现代数据挖掘技术与发展1.2

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据仓库与数据挖掘技术(第2版)第六章现代数据挖掘技术与发展数据仓库与数据挖掘技术(第2版)6.1知识挖掘系统的体系结构(1)知识发现是用一种简洁的方式从大量的数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在应用价值。(2)知识发现可看成是一种价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。它能通过全面的信息发现与分析,找到有价值的商业规则。(3)知识发现意味着数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。6.1.1知识发现技术的定义数据仓库与数据挖掘技术(第2版)6.1.2知识发现系统的结构知识发现系统的结构由知识发现系统管理器、知识库、商业分析员、数据仓库的数据接口、数据选择、知识发现引擎、知识发现评价、知识发现描述等部分组成。见图6-1。数据仓库与数据挖掘技术(第2版)数据仓库与数据挖掘技术(第2版)1.知识发现系统管理器知识发现系统管理器控制并管理整个知识发现过程。商业分析人员的输入和知识库中的信息用于驱动以下三个过程:(1)数据选择过程。(2)抽取算法的选择及使用过程。(3)发现的评价过程。数据仓库与数据挖掘技术(第2版)2.知识库和商业分析员知识库包含源于各方面的知识。商件分析员将元数据输入数据仓库,描述数据仓库的数据结构、商业分析员还要在知识库中输入其他相关的数据知识(如应当注意的关键数据字段、分析中用于产生数据需求的商业规则、任何数据层次等)。其目的是按一种有效的方式指导对关注性信息的发现。数据仓库与数据挖掘技术(第2版)3.数据仓库的数据库接口知识发现系统利用数据库的查询机制,从数据仓库中抽取数据。对于关系数据库,可使用SQL查询语言。知识库中的数据仓库元数据指导数据库接口正确组织数据结构,并正确组织数据结构在数据仓库中存储的方式。为了提高效率,知识发现系统的数据库接口可以直接与数据仓库通信。数据仓库与数据挖掘技术(第2版)4.数据选择数据选择构件可以确定从数据仓库中需要抽取的数据及数据结构。知识库指导数据选择构件,选择需要抽取的数据以及抽取方式。如果只需示例数据,数据选择构件必须有能力选择并抽取恰当的随机事例。此外,它还要选择算法所需要的数据类型,同时将数据类型输入算法。数据仓库与数据挖掘技术(第2版)5.知识发现引擎知识发现引擎将知识库中的抽取算法提供数据选择构件抽取的数据,其目的是抽取数据元素间的模式和关系。存储在知识库中的经验对发现抽取有重要的作用。许多数据挖掘算法可与知识发现系统结合,作为知识发现引擎,如数据依赖、分类规则、聚类、概括数据、偏差检查、归纳和模糊推理等。数据仓库与数据挖掘技术(第2版)6.发现评价商业分析员需要寻找关注性的数据模式,以便了解顾客、产品、市场等等。数据仓库潜在地具有宿主模式。评价构件或过滤构件有助于商业分析员筛选模式,选出关注性的信息。用于分析关注性模式的技术包括统计的重点、覆盖级别的置信度因子,以及可视化分析。数据仓库与数据挖掘技术(第2版)7.发现描述发现描述构件提供两种必须的功能。一种是发现评价辅助商业分析员,在知识库中保存关注性的发现结果,以备引用和使用。另一种是保持发现与商业经理(或商业总经理)的通信。其目的是利用知识发现来理解业务模式,将此理解转化成可执行的建议。知识发现系统中的描述技术包括可视化导航和浏览、自然语言文本报告以及图表和图形。数据仓库与数据挖掘技术(第2版)6.2现代数据挖掘技术及应用6.2.1规则型挖掘技术及应用1.关联规则的基本概念布尔关联规则,单层规则量化规则,单层规则多层关联规则(,)(,__)buysxcomputerbuysxfinancialmanagementsoftware(3040)(4200050000)(,__)ageincomebuysxhighresolutionTV(3040)(,)agebuysxIBMCOMPUTER(3040)(,)agebuysxIBMCOMPUTER数据仓库与数据挖掘技术(第2版)SelectCust.name,P.item_nameFromPurchases,PGroupbyCust.IDHaving(Cust.age=30andCust.age=40)And(Cust.income=42000andCust.income=50000)And(p.item_name=“high_resolution_TV”)数据仓库与数据挖掘技术(第2版)2.关联规则的应用目标ABA包含和的元组数置信度(AB)=包含的元组数AB包含和的元组数覆盖率(AB)=元组总数数据仓库与数据挖掘技术(第2版)3.关联规则的算法1993年Apriori算法核心算法分成两步:(1)找出所有支持度大于最小支持度的项集,这些项集称为频集,包含k个项的称为k-项集(2)使用第(1)步找到的频集产生所期望的规则数据仓库与数据挖掘技术(第2版)数据仓库与数据挖掘技术(第2版)图6.2Apriori算法应用例子数据仓库与数据挖掘技术(第2版)4.关联规则应用关联规则是知识挖掘中一种主要的挖掘技术,通过关联规则在数据仓库中的应用,可使人们了解各种事物发生的前因后果,使企业利用挖掘的各种商业规则在市场竞争中获取优势。通常,关联规则用于值域的基数很高或有多个二值属性列的数据库。数据仓库与数据挖掘技术(第2版)表6-1前件和后件规则中的正确率和覆盖率数据仓库与数据挖掘技术(第2版)表6-2关联规则正确率和覆盖率的平衡表数据仓库与数据挖掘技术(第2版)6.2.2神经网络型挖掘技术1.神经网络及其学习方法图6.3神经网络数据仓库与数据挖掘技术(第2版)2.基于神经网络的数据挖掘1)基于自组织神经网络的数据挖掘技术2)模糊神经网络类型的数据挖掘技术模糊BP网络、模糊Kohonen网络、模糊推理网络和ART网络等。数据仓库与数据挖掘技术(第2版)3.后向传播模型(BP)及其算法具体过程:(1)选定p个样本(2)权值初始化(随机生成);(3)依次输入样本;(4)依次计算各层的输出;(5)求各层的反传误差;(6)按权值调整公式修正各权值和阀值;(7)按新权值计算各层的输出,直到误差小于事先设定的阀值。数据仓库与数据挖掘技术(第2版)ijiijjOwIjIjeO11))(1(jjjjjOTOOErrjkkkjjjwErrOOErr)1(ijijijOErrlww)(jjjErrl)(数据仓库与数据挖掘技术(第2版)4.神经网络的应用人工种经网络是—种有效的预测模型。其模型比较复杂,许多人都难以理解;但是在聚类分析、奇异点分析、特征抽取中可以得到较大的应用,例如应用在信用卡欺诈、信贷风险、客户分类、盈利客户特征分析商业模式的识别上。神经元网络在使用时需要很长的圳练时间,因而对有足够长训练时间的应用更为合适。此外,神经元网络对噪声数据具有较高的承受能力。数据仓库与数据挖掘技术(第2版)表6-3神经网络模型的比较数据仓库与数据挖掘技术(第2版)图6.4一个简单的预测贷款拖欠情况的神经网络数据仓库与数据挖掘技术(第2版)图6.5预测树结果数据仓库与数据挖掘技术(第2版)6.2.3遗传算法型挖掘技术1.遗传算法的基本原理图6.6遗传算法处理流程图数据仓库与数据挖掘技术(第2版)2.遗传算法的处理过程1)编码并生成祖先群体2)计算当前基因群体中所有个体的环境适应度3)对适应函数评价每一个体对环境的适应度4)选择适应度好的个体进行复制5)选择适应度好的个体进行复制交叉配对繁殖6)新生代的交叉操作数据仓库与数据挖掘技术(第2版)3.遗传算法的应用遗传算法作为基于生物进化过程的组合优化方法,在数据挖掘中主要用于分类系统中,并且经常与神经网络等数据挖掘技术综合应用。神经元网络在客户的分类中的应用是比较成功的。数据仓库与数据挖掘技术(第2版)表6-4客户的信息组成数据仓库与数据挖掘技术(第2版)表6-5客户群的新基因组成数据仓库与数据挖掘技术(第2版)6.2.4粗糙集挖掘技术1.粗糙集技术数据仓库与数据挖掘技术(第2版)2.粗糙集的应用表6-6流失客户的信息数据仓库与数据挖掘技术(第2版)6.2.5决策树型挖掘技术1.决策树技术数据仓库与数据挖掘技术(第2版)图6-7“是否购买计算机”的决策树数据仓库与数据挖掘技术(第2版)表6-7经过数据预处理的数据记录数据仓库与数据挖掘技术(第2版)6.3知识发现工具与应用6.3.1知识发现工具的系统结构1.无耦合2.松散耦合3.半紧密耦合4.紧密耦合数据仓库与数据挖掘技术(第2版)6.3.2知识发现工具运用中的问题1.数据挖掘技术应用中的共性问题1)数据质量2)数据可视化3)极大数据库4)性能与成本5)商业分析员的技能6)处理数据噪声和不完全数据7)模式评估-兴趣度问题数据仓库与数据挖掘技术(第2版)2.数据挖掘技术应用中的个性问题1)规则归纳应用中的问题2)神经网络应用中的问题3)遗传算法应用中的问题数据仓库与数据挖掘技术(第2版)6.3.3知识挖掘的价值1.了解商业活动2.发现商业异常3.预测未来趋势数据仓库与数据挖掘技术(第2版)6.4数据挖掘技术的发展1.文本挖掘2.可视化数据挖掘3.空间数据挖掘4.分布式数据挖掘数据仓库与数据挖掘技术(第2版)图6-8PADMA体系结构数据仓库与数据挖掘技术(第2版)图6-9CMA体系结构数据仓库与数据挖掘技术(第2版)数据挖掘分析与设计:分组:每班6组,每组5-6人,自由组合,每组选出一个做答辩,答辩PPT要求10页以上,分组答辩前学委交分组名单。讨论内容与题目:组1:教务选课系统数据挖掘的分析与设计组2:图书馆借书系统数据挖掘的分析与设计组3:学生成绩管理系统数据挖掘的分析与设计组4:学生学籍管理系统数据挖掘的分析与设计组5:超市CRM系统数据挖掘的分析与设计组6:股票分析管理数据挖掘的分析与设计数据仓库与数据挖掘技术(第2版)答辩PPT包含以下几个部分:1、前言(1分)2、使用聚集创建数据挖掘模型(4分)3、使用决策树创建挖掘模型(4分)4、结论(1分)

1 / 47
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功