数据挖掘概述讲解

hotld
1 ℃
2020-02-22

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第六章数据挖掘概述本章内容数据挖掘的由来数据挖掘的定义数据挖掘的基本概念数据挖掘的主要功能数据挖掘模型和实现流程数据挖掘应用数据挖掘的由来网络之后的下一个技术热点数据爆炸但知识贫乏支持数据挖掘技术的基础从商业数据到商业信息的进化网络之后的下一个技术热点网络时代面临的信息问题：信息过量，难以消化；信息真假难以辨识；信息安全难以保证；信息形式不一致，难以统一处理。“要学会抛弃信息”数据爆炸但知识贫乏数据库的容量已达上万亿水平（T）－－1,000,000,000,000个字节全球信息量以惊人的速度急剧增长－－据估计，每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数据支持数据挖掘技术的基础激发了数据挖掘的开发、应用和研究的兴趣的四个主要技术理由：超大规模数据库的出现，例如商业数据仓库和计算机自动收集的数据记录；强大的多处理器计算机。例如更快和更大的计算能力和并行体系结构；海量数据搜索，对巨大量数据的快速访问；数据挖掘算法。从商业数据到商业信息的进化进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少？”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少？”关系数据库（RDBMS），结构化查询语言（SQL）、Sybase、Informix、IBMOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性、动态数据信息数据仓库；决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少？波士顿据此可得出什么结论？”联机分析处理（OLAP）、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘（正在流行）“下个月波士顿的销售会怎么样？为什么？”高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信息数据挖掘（DataMining)的定义数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。〔技术角度的定义〕数据挖掘可以描述为:按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证己知的规律性，并进一步将其模型化的有效方法。〔商业角度的定义〕数据挖掘相近的同义词包括：数据融合、数据分析和决策支持等。数据挖掘与其他科学的关系DataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearningVisualization实施数据挖掘的目的不再是单纯为了研究，更主要的是为商业决策提供真正有价值的信息，进而获得利润。所有企业面临的一个共同问题是：企业数据量非常大，而其中真正有价值的信息却很少，因此需要从大量的数据中经过深层分析，获得有利于商业运作、提高竞争力的信息，就像从矿石中淘金一样，数据挖掘也由此而得名。数据挖掘的数据源与以前相比有了显著的改变；数据是海量的；数据有噪声；数据可能是非结构化的；传统的数据分析方法基于假设驱动的:一般都是先给出一个假设然后通过数据验证数据挖掘在一定意义上是基于发现驱动的：模式都是通过大量的搜索工作从数据中自动提取出来。即数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就可能越有价值。数据挖掘与传统数据分析方法区别数据挖掘和数据仓库数据挖掘和OLAP完全不同的工具，基于的技术也大相径庭OLAP基于用户假设。whathappened〔查询和报表工具是告诉你数据库中都有什么〕whatnext〔OLAP更进一步告诉你下一步会怎么样〕whatif〔如果我采取这样的措施又会怎么样〕数据挖掘本质上是一个归纳的过程，不是用于验证某个假定的模式（模型）的正确性，而是在数据库中自己寻找模型。数据挖掘和OLAP有一定的互补性。基本概念数据:是指一个有关事实F的集合（如学生档案数据库中有关学生基本情况的各条记录），用来描述事物有关方面的信息。一般而言，这些数据都是准确无误的。信息:是事物运动的状态和状态变化的方式。知识人们实践经验的结晶且为新的实践所证实的；是关于事物运动的状态和状态变化的规律；是对信息加工提炼所获得的抽象化产物。知识的形式可能是模式、关联、变化、异常以及其他有意义的结构。主要功能1.概念/类别描述（Concept/ClassDescription）概念/类别描述是指对数据集做一个简洁的总体性描述并/或描述它与某一对照数据集的差别。例1：我们收集移动电话费月消费额超出1000元的客户资料，然后利用数据挖掘进行分析，获得这类客户的总体性描述：35－50岁，有工作，月收入5000元以上，拥有良好的信用度…；主要功能例2：对比移动电话费月消费额超出1000元的客户群与移动电话费月消费额低于100元的客户群。利用数据挖掘可作出如下描述：移动电话月消费额超出1000元的客户80％以上年龄在35－50岁之间，且月收入5000元以上；而移动电话月消费额低于100元的客户60％以上要么年龄过大要么年龄过小，且月收入2000元以下。主要功能2.关联分析（AssociationAnalysis）从一个项目集中发现关联规则，该规则显示了给定数据集中经常一起出现的属性－值条件元组。例如：关联规则X=Y所表达的含义是满足X的数据库元组很可能满足Y。关联分析在交易数据分析、支持定向市场、商品目录设计和其他业务决策等方面有着广泛的应用。主要功能3.分类与估值（ClassificationandEstimation）分类指通过分析一个类别已知的数据集的特征来建立一组模型，该模型可用以预测类别未知的数据项的类别。该分类模型可以表现为多种形式：分类规则（IF-THEN），决策树或者数学公式，乃至神经网络。估值与分类类似，只不过它要预测的不是类别，而是一个连续的数值。主要功能4.聚类分析（ClusteringAnalysis）聚类分析又称为“同质分组”或者“无监督的分类”，指把一组数据分成不同的“簇”，每簇中的数据相似而不同簇间的数据则距离较远。相似性可以由用户或者专家定义的距离函数加以度量。好的聚类方法应保证不同类间数据的相似性尽可能地小，而类内数据的相似性尽可能地大。主要功能5.时间序列分析（Time-SeriesAnalysis）时间序列分析即预测（Prediction），是指通过对大量时间序列数据的分析找到特定的规则和感兴趣的特性，包括搜索相似序列或者子序列，挖掘序列模式、周期性、趋势和偏差。预测的目的是对未来的情况作出估计。主要功能6.其它功能包括：偏差分析（DeviationAnalysis）、孤立点分析（OutlierAnalysis）等。随着数据挖掘技术的发展，可能还会继续出现新的数据挖掘功能。数据挖掘模型CRISP-DM（CrossIndustryStandardProcessforDataMining）模型,最先在1996年被提出，当前的白皮书版本是1.0。目的是把数据挖掘的过程标准化,使数据挖掘项目的实施速度更快、成本更低、更可靠并且更容易管理。业务理解数据理解数据准备建立模型模型评估系统部署数据业务理解（BusinessUnderstanding）阶段确定业务目标：分析项目的背景，从业务视点分析项目的目标和需求，确定业务角度的成功标准；项目可行性分析：分析拥有的资源，条件和限制，风险估计，成本和效益估计；确定数据挖掘目标：明确确定数据挖掘的目标和成功标准，数据挖掘的目标和业务目标是不一样的，前者指技术上的，例如生成一棵决策树等；提出项目计划：对整个项目做一个计划，初步估计用到的工具和技术。数据理解（DataUnderstanding）阶段收集原始数据：收集本项目所涉及到的数据，如有必要，把数据装入数据处理工具，并作一些初步的数据集成的工作，生成相应报告;描述数据：对数据做一些大致的描述，例如记录数、属性数等，给出相应报告；探索数据：对数据做简单的统计分析，例如关键属性的分布等；检查数据质量：包括数据是否完整、数据是否有错、是否有缺失值等问题。数据准备（DataPreparation）阶段数据选择：根据数据挖掘目标和数据质量选择合适的数据，包括表的选择、记录选择和属性选择；数据清洁：提高选择好的数据的质量，例如去除噪音，估计缺失值等；数据创建：在原有数据的基础上是生成新的属性或记录；数据合并：利用表连接等方式将几个数据集合并在一起；数据格式化：把数据转换成适合数据挖掘处理的格式。建立模型（Modeling）阶段选择建模技术：确定数据挖掘算法和参数，可能会利用多个算法；测试方案设计：设计某种测试模型的质量和有效性的机制；模型训练：在准备好的数据集上运行数据挖掘算法，得出一个或者多个模型；模型测试评估：根据测试方案进行测试，从数据挖掘技术的角度确定数据挖掘目标是否成功。模型评估（Evaluation）阶段结果评估：从商业角度评估得到的模型，甚至实际试用该模型测试其效果；过程回顾：回顾项目的所有流程，确定每一个阶段都没有失误；确定下一步工作：根据结果评估和过程回顾得出的结论，确定是部署该挖掘模型还是从某个阶段开始重新开始。部署（Deployment）阶段部署计划：对在业务运作中部署模型作出计划；监控和维护计划：如何监控模型在实际业务中的使用情况，如何维护该模型；作出最终报告：项目总结，项目经验和项目结果；项目回顾：回顾项目的实施过程，总结经验教训；对数据挖掘的运行效果做一个预测。数据挖掘模型为保证项目的可靠性和可管理性，CRISP-DM规定一个数据挖掘项目应该产生11个报告：业务理解报告原始数据收集报告数据描述报告数据探索报告数据质量报告数据集描述报告模型训练报告模型评估报告部署计划监控和维护计划总结报告通过这些报告，可以有效地控制数据挖掘项目进程，减少开发风险。实现流程原始数据数据模式知识应用准备挖掘解释运用各步骤之间互相影响、反复调整，形成一种螺旋式上升过程。数据准备KDD的处理对象是大量的数据，这些数据一般存储在数据库系统中，是长期积累的结果。但往往不合适直接在这些数据上进行知识挖掘，需要做一些准备工作，也就数据的预处理。数据预处理包括数据的选择（选择相关数据）、净化（消除噪音、冗余数据）、推测（推算缺值数据）、转换（离散型数据与连续型数据之间的转换）、数据缩减（减少数据量）等。数据准备是KDD的第一个步骤，数据准备得好坏将直接影响数据挖掘的效率和准确度以及最终模式的有效性.。数据挖掘数据挖掘是最为关键的步骤，它根据KDD的目标，选取相应算法的参数，分析数据，得到可能形成知识的模式模型。目前采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等。模式的评估、解释通过上面步骤所得到的模式，有可能是没有意义或没有实用价值的，因此需要评估，确定那些是有效的、有用的模式。此外，大部分模式是用数学手段描述的表达式，很难被人理解，还需要将其解释成可理解的方式以呈现给用户。知识运用发现知识是为了运用，如何使知识能被运用也是KDD的步骤之一。运用知识有两种方法：一种是只需看知识本身所描述的关系或结果，就可以对决策提供支持；一种是要求对新的数据运用知识，由此可能产生新的问题，而需要对知识做进一步的优化。KDD过程可能需要多次的循环反复，每一个步骤一旦与预期目标不符，都要回到前面的步骤，重新调整，重新执行。实现流程数据挖掘过程的分步实现,不同的步骤需要不同的专业人员参与完成,大体分为三类：1）业务分析人员：要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。2