数据挖掘技术.

shancuilv
1 ℃
2019-12-25

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

数据挖掘技术数据挖掘的由来背景网络之后的下一个技术热点数据爆炸但知识贫乏从商业数据到商业信息的进化1.背景人类已进入一个崭新的信息时代数据库中存储的数据量急剧膨胀全球信息量以惊人的速度急剧增长目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。产生了一个新的研究方向：基于数据库的知识发现（KnowledgeDiscoveryinDatabase），以及相应的数据挖掘（DataMining）理论和技术的研究随着大数据库的建立和海量数据的不断涌现，必然提出对强有力的数据分析工具的迫切需求。但现实情况往往是“数据十分丰富，而信息相当贫乏。”快速增长的海量数据收集、存放在大型数据库中，没有强有力的工具，理解它们已经远远超出人的能力。因此，有人称之为：“数据坟墓”。由于专家系统工具过分依赖用户或专家人工地将知识输入知识库中，而且分析结果往往带有偏差和错误，再加上耗时、费用高，故不可行。数据矿山信息金块数据挖掘工具2.网络之后的下一个技术热点大量信息在给人们带来方便的同时也带来了一大堆问题：信息过量，难以消化信息真假难以辨识信息安全难以保证信息形式不一致，难以统一处理3.数据爆炸但知识贫乏随着数据库技术的迅速发展以及数据库管理系统的广泛应用，人们积累的数据越来越多。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段，导致了“数据爆炸但知识贫乏”的现象。4.从商业数据到商业信息的进化进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少？”计算机、磁带和磁盘IBMCDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少？”关系数据库(RDBMS)结构化查询语言(SQL)ODBCOracleSybaseInformixIBMMicrosoft在记录级提供历史性的、动态数据信息数据仓库决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少？波士顿据此可得出什么结论？”联机分析处理(OLAP)多维数据库数据仓库PilotComshareArborCognosMicrostrategy在各种层次上提供回溯的、动态的数据信息数据挖掘（正在流行）“下个月波士顿的销售会怎么样？为什么？”高级算法多处理器计算机海量数据库PilotLockheedIBMSGI其他初创公司提供预测性的信息KDD的出现数据挖掘是八十年代投资AI研究项目失败后，AI转入实际应用时提出的。它是一个新兴的，面向商业应用的AI研究。基于数据库的知识发现（KDD）一词首次出现在1989年举行的第十一届AAAI学术会议上。1995年在加拿大蒙特利尔召开了第一届KDD国际学术会议（KDD’95）。由KluwersPublishers出版，1997年创刊的《KnowledgeDiscoveryandDataMining》是该领域中的第一本学术刊物。KDD的出现随后，在1991年、1993年和1994年都举行KDD专题讨论会，汇集来自各个领域的研究人员和应用开发者，集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初，数据挖掘是作为KDD中利用算法处理数据的一个步骤，其后逐渐演变成KDD的同义词。数据挖掘数据库技术统计学高性能计算人工智能机器学习可视化数据挖掘是多学科的产物KDD已经成为人工智能研究热点目前，关于KDD的研究工作已经被众多领域所关注，如过程控制、信息管理、商业、医疗、金融等领域。作为大规模数据库中先进的数据分析工具，KDD的研究已经成为数据库及人工智能领域研究的一个热点。B.数据挖掘的应用电信：流失银行：聚类（细分）,交叉销售百货公司/超市：购物篮分析（关联规则）保险：细分，交叉销售，流失（原因分析）信用卡：欺诈探测，细分电子商务：网站日志分析税务部门：偷漏税行为探测警察机关：犯罪行为分析医学：医疗保健英国电信需要发布一种新的产品，需要通过直邮的方式向客户推荐这种产品。。。。。。使直邮的回应率提高了100％电信GUS日用品零售商店需要准确的预测未来的商品销售量，降低库存成本。。。。。。通过数据挖掘的方法使库存成本比原来减少了3.8%零售商店美国国内税务局需要提高对纳税人的服务水平合理安排税务官的工作，为纳税人提供更迅捷、更准确的服务税务局银行金融事务需要搜集和处理大量的数据，由于银行在金融领域的地位、工作性质、业务特点以及激烈的市场竞争决定了它对信息化、电子化比其它领域有更迫切的要求。利用数据挖掘技术可以帮助银行产品开发部门描述客户以往的需求趋势，并预测未来。美国商业银行是发达国家商业银行的典范，许多地方值得我国学习和借鉴。数据挖掘在银行领域的应用美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9％。分析客户使用分销渠道的情况和分销渠道的容量；建立利润评测模型；客户关系优化；风险控制等数据挖掘和知识发现数据挖掘（DataMining）从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与之相似的概念称为知识发现。知识发现（KnowledgeDiscoveryinDatabases）是用数据库管理系统来存储数据，用机器学习的方法来分析数据，挖掘大量数据背后隐藏的知识，称为数据库中的知识发现。数据挖掘和数据仓库大部分情况下，数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中。从数据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数据清理和数据挖掘的数据清理差不多，如果数据在导入数据仓库时已经清理过，那很可能在做数据挖掘时就没必要再清理一次了，而且所有的数据不一致的问题都已经解决了。数据挖掘与信息处理信息处理基于查询，可以发现有用的信息。但是这种查询的回答反映的是直接存放在数据库中的信息。它们不反映复杂的模式，或隐藏在数据库中的规律。4.数据挖掘与联机分析OLAP分析过程在本质上是一个演绎推理的过程，是决策支持领域的一部分。数据挖掘在本质上是一个归纳推理的过程。数据挖掘和OLAP具有一定的互补性。数据挖掘与人工智能、统计学一些新兴的技术同样在知识发现领域取得了很好的效果，如神经元网络和决策树，在足够多的数据和计算能力下，它们几乎不需人工干预就能自动完成许多有价值的功能。数据挖掘就是充分利用了统计学和人工智能技术的应用程序，并把这些高深复杂的技术封装起来，使人们不用自己掌握这些技术也能完成同样的功能，并且更专注于自己所要解决的问题。数据挖掘与统计学数据挖掘分析海量数据许多数据库都不适合统计学分析需要1.数据挖掘的定义数据挖掘是从大量数据中提取或“挖掘”知识。与数据挖掘类似但稍有不同含义的术语有：从数据库中发现知识（KnowledgeDiscoveryfrom/inDatabase,KDD）知识提取（Knowledgeextract）数据/模式分析（Data/Modelanalysis）。数据考古数据捕捞技术上的定义商业角度的定义技术上的定义数据挖掘（DataMining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。商业角度的定义数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。数据挖掘的定义（续）人们给数据挖掘下过很多定义，内涵也各不相同，目前公认的定义是由Fayyad等人提出的。所谓基于数据库的知识发现（KDD）是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。数据挖掘的数据来源关系数据库数据仓库事务数据库高级数据库系统和高级数据库应用面向对象数据库空间数据库时间数据库和时间序列数据库文本数据库和多媒体数据库异种数据库数据挖掘过程数据挖掘是一个反复迭代的人机交互处理过程。该过程需要经历多个步骤，并且很多决策需要由用户提供。从宏观上看，数据挖掘过程主要由三个部分组成，即数据整理、数据挖掘和结果的解释评估。数据挖掘功能数据挖掘任务有两类：第一类是描述性挖掘任务：刻划数据库中数据的一般特性；第二类是预测性挖掘任务：在当前数据上进行推断，以进行预测。概念/类描述：特征化和区分概念/类描述(class/conceptdescription)：用汇总的、简洁的、精确的方式描述每个类和概念。数据特征化(datacharacterization)：是目标类数据的一般特征或特性的汇总。其中数据特征的输出形式有：饼图、条图、曲线、多维数据立方体、多维表等。数据区分(Datadiscrimination)：是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。关联分析（1）定义：关联分析(associationanalysis)：发现关联规则，这些规则展示“属性—值”频繁地在给定数据集中一起出现的条件。关联规则(associationrule)：“XY”，即A1A2AmB1B2Bn关联规则分为两类：一类是“多维关联规则”（multi-dimensionalassociationrule）；另一类是“单维关联规则”(single-dimensionalassociationrule)。（2）实例age(x,“20..29”)income(X,“20K..29K”)buys(X,“CD_player”)[support=2%,confidence=60%]有效的知识发现系统为使知识发现系统更加有效，有几个软、硬件问题需要强调：为使数据服务更加详尽，必须研究基础的体系结构、算法和数据结构。解决存储管理中的新问题，开发有效的存储机制。高层次的查询语言成为重要的研究课题。描述多维对象的可视化工具在知识表示中将起重要作用。可视化数据挖掘数据可视化数据挖掘结果可视化数据挖掘处理过程可视化交互式的可视化挖掘VisualizationofassociationrulesinMineSet3.0交互式的可视化挖掘数据挖掘工具目前，世界上比较有影响的典型数据挖掘系统有：•SAS公司的EnterpriseMiner•IBM公司的IntelligentMiner•SGI公司的SetMiner•SPSS公司的Clementine•Sybase公司的WarehouseStudio•RuleQuestResearch公司的See5•还有CoverStory、EXPLORA、KnowledgeDiscoveryWorkbench、DBMiner、Quest等。B.数据挖掘过程步骤步骤名称描述1数据仓库DataWarehouse数据仓库管理用于决策支持的数据。在该步骤内，数据从操作型系统以及第三方的数据源聚集、清洗、以及转换到数据仓库中，供决策分析使用。2数据挖掘DataMining在这个步骤中，数据从数据仓库抽取出来，用来产生预测模型或者规则集。该步骤可以自动化。3预测模型PredictiveModeling在该步骤内，为了产生一个优化的模型，一个或多个预测模型被选择或者联合。这些预测模型可能从数据挖掘系统产生，也可能从统计模型中产生，或者通过第三方购买。4预测记分PredictiveScoring在这个步骤中，选择的预测模型对操作型数据或者交易数据进行记分（score）。①数据挖掘系统结构数据仓库数据清洗和集成过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评价图形用户接口知识库粗糙集（RoughSet）粗糙集理论是波兰数学家Z.Pawlak于1982年提出的，是一种新的处理含糊性（Vaguenes