数据挖掘基本概念

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据挖掘技术(DataMining)注意事项强调讨论、交流、互动强调掌握内容的实质有问题及时发问主要讨论内容数据挖掘的提出相关的基本概念应用驱动力技术驱动力数据挖掘基本概念数据挖掘的应用数据挖掘基本步骤数据挖掘的技术概览数据挖掘的研究方向数据、信息、知识、理解和先知系统学专家RussellAckoff博士认为人类大脑中包涵的内容,可以分为五类:数据(Data):符号(Symbols)的集合,未加工的、较为原始的形态信息(Information):数据经过处理后,有意义的,具有利用价值的,能够回答4W为(“who”,“what”,“where”,and“when”)等问题。知识(Knowledge):数据和信息的进一步应用,能够回答“how”的问题理解(Understanding):“why”的正确评价先知(Wisdom):理解的进一步提升数据、信息、知识和先知的关系数据挖掘的提出两个方面应用需求驱动技术发展驱动知识经济时代需要“知本”在过去的三百年中,我们经历了不同的经济时代依赖于自然资源的经济时代生产资本型经济时代金融资本主导的经济时代知识经济时代其主要的资本是“知本”(Know-how),如:企业对客户需求的认识、市场需求、市场分类、正确定价数据极大丰富,知识极其匮乏一大批信息系统投入运行,为企事业的发展作出了巨大贡献各类信息系统大多属于OLTP类型或OA系统系统运行多年,积累了大量的数据,“数据爆炸”问题数据是一种宝贵的资源,没有充分发挥作用解决方案:数据仓库、联机分析处理和数据挖掘技术数据、信息和知识数据信息知识数据仓库和联机分析处理技术对大量的数据进行有效的集成,面向主题组织数据,按照多维数据模型,对数据进行多维多层次的分析数据挖掘技术从大的数据集合中,智能和自动地抽取感兴趣的知识(规则、规律、模式、约束等)数据库技术的发展1960s:数据采集、数据库创建阶段集中于原始文件的处理层次数据库和网状数据库1970s:关系数据库管理系统关系数据模型和关系数据库管理系统E-R模型、SQL语言、查询处理和优化、OLTP(恢复和并发技术)1980s:高级数据库管理系统面向对象数据库、对象-关系数据库、主动数据库、演绎数据库、模糊数据库、空间数据库、时空数据库、统计数据库数据挖掘技术1990s:数据仓库、联机分析处理和数据挖掘数据仓库、联机分析处理和数据挖掘,多媒体数据库,Web数据库、DataStream数据仓库、联机分析处理和数据挖掘1992,Inmon数据仓库的概念1993,E.F.CoddOLAP的概念•大量的业务系统•大量的数据•OLTP系统智能分析决策分析性环境与操作型环境相分离OLAP与OLTP相区分1980’s,数据库中的知识发现(KDD)数据挖掘的概念主要讨论内容数据挖掘的提出数据挖掘基本概念数据挖掘基本步骤数据挖掘的应用数据挖掘的技术概览数据挖掘的研究方向“啤酒”和“尿布”一则广为流传的案例:啤酒和尿布的故事美国加州某个超市连锁店发现:在下班后前来购买婴儿尿布的顾客多数是男性,他们往往也同时购买啤酒。处理:重新布置了货架,啤酒类商品、婴儿尿布、土豆片之类的佐酒小食品、男士们日常生活用品就近布置。结果:上述几种商品的销量几乎马上成倍增长。什么是数据挖掘?在早期的文献中,对知识发现有多种不尽相同的定义,甚至使用了不同的名称,如数据库中的知识挖掘(KDD)、知识抽取、数据考古学(archaeology)、数据捕捞(dredging)、数据分析、……等等。在早期文献中,认为“数据挖掘,也称为数据库中的知识发现,是从数据库中的数据抽取隐含的(implicit)、未知的(previouslyunknown)和潜在有用的(potentiallyuseful)信息(如知识规则、约束和规律等)的非平凡的过程。”-G.Piatetsky-ShapiroandW.J.Frawley.KnowledgeDiscoveryinDatabases.AAAI/MITPress,1991.数据挖掘基本概念数据库中的知识发现是识别数据中有效的、新颖的、潜在有用的和最终可被理解的模式(Pattern)的非平凡过程。—U.M.Fayyad,G.Piatetsky-Shapiro,andP.Smyth.Fromdataminingtoknowledgediscovery:anoverview.InAdvancesinKnowledgeDiscoverandDataMining,AAAI/MITPress,pp.1-30.数据挖掘(datamining)是KDD过程的一个步骤,它是在现实可接受的计算效率限制下,应用数据分析和发现算法,在数据的基础上,对模式的特定枚举。—U.M.Fayyad,G.Piatetsky-Shapiro,andP.Smyth.Knowledgediscoveryanddatamining:towardsaunifyingframework.InProc.2ndInt’lConf.onKnowledgeDiscoveryandDataMining.MenloPark,1996,pp.82感兴趣的模式模式是指从数据中抽取的模式或模型。而KDD过程则是对数据库加以必要的选择、预处理、抽样和变换,应用数据挖掘方法(算法)枚举模式,并评价数据挖掘的结果以确定所枚举的模式中的子集,这些子集被称为知识。感兴趣的模式有效(Valid):该模式具有足够的通用性,即对于新数据该模式同样适用新颖(Novel):该模式是深层次的,事先无法预料到的潜在有用(PotentiallyUseful):该模式可以指导一些有效的行为,不仅仅是检索有效的新颖的模式,可以指导决策人员进行科学决策最终可被理解(UltimatelyUnderstandable):该模式最终是可以解释的多学科交叉的领域数据挖掘数据库技术人工智能机器学习统计学神经网络模式识别知识库系统知识获取信息检索高性能计算数据可视化数据挖掘技术的技术支柱数据库技术人工智能(机器学习)技术数理统计数据挖掘技术的技术支柱(续)数据库技术数据库技术自70年代以来一直受到应用的青睐数据库中的数据管理就足够了吗?目前的发展数据库管理系统的扩展特种数据库:演绎数据库、归纳数据库、模糊数据库数据仓库和数据挖掘数据挖掘技术的技术支柱(续)人工智能、专家系统和神经网络技术专家系统实质上是一个问题求解系统理论工具是基于谓词演算的机器定理证明技术——二阶演绎系统存在的主要问题从领域专家那里获取知识,进行知识归纳,过程复杂,同时交互过程,有很强的个性和随机性。知识获取是专家系统研究中的瓶颈。用if-then等类的规则表达从领域专家那里获得的知识,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,知识表示又成为一大难题。现有的专家系统对常识和百科知识出奇地贫乏,而人类专家的知识是以拥有大量常识为基础的发展:开始着手基于案例的推理,不再满足自己构造的小样本学习模式的象牙塔,开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,也走上了数据挖掘的道路。数据挖掘技术的技术支柱(续)数理统计技术数理统计是应用数学中最重要、最活跃的学科之一,迄今已有几百年的发展历史。强大有效的数理统计方法和工具,已成为信息咨询业的基础数理统计技术需要与数据库技术紧密结合数据库查询语言SQL中的聚合函数功能极其简单一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力以数理统计工具和可视化计算闻名的美国SAS公司,领先进入数据挖掘的行列,就是一个很好的实证。主要讨论内容数据挖掘的提出数据挖掘基本概念数据挖掘技术的应用数据挖掘基本步骤数据挖掘的技术概览数据挖掘的研究方向数据挖掘技术的应用领域科学研究市场营销风险管理产品制造通信网络……科学研究领域卫星遥感SKICAT(SkyImageCatalogingandAnalysisTool):它是美国加州理工学院喷气推进实验室与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。SKICAT既是第一个获得相当成功的数据挖掘应用,也是人工智能技术在天文学和空间科学上第一批成功应用之一。生物信息:主要应用在基因工程研究基因表达路径分析基因表达相似性分析基因表达共发生分析市场营销目标市场分析市场营销效果分析交叉销售分析客户关系管理客户分类分析客户行为分析客户满意度分析客户忠诚度分析风险分析现金流分析与预测金融投资(信贷)客户欺诈行为分析通过总结正常行为和诈骗行为之间的关系,得到诈骗行为的一些特性主要讨论内容数据挖掘的提出数据挖掘基本概念数据挖掘技术的应用数据挖掘基本步骤数据挖掘的技术概览数据挖掘的研究方向数据挖掘的基本过程好的计划才能保证有条不紊的实施并取得成功一些软件供应商和用户组织成立了行业协会,试图建立跨行业数据挖掘过程标准(CRISP-DM)NCRSystemsEngineeringCopenhagen(丹麦)Daimler-BenzAG(德国)SPSS/InternalSolutionsLtd.(英国)OHRAVerzekeringenenBankGrepB.V(荷兰)……软件厂商提出的数据挖掘过程SPSS的5A评估(Assess)访问(Access)分析(Analyze)行动(Act)自动化(Automate)SAS的SEMMA采样(Sample)探索(Explore)修正(Modify)建模(Model)评估(Assess)知识发现的基本过程数据挖掘是知识发现的核心数据清理数据集成数据库数据仓库与任务相关数据的选取数据挖掘模式评价定义商业模型KDD处理的基本步骤定义商业模型了解业务是最为重要的一步了解任务的背景知识,清晰明确定义要解决的问题,为挖掘准备数据服务有效的问题定义还包含一个对知识发现项目得到结果进行衡量的标准还包括整个项目预算和理性的解释KDD处理的基本步骤(续)数据准备(DataPreparation):50%-90%确定、了解数据源数据收集数据描述数据选择:从数据源中选择部分相关的数据数据清理与预处理数据质量评估数据集成:建立统一的数据视图数据缩减和预分析:缩小数据范围;对数据进行细致地观察和预处理构建元数据加载数据挖掘库KDD处理的基本步骤(续)数据挖掘(DataMining)选择数据挖掘的方式:预测、描述选择数据挖掘的算法进行数据挖掘:获取感兴趣的模式知识表达(挖掘结果的表述)分析结果以用户便于理解的方式提供给用户利用可视化工具某些分析结果可以存储在知识库中,供以后进一步分析模式评估对分析结果进行评价(是否满意),对结果予以解释递归执行上述过程,提高分析的质量,直到满意为止。知识应用KDD处理的基本步骤(续)数据挖掘系统的典型结构知识库数据清理和综合信息滤取数据库或数据仓库引擎数据挖掘引擎模式评价图形化的用户接口(GUI)数据库数据仓库主要讨论内容数据挖掘的提出数据挖掘基本概念数据挖掘技术的应用数据挖掘基本步骤数据挖掘的技术概览数据挖掘的研究方向数据挖掘技术的要求处理各种的数据类型具有高性能和高可扩展性(scalability)的数据挖掘算法数据挖掘结果的有用性和确定性不同的数据挖掘结果的表示在不同的抽象层次上进行交互的挖掘从不同的数据源中挖掘信息保护隐私和数据安全不同角度的数据挖掘分类针对的数据源不同关系数据库、对象数据库、空间数据库、时序数据库、文档数据库、多媒体数据库、Web等采用的不同的分析方法关联分析、分类分析、聚类分析、趋势分析、偏差分析以及异常点分析等采用的不同技术利用数据库或数据仓库的方

1 / 48
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功