数据挖掘技术(DataMining)注意事项强调讨论、交流、互动强调掌握内容的实质有问题及时发问主要讨论内容数据挖掘的提出相关的基本概念应用驱动力技术驱动力数据挖掘基本概念数据挖掘的应用数据挖掘基本步骤数据挖掘的技术概览数据挖掘的研究方向数据、信息、知识、理解和先知系统学专家RussellAckoff博士认为人类大脑中包涵的内容,可以分为五类:数据(Data):符号(Symbols)的集合,未加工的、较为原始的形态信息(Information):数据经过处理后,有意义的,具有利用价值的,能够回答4W为(“who”,“what”,“where”,and“when”)等问题。知识(Knowledge):数据和信息的进一步应用,能够回答“how”的问题理解(Understanding):“why”的正确评价先知(Wisdom):理解的进一步提升数据、信息、知识和先知的关系数据挖掘的提出两个方面应用需求驱动技术发展驱动知识经济时代需要“知本”在过去的三百年中,我们经历了不同的经济时代依赖于自然资源的经济时代生产资本型经济时代金融资本主导的经济时代知识经济时代其主要的资本是“知本”(Know-how),如:企业对客户需求的认识、市场需求、市场分类、正确定价数据极大丰富,知识极其匮乏一大批信息系统投入运行,为企事业的发展作出了巨大贡献各类信息系统大多属于OLTP类型或OA系统系统运行多年,积累了大量的数据,“数据爆炸”问题数据是一种宝贵的资源,没有充分发挥作用解决方案:数据仓库、联机分析处理和数据挖掘技术数据、信息和知识数据信息知识数据仓库和联机分析处理技术对大量的数据进行有效的集成,面向主题组织数据,按照多维数据模型,对数据进行多维多层次的分析数据挖掘技术从大的数据集合中,智能和自动地抽取感兴趣的知识(规则、规律、模式、约束等)数据库技术的发展1960s:数据采集、数据库创建阶段集中于原始文件的处理层次数据库和网状数据库1970s:关系数据库管理系统关系数据模型和关系数据库管理系统E-R模型、SQL语言、查询处理和优化、OLTP(恢复和并发技术)1980s:高级数据库管理系统面向对象数据库、对象-关系数据库、主动数据库、演绎数据库、模糊数据库、空间数据库、时空数据库、统计数据库数据挖掘技术1990s:数据仓库、联机分析处理和数据挖掘数据仓库、联机分析处理和数据挖掘,多媒体数据库,Web数据库、DataStream数据仓库、联机分析处理和数据挖掘1992,Inmon数据仓库的概念1993,E.F.CoddOLAP的概念•大量的业务系统•大量的数据•OLTP系统智能分析决策分析性环境与操作型环境相分离OLAP与OLTP相区分1980’s,数据库中的知识发现(KDD)数据挖掘的概念主要讨论内容数据挖掘的提出数据挖掘基本概念数据挖掘基本步骤数据挖掘的应用数据挖掘的技术概览数据挖掘的研究方向“啤酒”和“尿布”一则广为流传的案例:啤酒和尿布的故事美国加州某个超市连锁店发现:在下班后前来购买婴儿尿布的顾客多数是男性,他们往往也同时购买啤酒。处理:重新布置了货架,啤酒类商品、婴儿尿布、土豆片之类的佐酒小食品、男士们日常生活用品就近布置。结果:上述几种商品的销量几乎马上成倍增长。什么是数据挖掘?在早期的文献中,对知识发现有多种不尽相同的定义,甚至使用了不同的名称,如数据库中的知识挖掘(KDD)、知识抽取、数据考古学(archaeology)、数据捕捞(dredging)、数据分析、……等等。在早期文献中,认为“数据挖掘,也称为数据库中的知识发现,是从数据库中的数据抽取隐含的(implicit)、未知的(previouslyunknown)和潜在有用的(potentiallyuseful)信息(如知识规则、约束和规律等)的非平凡的过程。”-G.Piatetsky-ShapiroandW.J.Frawley.KnowledgeDiscoveryinDatabases.AAAI/MITPress,1991.数据挖掘基本概念数据库中的知识发现是识别数据中有效的、新颖的、潜在有用的和最终可被理解的模式(Pattern)的非平凡过程。—U.M.Fayyad,G.Piatetsky-Shapiro,andP.Smyth.Fromdataminingtoknowledgediscovery:anoverview.InAdvancesinKnowledgeDiscoverandDataMining,AAAI/MITPress,pp.1-30.数据挖掘(datamining)是KDD过程的一个步骤,它是在现实可接受的计算效率限制下,应用数据分析和发现算法,在数据的基础上,对模式的特定枚举。—U.M.Fayyad,G.Piatetsky-Shapiro,andP.Smyth.Knowledgediscoveryanddatamining:towardsaunifyingframework.InProc.2ndInt’lConf.onKnowledgeDiscoveryandDataMining.MenloPark,1996,pp.82感兴趣的模式模式是指从数据中抽取的模式或模型。而KDD过程则是对数据库加以必要的选择、预处理、抽样和变换,应用数据挖掘方法(算法)枚举模式,并评价数据挖掘的结果以确定所枚举的模式中的子集,这些子集被称为知识。感兴趣的模式有效(Valid):该模式具有足够的通用性,即对于新数据该模式同样适用新颖(Novel):该模式是深层次的,事先无法预料到的潜在有用(PotentiallyUseful):该模式可以指导一些有效的行为,不仅仅是检索有效的新颖的模式,可以指导决策人员进行科学决策最终可被理解(UltimatelyUnderstandable):该模式最终是可以解释的多学科交叉的领域数据挖掘数据库技术人工智能机器学习统计学神经网络模式识别知识库系统知识获取信息检索高性能计算数据可视化数据挖掘技术的技术支柱数据库技术人工智能(机器学习)技术数理统计数据挖掘技术的技术支柱(续)数据库技术数据库技术自70年代以来一直受到应用的青睐数据库中的数据管理就足够了吗?目前的发展数据库管理系统的扩展特种数据库:演绎数据库、归纳数据库、模糊数据库数据仓库和数据挖掘数据挖掘技术的技术支柱(续)人工智能、专家系统和神经网络技术专家系统实质上是一个问题求解系统理论工具是基于谓词演算的机器定理证明技术——二阶演绎系统存在的主要问题从领域专家那里获取知识,进行知识归纳,过程复杂,同时交互过程,有很强的个性和随机性。知识获取是专家系统研究中的瓶颈。用if-then等类的规则表达从领域专家那里获得的知识,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,知识表示又成为一大难题。现有的专家系统对常识和百科知识出奇地贫乏,而人类专家的知识是以拥有大量常识为基础的发展:开始着手基于案例的推理,不再满足自己构造的小样本学习模式的象牙塔,开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,也走上了数据挖掘的道路。数据挖掘技术的技术支柱(续)数理统计技术数理统计是应用数学中最重要、最活跃的学科之一,迄今已有几百年的发展历史。强大有效的数理统计方法和工具,已成为信息咨询业的基础数理统计技术需要与数据库技术紧密结合数据库查询语言SQL中的聚合函数功能极其简单一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力以数理统计工具和可视化计算闻名的美国SAS公司,领先进入数据挖掘的行列,就是一个很好的实证。主要讨论内容数据挖掘的提出数据挖掘基本概念数据挖掘技术的应用数据挖掘基本步骤数据挖掘的技术概览数据挖掘的研究方向数据挖掘技术的应用领域科学研究市场营销风险管理产品制造通信网络……科学研究领域卫星遥感SKICAT(SkyImageCatalogingandAnalysisTool):它是美国加州理工学院喷气推进实验室与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。SKICAT既是第一个获得相当成功的数据挖掘应用,也是人工智能技术在天文学和空间科学上第一批成功应用之一。生物信息:主要应用在基因工程研究基因表达路径分析基因表达相似性分析基因表达共发生分析市场营销目标市场分析市场营销效果分析交叉销售分析客户关系管理客户分类分析客户行为分析客户满意度分析客户忠诚度分析风险分析现金流分析与预测金融投资(信贷)客户欺诈行为分析通过总结正常行为和诈骗行为之间的关系,得到诈骗行为的一些特性主要讨论内容数据挖掘的提出数据挖掘基本概念数据挖掘技术的应用数据挖掘基本步骤数据挖掘的技术概览数据挖掘的研究方向数据挖掘的基本过程好的计划才能保证有条不紊的实施并取得成功一些软件供应商和用户组织成立了行业协会,试图建立跨行业数据挖掘过程标准(CRISP-DM)NCRSystemsEngineeringCopenhagen(丹麦)Daimler-BenzAG(德国)SPSS/InternalSolutionsLtd.(英国)OHRAVerzekeringenenBankGrepB.V(荷兰)……软件厂商提出的数据挖掘过程SPSS的5A评估(Assess)访问(Access)分析(Analyze)行动(Act)自动化(Automate)SAS的SEMMA采样(Sample)探索(Explore)修正(Modify)建模(Model)评估(Assess)知识发现的基本过程数据挖掘是知识发现的核心数据清理数据集成数据库数据仓库与任务相关数据的选取数据挖掘模式评价定义商业模型KDD处理的基本步骤定义商业模型了解业务是最为重要的一步了解任务的背景知识,清晰明确定义要解决的问题,为挖掘准备数据服务有效的问题定义还包含一个对知识发现项目得到结果进行衡量的标准还包括整个项目预算和理性的解释KDD处理的基本步骤(续)数据准备(DataPreparation):50%-90%确定、了解数据源数据收集数据描述数据选择:从数据源中选择部分相关的数据数据清理与预处理数据质量评估数据集成:建立统一的数据视图数据缩减和预分析:缩小数据范围;对数据进行细致地观察和预处理构建元数据加载数据挖掘库KDD处理的基本步骤(续)数据挖掘(DataMining)选择数据挖掘的方式:预测、描述选择数据挖掘的算法进行数据挖掘:获取感兴趣的模式知识表达(挖掘结果的表述)分析结果以用户便于理解的方式提供给用户利用可视化工具某些分析结果可以存储在知识库中,供以后进一步分析模式评估对分析结果进行评价(是否满意),对结果予以解释递归执行上述过程,提高分析的质量,直到满意为止。知识应用KDD处理的基本步骤(续)数据挖掘系统的典型结构知识库数据清理和综合信息滤取数据库或数据仓库引擎数据挖掘引擎模式评价图形化的用户接口(GUI)数据库数据仓库主要讨论内容数据挖掘的提出数据挖掘基本概念数据挖掘技术的应用数据挖掘基本步骤数据挖掘的技术概览数据挖掘的研究方向数据挖掘技术的要求处理各种的数据类型具有高性能和高可扩展性(scalability)的数据挖掘算法数据挖掘结果的有用性和确定性不同的数据挖掘结果的表示在不同的抽象层次上进行交互的挖掘从不同的数据源中挖掘信息保护隐私和数据安全不同角度的数据挖掘分类针对的数据源不同关系数据库、对象数据库、空间数据库、时序数据库、文档数据库、多媒体数据库、Web等采用的不同的分析方法关联分析、分类分析、聚类分析、趋势分析、偏差分析以及异常点分析等采用的不同技术利用数据库或数据仓库的方