数据挖掘介绍资料

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

2020年2月24日星期一DataMining:ConceptsandTechniques1数据挖掘概念与技术—Chapter1—©JiaweiHanandMichelineKamber2020年2月24日星期一DataMining:ConceptsandTechniques2Chapter1.引言什么激发了数据挖掘,为什么它是重要的?什么是数据挖掘?在何种数据上进行数据挖掘?数据挖掘功能所有模式都是有趣的吗?数据挖掘系统的分类数据挖掘的主要问题2020年2月24日星期一DataMining:ConceptsandTechniques3需要是发明之母数据爆炸问题自动数据收集工具和成熟的数据库技术导致海量数据累积,需要对数据库、数据仓库及其他信息存储设备中的数据进行分析。我们溺死在数据坟墓中,却难以提取有效信息解决方法:数据仓库与数据挖掘数据仓库and联机分析处理(OLAP)在大型数据库数据中挖掘有趣知识(规则,模式,约束)2020年2月24日星期一DataMining:ConceptsandTechniques4数据库技术发展1960s:数据收集,数据创建1970s:关系数据模型,关系数据库管理系统1980s:高级数据模型(扩充关系,面向对象,etc.)面向应用的数据库管理系统(空间的,时间的,知识库,etc.)1990s:数据挖掘,数据仓库,Web数据库2000s面向各种应用的数据挖掘Web技术和全球信息系统2020年2月24日星期一DataMining:ConceptsandTechniques5什么是数据挖掘?数据挖掘(从数据中提取或“挖掘”知识)从大量数据中提取有兴趣(不琐碎的,固有的,先前未知的和潜在有用的)知识数据挖掘:用词不当?同义词数据库中知识挖掘、知识提取、数据/模式分析、数据考古和数据捕捞注意事项:Iseverything“datamining”?查询处理.专家系统或统计程序2020年2月24日星期一DataMining:ConceptsandTechniques6为什么要数据挖掘?—潜在的应用数据分析与决策支持市场分析和管理目标市场,客户关系管理,市场销售分析,交叉销售,市场分割风险分析和管理预测,消费能力,质量控制,竞争力分析欺骗探测和不寻常行为探测其他应用Web挖掘DNA和生物信息挖掘2020年2月24日星期一DataMining:ConceptsandTechniques7市场分析和管理数据来源?信用卡事务,折扣优待卷,客户投诉电话,公众生活方式调查目标市场发现具有相同特征(兴趣、收入状况、消费习惯等)的消费者模式随着时间发展,决定消费者购买的模式交叉市场分析产品间的销售联系,基于这些联系进行预测消费者类型什么样的消费者买什么样的产品(聚类or分类)消费需求分析为不同消费者提供最好产品预测吸引新消费者的因素提供信息总结多维总结报告分析汇总信息(数据集中趋势和变化)2020年2月24日星期一DataMining:ConceptsandTechniques8公司分析&风险管理经费计划与资产评估现金流转分析和预测临时问题分析进行评估资产交叉组合和时间序列分析(财政比率,趋势分析,etc.)资源计划总结、比较资源花费竞争监控竞争者和市场方向划分消费群和基于分类的定价程序制定具有高度市场竞争力的定价策略2020年2月24日星期一DataMining:ConceptsandTechniques9欺骗探测&挖掘不寻常模式方法:聚类进行欺骗模式构造,孤立点分析应用:卫生保健,零售业,信用卡服务.汽车保险:洗钱:可疑金钱事务医疗保险长途通讯零售产业分析显示:38%的零售收缩归咎于不诚实雇员反对恐怖主义2020年2月24日星期一DataMining:ConceptsandTechniques10其他应用运动IBM高级侦察系统统计NBA比赛天文学喷气推进实验所(JPL)与Palomar天文台在数据挖掘帮助下发现22类星体2020年2月24日星期一DataMining:ConceptsandTechniques11数据挖掘:知识发现过程数据挖掘—知识发现过程的核心清理与集成数据库数据仓库选择与转变数据挖掘评估与表示2020年2月24日星期一DataMining:ConceptsandTechniques12知识发现过程步骤:了解应用领域相关前提知识和应用目标数据清理和数据集成:(可能需要付出60%的努力!)数据选择数据变换选择数据挖掘功能特征化、关联、分类、聚类分析以及演变和偏差分析.选择挖掘算法数据挖掘模式评价和知识表达可视化,转换,排除冗余模式,etc.使用发现知识2020年2月24日星期一DataMining:ConceptsandTechniques13数据挖掘和商业智能IncreasingpotentialtosupportbusinessdecisionsEndUserBusinessAnalystDataAnalystDBA决策知识表示VisualizationTechniques数据挖掘InformationDiscovery数据查询OLAP,MDAStatisticalAnalysis,QueryingandReporting数据仓库/数据集市数据源Paper,Files,InformationProviders,DatabaseSystems,OLTP2020年2月24日星期一DataMining:ConceptsandTechniques14结构:典型数据挖掘系统DataWarehouse数据清理数据集成过虑Databases数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库2020年2月24日星期一DataMining:ConceptsandTechniques15在何种数据上进行数据挖掘关系数据库数据仓库事务数据库高级数据库系统和高级数据库应用面向对象数据库对象关系数据库空间数据库时间数据库和时间序列数据库多媒体数据库异种数据库和遗产数据库数据挖掘功能概念/类描述:特征化和区分归纳,总结,对比数据特征,e.g.,dryvs.wetregions关联分析(相关性和因果关系)DiaperBeer[0.5%,75%]分类和预测模型构造:描述和预测类标记未知的对象类例如,基于气候划分国家,基于汽油消耗定额划分汽车表示:判定树,分类规则,神经网络预测空缺或不知道的数据值2020年2月24日星期一DataMining:ConceptsandTechniques17数据挖掘功能(2)聚类分析类标记是未知的:聚类数据以形成新类标记最大化类内的相似性、最小化类间的相似性孤立点分析孤立点:数据对象与数据的一般行为或模型不一致噪声or异常丢掉?不!在欺骗探测,罕见事件分析中有用演变分析趋势和背离连续时间序列数据分析,周期模式匹配分析基于类似性的数据分析2020年2月24日星期一DataMining:ConceptsandTechniques18所有模式都是有趣的吗数据挖掘会生成很多模式:并不是所有模式都是有趣的建议方法:Human-centered,query-based,focusedmining有趣模式易于被人理解;在某种程度上,对于新的或测试数据是有效的;是潜在有用的;是新颖的。客观vs.主观兴趣度度量客观:基于所发现模式的结构和关于它们的统计,e.g.,support,confidence,etc.主观:基于用户对数据的确信,e.g.,unexpectedness,novelty,actionability,etc.2020年2月24日星期一DataMining:ConceptsandTechniques19我们可以发现所有有趣模式吗?发现所有的兴趣模式:完全的数据挖掘系统可以发现所有有趣模式吗?启发式vs.穷举搜索联合vs.分类vs.聚类仅产生有趣的模式:最优化问题数据挖掘系统能仅产生有趣模式吗?方法首先生成所有模式,然后过虑非兴趣模式.仅生成有趣模式—优化数据挖掘查询2020年2月24日星期一DataMining:ConceptsandTechniques20数据挖掘:多学科汇总数据挖掘数据库技术统计学其他学科可视化信息科学机器学习2020年2月24日星期一DataMining:ConceptsandTechniques21数据挖掘:分类方案一般功能描述性数据挖掘预测性数据挖掘不同的观点,不同的分类根据挖掘的数据类型分类根据挖掘的知识类型分类根据所用的技术分类根据应用分类2020年2月24日星期一DataMining:ConceptsandTechniques22数据挖掘多维角度数据来源Relational,datawarehouse,transactional,stream,object-oriented/relational,active,spatial,time-series,text,multi-media,heterogeneous,legacy,知识被挖掘Characterization,discrimination,association,classification,clustering,trend/deviation,outlieranalysis,etc.不同概念层上多种挖掘功能结合运用技术Database-oriented,datawarehouse(OLAP),machinelearning,statistics,visualization,etc.面向应用Retail,telecommunication,banking,fraudanalysis,bio-datamining,stockmarketanalysis,Webmining,etc.2020年2月24日星期一DataMining:ConceptsandTechniques23数据挖掘的主要问题挖掘方法在数据库中挖掘不同知识,e.g.,bio,stream,Web性能:有效性,可伸缩性,并行处理模式评估:兴趣度问题结合背景知识处理噪声和不完全数据整合从已知信息中发现的知识:knowledgefusion用户交互数据挖掘查询语言表示和可视化数据挖掘结果多个抽象层的交互知识挖掘应用和社会影响特定范围数据挖掘应用保护数据安全性,完整性,保密性2020年2月24日星期一DataMining:ConceptsandTechniques24汇总数据挖掘:从大量数据中发现有趣模式数据库技术在大量需求,广泛应用驱动下自然发展知识发现过程:数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示可以在多种信息存储系统上挖掘数据挖掘功能:数据特征化,数据区分,关联,分类,聚类,孤立点和演变分析.数据挖掘系统和结构数据挖掘的主要问题2020年2月24日星期一DataMining:ConceptsandTechniques25Thankyou!!!

1 / 25
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功