数据挖掘软件发展分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

主讲人朱扬勇2一、数据挖掘概念----定义数据挖掘--从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。•数据挖掘与统计学•数据挖掘与人工智能•数据挖掘与数据库技术数据挖掘与KDD3一、数据挖掘概念----原由国民经济和社会的信息化•社会信息化后,社会的运转是软件的运转•社会信息化后,社会的历史是数据的历史因此政府提出“信息化”和“发展软件产业”4一、数据挖掘概念----原由数据挖掘数据库越来越大有价值的知识可怕的数据5一、数据挖掘概念----原由数据爆炸,知识贫乏苦恼:淹没在数据中;不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期6一、数据挖掘概念----发展•1989IJCAI会议:数据库中的知识发现讨论专题–KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)•1991-1994KDD讨论专题–AdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)•1995-1998KDD国际会议(KDD’95-98)–JournalofDataMiningandKnowledgeDiscovery(1997)•1998ACMSIGKDD,SIGKDD’1999-2002会议,以及SIGKDDExplorations•数据挖掘方面更多的国际会议–PAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.7一、数据挖掘概念----技术•技术分类–预言(Predication):用历史预测未来–描述(Description):了解数据中潜在的规律•数据挖掘技术–关联分析–序列模式–分类(预言)–聚集–异常检测8二、数据挖掘软件的发展代特征数据挖掘算法集成分布计算模型数据模型第一代作为一个独立的应用支持一个或者多个算法独立的系统单个机器向量数据第二代和数据库以及数据仓库集成多个算法:能够挖掘一次不能放进内存的数据数据管理系统,包括数据库和数据仓库同质、局部区域的计算机群集有些系统支持对象,文本和连续的媒体数据第三代和预言模型系统集成多个算法数据管理和预言模型系统intranet/extranet网络计算支持半结构化数据和web数据第四代和移动数据/各种计算设备的数据联合多个算法数据管理、预言模型、移动系统移动和各种计算设备普遍存在的计算模型RobertGrossman,NationalCenterforDataMiningUniversityofIllinoisatChicago的观点9二、数据挖掘软件的发展第一代数据挖掘软件•特点–支持一个或少数几个数据挖掘算法–挖掘向量数据(vector-valueddata)–数据一般一次性调进内存进行处理–典型的系统如SalfordSystems公司早期的CART系统()•缺陷–如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。10二、数据挖掘软件的发展第一代数据挖掘软件CBA新加坡国立大学。基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测11二、数据挖掘软件的发展第二代数据挖掘软件•特点–与数据库管理系统(DBMS)集成–支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性–能够挖掘大数据集、以及更复杂的数据集–通过支持数据挖掘模式(dataminingschema)和数据挖掘查询语言增加系统的灵活性–典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作•缺陷–只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发12二、数据挖掘软件的发展第二代数据挖掘软件DBMiner13二、数据挖掘软件的发展第二代软件SASEnterpriseMiner14二、数据挖掘软件的发展第三代数据挖掘软件•特点–和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中–由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能–能够挖掘网络环境下(Internet/Extranet)的分布式和高度异质的数据,并且能够有效地和操作型系统集成•缺陷–不能支持移动环境15二、数据挖掘软件的发展第三代软件SPSSClementine以PMML的格式提供与预言模型系统的接口16二、数据挖掘软件的发展第四代数据挖掘软件•特点–目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。–第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生的各种类型的数据第四代数据挖掘原型或商业系统尚未见报导,PKDD2001上Kargupta发表了一篇在移动环境下挖掘决策树的论文,Kargupta是马里兰巴尔的摩州立大学(UniversityofMarylandBaltimoreCounty)正在研制的CAREER数据挖掘项目的负责人,该项目研究期限是2001年4月到2006年4月,目的是开发挖掘分布式和异质数据(Ubiquitous设备)的第四代数据挖掘系统。17二、数据挖掘软件的发展–第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数据预处理方面有一定缺陷–第三、四代系统强调预言模型的使用和在操作型环境的部署–第二代系统提供数据管理系统和数据挖掘系统之间的有效接口–第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口–目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代系统开发商开始研制相应的第三代数据挖掘系统,比如IBMIntelligentScoreService。第四代数据挖掘原型或商业系统尚未见报导18二、数据挖掘软件的发展数据挖掘软件发展的三个阶段•独立的数据挖掘软件•横向的数据挖掘工具集•纵向的数据挖掘解决方案GregoryPiatetsky-Shapiro的观点19二、数据挖掘软件的发展独立的数据挖掘软件(95年以前)•特点–独立的数据挖掘软件对应第一代系统,出现在数据挖掘技术发展早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软件。–这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,还要负责大量的数据预处理工作。比如C4.5决策树,平行坐标可视化(parallel-coordinatevisualization)。20二、数据挖掘软件的发展横向的数据挖掘工具集(95年开始)•发展原因–随着数据挖掘应用的发展,人们逐渐认识到数据挖掘软件需要和以下三个方面紧密结合:1)数据库和数据仓库;2)多种类型的数据挖掘算法;3)数据清洗、转换等预处理工作。–随着数据量的增加,需要利用数据库或者数据仓库技术进行管理,所以数据挖掘系统与数据库和数据仓库结合是自然的发展。–现实领域的问题是多种多样的,一种或少数数据挖掘算法难以解决–挖掘的数据通常不符合算法的要求,需要有数据清洗、转换等数据预处理的配合,才能得出有价值的模型21二、数据挖掘软件的发展横向的数据挖掘工具集(95年开始)•发展过程–随着这些需求的出现,1995年左右软件开发商开始提供称之为“工具集”的数据挖掘软件•特点–此类工具集的特点是提供多种数据挖掘算法–包括数据的转换和可视化–由于此类工具并非面向特定的应用,是通用的算法集合,可以称之为横向的数据挖掘工具(HorizontalDataMiningTools)–由于此类工具并非面向特定的应用,是通用的算法集合,所以称之为横向的数据挖掘工具–典型的横向工具有IBMIntelligentMiner、SPSS的Clementine、SAS的EnterpriseMiner、SGI的MineSet、OracleDarwin等22二、数据挖掘软件的发展横向的数据挖掘工具集(95年开始)•IBMIntelligentMiner•SPSS的Clementine•SAS的EnterpriseMiner•SGI的MineSet•OracleDarwin23二、数据挖掘软件的发展纵向的数据挖掘解决方案(99年开始)•发展原因–随着横向的数据挖掘工具的使用日渐广泛,人们也发现这类工具只有精通数数据挖掘算法的专家才能熟练使用,如果对算法不了解,难以得出好的模型–从1999年开始,大量的数据挖掘工具研制者开始提供纵向的数据挖掘解决方案(VerticalSolution),即针对特定的应用提供完整的数据挖掘方案–对于纵向的解决方案,数据挖掘技术的应用多数还是为了解决某些特定的难题,而嵌入在应用系统中24二、数据挖掘软件的发展纵向的数据挖掘解决方案(99年开始)–在证券系统中嵌入神经网络预测功能–在欺诈检测系统中嵌入欺诈行为的分类/识别模型–在客户关系管理系统中嵌入客户成簇/分类功能或客户行为分析功能–在机器维护系统中嵌入监/检测或识别难以定性的设备故障功能–在数据库营销中嵌入选择最可能购买产品的客户功能–在机场管理系统中嵌入旅客人数预测、货运优化功能–在基因分析系统中嵌入DNA识别功能–在制造/生产系统中嵌入质量控制功能等25二、数据挖掘软件的发展纵向的数据挖掘解决方案(99年开始)•KD1(主要用于零售业)•Options&Choice(主要用于保险业)•HNC(欺诈行为侦测)•UnicaModel1(主要用于市场营销)26二、数据挖掘软件的发展综合的数据挖掘解决方案(复旦的工作)各行业电子商务网站算法层商业逻辑层行业应用层商业应用商业模型挖掘算法CRM产品推荐客户细分客户流失客户利润客户响应关联规则、序列模式、分类、聚集、神经元网络、偏差分析…WEB挖掘网站结构优化网页推荐商品推荐。。。基因挖掘基因表达路径分析基因表达相似性分析基因表达共发生分析。。。银行电信零售保险制药生物信息科学研究。。。相关行业27三、数据挖掘软件的现状情况概览–2002年9月,Amazon上关于数据挖掘的书有251本()–目前有数百个数据挖掘软件产品()–数据挖掘应用相对广泛28三、数据挖掘软件的现状2001/5/14——2001/5/24(实际)2001/11/26——2001/12/9(预测)29三、数据挖掘软件的现状调查报告(2002.6.3-6.16)30三、数据挖掘软件的现状(国内情况)•大部分处于科研阶段–各大学和科研机构从事数据挖掘算法的研究–国内著作的数据挖掘方面的书较少(翻译的有)–数据挖掘讨论组()•有一些公司在国外产品基础上开发的特定的应用–IBMIntelligentMiner–SASEnterpriseMiner•自主知识产权的数据挖掘软件–复旦德门()等31四、数据挖掘应用调查报告(2002.6.3-6.16)32四、数据挖掘应用•银行–美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9%。–分析客户使用分销渠道的情况和分销渠道的容量;建立利润评测模型;客户关系优化;风险控制等•电子商务–网上商品推荐;个性化网页;自适应网站…•生物制药、基因研究–DNA序列查询和匹配;识别基因序列的共发生性…•电信–欺诈甄别;客户流失…•保险、零售。。。。。。33四、数据挖掘应用数据挖掘客户分析析基分因其他保险客户证券客户银行客户电信客户零售客户•信用卡•储蓄卡•存折•按揭•借贷人类基因植物基因动物基因特殊群体基因•基因序列•基因表达谱•基因功能

1 / 44
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功