数据挖掘中关联规则应用改进的研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

对外经济贸易大学硕士学位论文数据挖掘中关联规则应用改进的研究姓名:隋涤难申请学位级别:硕士专业:产业经济学指导教师:陈恭和200504012论文提要随着市场竞争的日益激烈,企业越来越意识到信息对于企业决策的重要性,企业的高管人员不能仅凭经验或者直觉来决定企业发展问题,同时,企业多年信息化的发展,积累了相当数量的数据资源,为科学决策提供了坚实的数据基础,因此数据挖掘的出现不仅仅是企业信息化的延伸,也是企业自身发展的需要。本文对数据挖掘中关联规则的应用进行了研究和改进。首先,分析了数据挖掘的现状,重点分析了国内外目前相关领域的发展动态以及数据挖掘在各个行业中应用的情况。其次,明确关联规则是数据挖掘的一个分支,重点是对单维布尔关联规则的挖掘、多层次关联规则的挖掘、多维关联规则的挖掘进行了细致的研究。在此基础上,针对挖掘单维布尔关联规则的Apriori规则在应用上可能出现的问题,提出Apriori规则应用改进方法;针对多层次关联规则存在的冗余问题,提出在挖掘关联规则的过程中商业人员的参与是消除冗余问题的根本保证;此外,本文在支持度和信任度的基础上借助相关性分析,引出新的阈值-相关度。针对关联规则应用改进的研究成果,结合主流设计模式,提出数据挖掘系统解决方案,该方案分析了系统的关键技术,其中改进后的关联规则应用是核心。昀后,对本文的研究成果进行了总结,展望了数据挖掘未来的五个发展方向,以及笔者正在从事的研究课题。关键字:关联规则数据挖掘相关度支持度信任度3AbstractForsharpeningtheircompetition,moreandmoreenterprisesfocustheirmindoninformatization.Theapplicationofdataminingoriginsfrominformatizationofenterprises,anditmeansthatscientificmaking-decisionbecomesthemainstreaminsideofenterprisesandtheimprovementofenterprises'adaptabilityandSensitivity.Inthethesis,discussandstudytheimprovementofapplicationofassociationrules,whichisoneofDataMiningfunctionalities;putforwarddataminingsystemsolutionandstandardprocessinapplicationofdatamining.Introduction,Iexplainthecauseandpurposeofcomposingthethesis,introducingdomesticandoverseasdevelopmentofDataMining,andthenplacingemphasisonits’applicationofvariousfields.ThesecondpartIcomposed,narratingtheinevitabilityofoccurrenceconcerningDataMiningandtheneducingassociationrules,whichismajorcontentofthethesis.AssociationrulesisoneofDataMiningfunctionalities,itconsistsofMiningSingle-DimensionalBooleanAssociationRules,MiningMultilevelAssociationRules,MiningMultidimensionalAssociationRulesandFromAssociationMiningtoCorrelationAnalysis.Thirdly,accordingtoforegoingcontentandanalysis,Iputforwardsuggestionforapplicationofassociationrules,itconsistsofthreeparts.WhenweuseAprioriruletomineSingle-DimensionalBooleanAssociationRules,therearesomeproblems,sothatthefirstpartisthatimprovesefficiencyofAprioribyimportingsomemethodsandtools;thesecondisaboutredundantproblem,whichwewillencounter,whenwemineMultilevelAssociationRules.Thethird,basedonSupportandConfidenceofassociationrulesandCorrelationAnalysis,introducinganewvariable-Correlation,itcanimprovetheeffectivenessandaccuratenessofapplicationduringminingassociationrules,atthesametime,italsohelpstofurtherdevelopmentinimprovementofapplicationofassociationrules.Fourthly,Idrawaconclusion,whichisderivedfromresearchonimprovementofassociationrules,designingaDataMiningsystemsolution,whichcontainsanimportantoutcome.IregardDataminingasaprocessofbusiness,sothatputtingforwardastandardprocessforDataMining.Attheendofthisthesis;itcontainsthefruitofresearchandtheproblemsdatamininghavetofaceandsolveinthefuture,andwhatIamstudying.Keywords:AssociationRulesDataMiningCorrelationSupportConfidence4第一章绪论2002年,笔者在一家美国科技公司工作期间,接触了一些关于数据挖掘方面的项目。随着企业信息化的不断完善和成熟,随着市场竞争日益加剧,企业不得不面临着一系列重大决策问题,单凭经验或直觉进行决策是不可能的,因此企业越来越意识到信息对于企业科学决策的重要性。数据挖掘是一种技术,为企业进行分析和决策提供支持,它是建立在海量数据的基础上,它的出现是企业自身发展的需要,也是企业信息化的延伸。数据挖掘是从数据库中发现知识(KnowledgeDiscoveryinDatabases,KDD)1,该词首次出现在1989年举行的第十一届国际联合人工智能学术会议上,它包括关联规则、聚类分析、分类和预测、神经元网络等内容。到目前为止,由美国人工智能协会主办的KDD国际研讨会已经召开了8次,课题研究重点也逐渐从发现数据挖掘的方法转向数据挖掘系统的具体实际应用,注重多样数据挖掘策略和新兴技术的集成,以及各种学科之间的相互渗透、结合。亚太地区也已经召开了8次亚太知识发现和数据挖掘会议。IEEE的KnowledgeandDataEngineering会刊率先在1993年出版了KDD技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论。GartnerGroup2的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。根据昀近Gartner的HPC3研究表明,随着数据收集、传输和存储技术的快速发展,大型系统用户将更多地需要采用新技术来挖掘市场以外的价值,采用更为广阔的并行处理系统来创建新的商业增长点。目前美国在数据挖掘方面的研究走在世界的前列,正在研究基于XML的面向WEB的数据挖掘、专门用于知识发现的数据挖掘语言、关联规则中阈值的智能化以及人工神经网络在数据挖掘中的应用等领域;同时一些国外公司开发了相关的数据挖掘系统,如SAS公司的EnterpriseMiner、IBM公司的IntelligentMiner、SGI公司的SetMiner、SPSS公司的Clementine4等,这些系统已经应用在各个行业领域了,并有相关的成功案例。图1.1是数据挖掘的应用领域分布图。5图1.1数据挖掘的应用领域分布图5目前我国对于数据挖掘的研究刚起步不久,还处于各自为战的状况,有一些相应的组织机构,正在从事数据挖掘的基础理论及其应用研究,这些机构包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等机构开展了对关联规则挖掘算法的优化和改造;南京大学、四川联合大学和上海交通大学等机构探讨、研究了非结构化数据的知识发现以及Web数据挖掘。现在国内独立的数据挖掘方面的专著较少,翻译国外的著作较多,还没有形成相应完善的知识体系,现阶段还主要处于介绍和跟随国外昀新的发展动态。在经费方面,国内数据挖掘研究主要来自国家的科研项目经费,以及学校、科研机构的自筹经费,还没有形成由公司作为主导的发展阶段。国内应用数据挖掘成功的案例很多,主要是借助于国外的数据挖掘系统和咨询专家,比如:美国汇丰银行香港分行用SPSS对不断增长的客户数据进行挖掘分析,建立了预测模型来发现金融产品交叉销售机会;中国银行信用风险评级管理项目和中国电信选用了数据挖掘产品Clementine的营销项目6等等。通过大量的资料阅读及分析研究,使笔者更加明确了商业领域对数据挖掘的需求、数据挖掘的应用方向和未来数据挖掘发展前景,进而在研究生学习期间,深入涉足了该领域的研究。在笔者大量翻阅有关数据挖掘的论文和著作的过程中,发现6关联规则在应用上存在一定的局限性,遂在导师的指导下,笔者深入研究了关联规则应用改进的方法,并且设计出数据挖掘系统解决方案和数据挖掘应用标准流程。本文通过对关联规则应用领域的分析和研究,为今后在商业领域中应用关联规则积累了理论的知识和实践的技能,同时为今后进一步研究数据挖掘关联规则改进和进行系统的开发设计打下坚实的基础,这也是笔者这三年学习和研究工作的一个成果。7第二章关联规则分析本章分析了数据挖掘出现的必然性和关联规则应用的方向,以及关联规则的相关知识和分类。2.1数据挖掘出现的必然性在过去10多年中,以数据交易、存储为目的的联机分析处理系统(OLTP)已经发展得相当成熟,关系型数据库已经应用在各行各业中,其中大型公司或信息部门积累了大量原始数据。为了充分利用已有大量数据、提供复杂查询、提供更好的决策支持,出现了数据仓库(DataWarehouse)。在数据仓库发展的同时,一项从大量数据中发现知识、规则的技术也在学术领域兴起,这就是数据挖掘。数据挖掘即数据库知识发现(KDD),就是将高级智能计算技术应用于大量数据中,让计算机从海量数据中发现潜在的,有用的规则(也叫知识)。从80年代末的初露头角到90年代末的广泛应用,以数据挖掘为核心的商业智能(BI)已经成为IT及其它行业中的焦点。为了在将来竞争日益激烈的市场中立于不败之地,越来越多企业开始关注数据挖掘的应用。数据挖掘的应用起始于企业的信息化。企业信息化指的是信息技术在

1 / 45
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功