毕业设计2015年6月12日设计题目基于数据挖掘的关键词统计关联分析学生姓名学号专业班级指导教师院系名称计算机与信息学院目录中文摘要...............................................................1英文摘要...............................................................2第一章绪论........................................................31.1课题研究的背景及意义...............................................31.2国内外研究现状.................................................41.3本文主要研究内容................................................51.4本文组织结构....................................................52.1数据挖掘的定义..................................................72.2数据挖掘中的有趣故事............................................82.3数据挖掘的几种表示方式和模式....................................82.3.1广义知识挖掘。............................................82.3.2关联数据挖掘。............................................92.3.3类知识挖掘................................................92.3.4预测型知识挖掘............................................92.3.5特异型知识挖掘...........................................102.3.6粗糙集知识挖掘。.........................................102.4数据预处理。...................................................102.5数据挖掘的算法.................................................102.5.1分类算法.................................................112.5.2预测算法.................................................122.5.3聚类算法.................................................122.5.4关联算法.................................................13第三章关键词的关联分析...............................................143.2apriori说明。..................................................143.3Apriori算法的描述............................................143.4apriori算法在此次设计的应用....................................163.5一种Apriori的改进算法.......................................19第四章系统设计与实现.................................................204.1设计原理。.....................................................204.2设计环境及主要模块。...........................................204.2.1数据的关键词统计分析.....................................214.2.2数据的频繁关联关系.......................................234.2.3数据的关联分析...........................................24第五章数据挖掘关联规则的研究热点及未来展望...........................265.1数据挖掘的研究热点.............................................265.2数据挖掘的未来展望。...........................................27结论..................................................................29致谢..................................................................30参考文献..............................................................31....................................................................31附录..................................................................321基于数据挖掘的关键词统计关联分析摘要:本次设计主要是在自然基金科学网上爬取数据,用以作为实验的数据库,然后在网页上做统计和关联分析,来具体分析自然科学基金的研究热点以及研究趋势分析。首先对关键词频率做了充分的统计,然后对统计的数据做了具体的关联分析,结果显示最终的关联度最高的关键词,从而得出与这些关键词相关的自然基金项目是有很大关系结论。在不偏离主题目标的情况下本文还研究了除去关联规则算法的其他几类数据挖掘算法,主要有聚类算法、分类算法、预测算法。用以和关联规则算法做具体的对比从而使本文的内容更加的丰富充实。关键词:数据挖掘;关联分析;关键词统计2BasedonthekeywordsstatisticalcorrelationanalysisofdataminingAbstract:Thisdesignmainlyinthefieldofnaturalsciencefundcrawldataonline,toasexperimentdatabase,thendostatisticsandcorrelationanalysisonthewebpage,tospecificanalysisofthenaturalsciencefoundationresearchhotspotandtrendanalysis.Firsttofullythekeywordfrequencystatistics,thenthecorrelationanalysisofthestatisticaldatafortheconcrete,theresultsshowthehighestcorrelationkeywords,whichindicatesthatthenaturalfundprojectassociatedwiththesekeywordsarehasalottodo.Inthecaseofnotdeviatefromthetopicgoalthispaperalsostudiedtheremoveseveralotherkindsofdataminingalgorithmofassociationrulesalgorithm,clusteringalgorithm,classificationalgorithmandpredictionalgorithm.DotoandassociationrulesalgorithmcontrasttomakethecontentofthisarticlemoreabundantlyKeywords:datamining;associationanalysis;keywordstatistics3第一章绪论1.1课题研究的背景及意义就目前而言,关联规则挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。现在银行天天都在开发新的沟通客户的方法。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。同时,一些知名的电子商务站点也从强大的关联规则挖掘中的受益。这些电子购物网站使用关联规则中规则进行挖掘,然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售,也就是购买某种商品的顾客会看到相关的另外一种商品的广告.世间万物的事情发生多多少少会有一些关联。一件事情的发生,很可能也会引起另外一件事情的发生。或者说,这两件事情很多时候很大程度上会一起发生的。那么人们通过发现这个关联的规则,可以由一件事情的发生来,来推测另外一件事情的发生,从而更好地了解和掌握事物的发展,动向等等。这就是数据挖掘中,寻找关联规则的基本意义。数据挖掘技术中的关联规则挖掘是通过计算机自动从一大对真实数据中发现这样的关联规则出来。对于计算机而言,它需要知道所有的事情发生情况,并且把相应的事情合并成一个事务,通过对各个事务的扫描,来确定事情的关联规则。关联规则反映了数据库中数据项目之间有趣的关联关系,而其中发现频繁项目集是关联规则挖掘应用中的关键技术和步骤。关于频繁项目集的挖掘算法研究,人们对此进行了大量的工作,其中以R.Agrawal等人提出的Apriori、AprioriTid等算法最具有影响力和代表性。而这些算法的提出都是在挖掘数据库和最小支持度不变的条件下进行的。但实际中,遇到的情况可能是:随着时间的推移,挖掘数据库的规模可能不断膨胀或需要删除一部分记录,或者需要对最小支持度进行调整从而逐步聚集到我们感兴趣的频繁项目集上。因而如何从数据发生变动4后的数据库中高效地对已经推导出的关联规则进行更新,具有非常重要的应用价值,这就是所谓的增量式挖掘关联规则的问题。1.2国内外研究现状目前国内已经有相当一部分人从事数据挖掘的研究,中国科技大学蔡庆生教授领导的针对关联规则的研究小组,哈尔滨工业大学李建中教授的并行数据挖掘系统,四川大学的唐长杰教授的在地震中的动态检测数据的发现,上海复旦大学施伯乐教授领导开发的AMINERP,北京大学的基于数据挖掘的客户分析系统的模型CASDM中国科学院计算技术研究所史忠值主持研发的多策略数据挖掘平台MSMiner,清华大学的路玉昌教授领导开发的数据挖掘系统,李德毅教授基于云模型的数据挖掘技术的创新性工作,这些专家或学者在国内外的数据挖掘领域内都作出了杰出的贡献。与国外相比,国内对数据挖掘的研究起步稍晚且不成熟,目前正处于发展阶段。最新发展:分