基于数据挖掘的分类和聚类算法研究及R语言实现

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

暨南大学硕士学位论文1暨南大学硕士学位论文题名(中英对照):基于数据挖掘的分类和聚类算法研究及R语言实现AStudyonAlgorithmofClassificationandClusterBasedonDataMiningandRealizationbyRprograme作者姓名:方匡南指导教师姓名王斌会博士教授及学位、职称:学科、专业名称:经济学统计学论文提交日期:2007年5月论文答辩日期:2007年6月答辩委员会主席:论文评阅人:学位授予单位和日期:基于数据挖掘的分类和聚类算法研究及R语言实现2独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得暨南大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:签字日期:年月日学位论文版权使用授权书本学位论文作者完全了解暨南大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权暨南大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:导师签名:签字日期:年月日签字日期:年月日学位论文作者毕业后去向:工作单位:电话:通讯地址:邮编:暨南大学硕士学位论文3摘要数据挖掘是个新兴的研究领域,涉及到统计学、数据库、机器学习等众多学科,正以其强大的功能和广泛的应用受到高度的关注。数据挖掘的方法众多,其中分类、聚类方法是数据挖掘应用昀多的方法,而算法研究是数据挖掘研究领域的重中之重,算法的好坏直接影响到数据挖掘的效率,所以本文主要深入系统地研究分类、聚类算法。虽然目前研究分类、聚类算法的文章比较多,但大多数研究只停留在理论上的探讨,并没有相应的算法实现。本文着重于算法实现的研究,在国内首次利用R语言实现数据挖掘算法,因为R语言相对于其他一些软件有着免费、开放源代码、算法更新速度快等优点。论文第一章介绍数据挖掘的研究背景、目的和意义以及研究方法和框架。第二章主要介绍比较各分类算法及R语言实现,包括基于距离分类的KNN算法;基于决策树方法的C4.5算法、CART算法;基于神经网络的BP算法。第三章主要介绍比较各种聚类算法及R语言实现。具体介绍了划分方法的K-means、pam、clara算法;层次方法的AGNES、DIANA算法;基于密度聚类方法的DBSCAN算法;基于模型聚类方法的COBWEB、SOM算法;基于模糊聚类方法的FCM算法。第四章实证分析主要以台湾教授蔡欣玲就护理人员离职调查的数据为例,按数据挖掘的标准流程CRISP-DM进行分析,首先对数据作初步统计分析,掌握护理人员的初步情况,再接着利用聚类方法来分析医院护理人员的离职意愿,然后利用分类方法建立预测模型。第五章对本文的研究情况进行总结并展望。关键词:数据挖掘分类算法聚类算法R语言实现基于数据挖掘的分类和聚类算法研究及R语言实现4ABSTRACTDataMingisanewstudyrealm,comingdowntomanysubjectssuchasstatistics、database、machinelearningandsoon,itwaspaidhighattentionforitsstrongfunctionsandbroadapplication.DataMininghasmanymethods,classificationandclusteraretwoofthemostappliedmethods,butalgorithmstudyisthemostimportantfieldinDataMingstudy,whetherthealgorithmisgoodorbadwilldirectlyaffecttheefficiencyofDataMing,sothispaperwillstudydeeplyandsystemlyonclassificationandclusteralgorithm.Althoughpapersstudyingonclassificationandclusteralgorithmaremany,butmostofmanyjustdiscussedontheory,didn’trealizethesealgorithms.ThispaperwillemphasizetherealizationofalgorithmandrealizealgorithmbyRprogramefirstinchina,becauseRprogramehasadvantagessuchasfree、opensourceandalgorithmupdatingquicklycomparedtoothersoftwares.Thefirstchapterofpaperintroducethestudybackground、purposesandmeaningandmeansandframe.ThesecondchapterintroduceandcomparewitheveryalgorithmofclassificationandrealizedbyRprograme,includingtheKNNalgorithmbasedondistance,theC4.5、CARTalgorithmsbasedondecisiontreeandtheBPalgorithmbasedonneuralnetwork.thenrealizethesealgorithmsbyRprograme。ThethirdchapterintroduceandcomparedwitheveryalgorithmofclusterandrealizedbyRprograme,includingtheK-means、pam、claraalgorithmsofpartitioningmethods,theAGNES、DIANAofhierarchicalmethods,theDBSCANalgorithmsofdensity-basedmethods,theCOBWEB、SOMalgorithmsofModel-BasedclusteringmethodandtheFCMalgorithmofFuzzyclusteringmethod.thenrealizethesealgorithmsbyRprograme.Thefourthchapterisdemonstration,Takingthedataaboutthejob-leavingofnurseswhichcollectedbyprofessorcaixinlingTaiWanasanexample,analysethedatafollowingthestandardflowCRISP-DM.First,simplyanalysethedatabystatisticsandunderstandthefirst-stepknowloge,thenanalysethejob-leavingwillingbyclustermethodandestablishpredictedmodelbyclassificationmethod.Thefifthchaptersummarizethepaperandgiveexpectation.KEYWORD:DataMiningclassificationalgorithmclusteralgorithmrealizationbyRprograme暨南大学硕士学位论文5目录中文摘要……………………………………………………………………………………………(Ⅰ)英文摘要……………………………………………………………………………………………(Ⅱ)目录…………………………………………………………………………………………………(Ⅲ)1.绪论………………………………………………………………………………………………11.1数据挖掘产生的背景和定义……………………………………………………………………11.2数据挖掘国内外发展现状………………………………………………………………………21.3数据挖掘与传统统计之间的关系………………………………………………………………31.4数据挖掘的主要应用分析………………………………………………………………………51.5研究目的和意义…………………………………………………………………………………71.6论文研究框架……………………………………………………………………………………71.7数据挖掘算法的研究工具—R语言……………………………………………………………82.分类分析方法及R语言实现…………………………………………………………………122.1分类分析的基本概念、步骤及方法……………………………………………………………122.2分类分析的评估标准……………………………………………………………………………132.3基于距离分类方法及R语言实现………………………………………………………………142.4基于决策树分类方法及R语言实现2.5基于神经网络分类方法及R语言实现3.聚类分析方法及R语言实现……………………………………………………………………283.1聚类分析基本概念及要求…………………………………………………………………………283.2聚类分析的数据类型及处理方法…………………………………………………………………293.3划分聚类方法及R语言实现………………………………………………………………353.4层次聚类方法及R语言实现3.5基于密度聚类方法及R语言实现3.6基于模型聚类方法及R语言实现3.7模糊聚类方法及R语言实现4.实证分析………………………………………………………………………………………………544.1研究背景……………………………………………………………………………………………544.2.数据整理……………………………………………………………………………………………544.3.数据初步统计分析…………………………………………………………………………………554.4.护理人员离职意愿的聚类及交叉分析……………………………………………………………58基于数据挖掘的分类和聚类算法研究及R语言实现64.5.护理人员离职预测模型的建立……………………………………………………………………614.6.小结…………………………………………………………………………………………………655.总结与展望…………………………………………………………………………………………675.1总结5.2展望参考文献…………………………………………………………………………………………………69附录………………………………………………………………………………………………………71在学期间发表论文及出版著作清单致谢………………………………………………………………………………………………………82暨南大学硕士学位论文7第1章绪论1.1数据挖掘产生的背景和定义1.1.1数据挖掘产生的背景随着信息科技的进步以及电子化时代的到来,人们以更快捷、更容易、更廉价的方式获取和存储数据,使得数据及信息量以指数方式增长。据粗略估计,一个中等规模企业每天要产生100MB以上的商业数据。而电信、银行、大型零售业每天产生的数据量以TB来计算。快速增长的海量数据收集、存放在大型数据库中,如果没有强有力的工具,理解它们已经远远超出了人的能力范围,收集在大型数据库中的海量而杂乱数据变成了“数据垃圾”、“数据坟墓”,就如图1.1所示。高维海量的数据增加了传统统计分析方法的难度,这样,对

1 / 89
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功