基于R语言多种聚类算法演示平台

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

本科毕业设计论文题目:基于R语言的多种聚类算法演示平台开发作者姓名徐天宇指导教师陈晋音教授专业班级自动化1104学院信息工程学院提交日期2015年5月28日浙江工业大学本科毕业设计论文基于R语言的多种聚类算法演示平台开发作者姓名:徐天宇指导教师:陈晋音副教授浙江工业大学信息工程学院2015年6月DissertationSubmittedtoZhejiangUniversityofTechnologyfortheDegreeofBachelorClusteringAlgorithmsDemonstrationPlatformbasedonRstudioStudent:TianyuXuAdvisor:JinyinChenCollegeofInformationEngineeringZhejiangUniversityofTechnologyJune2015浙江工业大学本科生毕业设计(论文、创作)任务书专业____自动化____班级____1104____学生姓名/学号徐天宇/201103120423__一、设计(论文、创作)题目:基于R语言的多种聚类算法演示平台二、主要任务与目标:基于R语言平台实现多种聚类算法,包括基于划分的聚类算法kmeans等,基于密度的聚类算法DBSCAN等,并设计实现各种算法的演示平台,可视化界面调用各个测试数据集,完成聚类并利用图和表等形式演示聚类效果。三、主要内容与基本要求:主要内容:(1)分析现有聚类算法的分类及其代表算法,及其解决的关键问题分析;(2)基于R语言的各种聚类算法的实现和性能演示;(3)实验验证模型及粒子群优化算法的有效性。基本要求:(1)分析现有聚类算法及其优缺点;(2)自主设计基于R语言的各种聚类算法实现和调试;(3)编写程序实现交互式演示平台,完成各种聚类算法的性能比较和演示;(4)仿真实验利用UCI数据集验证平台对各个聚类算法的演示和效率评价。四、计划进度:(1)2014年12月至2015年2月:完成文献调研、综述撰写和2篇外文文献翻译;(2)2015年3月:基于R语言的聚类算法开发和设计;(3)2015年4月:编程实现前台可视化交互演示平台,并演示聚类算法的效率评价;(4)2015年5月:完成实验总结并撰写毕业论文,准备答辩。五、主要参考文献:[1]ZhuQun,ZhangYu-Hong,HuXue-Gang,LiPei-Pei.Adouble-window-basedclassificationalgorithmforconceptdriftingdatastreams[J].ActaAutomaticaSinica,2011,37(9):1077-1084[2]HassaniM,SpausP,GaberMM,SeidlT.Density-basedprojectedclusteringofdatastreams[J].In:Proceedingofthe2012ScalableUncertaintymanagement,BerlinHeidelberg,Springer,2012311-324.[3]HuangDC,ShenXQ,LuYH.Doublek-nearestNeighborsofHeterogeneousDataStreamClusteringAlgorithm[J].JournalofComputerScienceandTechnology,2013,40(10):226-230.[4]YangCY,ZhouJ.Aheterogeneousdatastreamclusteringalgorithm[J].ChineseJofComputers,2007,30(8):1364-1371.[5]AggarwalCC,YuPS.Aframeworkforclusteringmassivetextandcategoricaldatastreams[J].In:Proceedingofthe6thSIAMInternationalConferenceonDataMining.Bethesda,2006:477-481.任务书下发日期2014年12月26日设计(论文、创作)工作自2015年12月26日至2015年6月8日设计(论文、创作)指导教师学科(方向)负责人主管院长I基于R语言的多种聚类算法演示平台开发摘要聚类分析是模式识别、数据挖掘、机器学习中的很重要的一类方法,它是将数据集按照某种指导思想划分成一些簇的过程。由于聚类问题的重要性,近50年提出了各种各样的算法,又因为聚类问题属于一个病态问题,聚类算法的效果和实际数据对象有很大的相关性,目前还没有一个算法可以很好的解决所有的聚类问题,不同的算法有各自不同的优缺点。为了新算法的开发需要,以及为了解决特定聚类问题的需要,开发一个包含多种聚类算法的可演示可扩展的平台将非常有价值,本文利用R语言实现了包含6个典型聚类算法和7个典型数据集的聚类算法演示平台,主要工作如下:(1)为了类比不同类型的聚类算法性能,本文实现了基于划分的k-means、AP算法、基于密度的DBSCAN,和基于层次的AGNES、基于粒子群的聚类算法以及先进的FDP算法。(2)利用Rstudio公司开发的shiny包实现交互式演示平台,实现良好用户交互性,并对以上6种典型聚类算法和7个典型数据集展开聚类演示,动态比较聚类过程,并分析性能优劣。(3)基于实现的聚类算法和演示平台,本文实现了基于聚类分析的NBA篮球运动员类型分类和球队球员结构分类的应用,验证了所实现聚类算法的有效性。关键词:聚类算法,演示平台,Rstudio,NBA球员聚类IITHEDEVELOPMENTOFCLUSTERINGALGORITHMSDEMONSTRATIONPLATFORMBASEDONRSTUDIOABSTRACTCluseringanalysisisonekindofimportantmethodsinPatternRecognition,DataMiningandMachineLeaning.Specifically,itisaprocessthatdividedatasetintoseveralclustersaccordingtosomeidea.Theresultsdivisionshouldmakedataobjectsinthesameclusterassimilaraspossiblebutdataobjectsindifferentclustersasdissimilaraspossible.IfwetaketheproposeofK-meansalgorithmasthestartofresearchclusteringanalysis,wehavestudieditfor50years.Inthepast50years,thousandsofalgorithmshavebeenproposedbecausetheimportanceofclusteringanalysis.Butthereisagreatcorrelationbetweentheperformanceofacluseringalgorithmsandclusteringdatasetsitselfbecauseitisaill-posedproblem.Itdoesnothaveanalgorithmcansolvealltheclusteringproblemswell.Eachclusteringalgorithmhasitsownprosandcons.Inordertodevelopnewalgorithmsandchoseaproperalgorithmtosolveaspecificproblem,developmentademonstrableandscalableplatformcanbeveryuseful.Thispaperachievesthatkindofplatformwith6typicalalgorithmsand7typicaldatasets.Thefirstchapterofpaperintroducesthestudybackground,meaning,meansandframe.Thesecondchapterintroducesthealgorithmsusedintheclusteringalgorithmsdemonstrationplatform,includingtheK-means,affinitypropagationofpartitionningmethods,theDBSCANofdensity-basedmethod,theAGNESofhierarchicalmethods,PSObasedclusteringalgorithmandtheFDPalgorithmwhichispublishedonjournalSciencein2014.ThethirdchapterintroducestheimplementationofdemonstrableplatformwithshinydevelopedbyRstudioandcomparesthealgorithmsintroducedinthesecondchapter.ThefourthchapterintroducestheclassificationofNBAplayersbyclusteranalysis.Thefifthchaptersummarizesthepaperandgiveexpectation.KeyWords:clusteringanalysis,demonstrationplatform,Rstudio,NBAplayerclusterIII目录摘要........................................................................................................................................IABSTRACT.............................................................................................................................II第1章绪论........................................................................................................................51.1聚类分析的背景.............................................................................................................................51.1.1聚类分析的背景................................................................................................................51.1.2聚类分析的定义................................................................................................................51.1.3聚类分析的一般过程........................................................................................................21.1

1 / 65
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功