信息科学与技术学院学士学位论文JIUJIANGUNIVERSITY毕业论文题目基于决策树算法对九江学院消费状况的研究英文题目ResearchonConsumptionofJiujiangUniversityBasedonDecisionTreeAlgorithm院系信息科学与技术学院专业信息管理与信息系统姓名余兵班级学号A112124指导教师徐蓓二O一五年五月信息科学与技术学院学士学位论文I摘要在大数据时代,数据成为了人们关注的焦点。在我们生活的过程中会产生很多数据。当数据量巨大并且杂乱无章的时候,数据挖掘在处理这些数据中扮演着一个特别重要的角色,我们可以通过数据挖掘技术从海量的数据中挖掘出有价值的信息。近年来,人们开始更多的关注与自己生活有关的数据。大学生在其日常的消费过程中产生的数据量十分庞大。这些数据中蕴含着大量的信息,需要我们去发现。本文主要研究的是九江学院大学生的宏观消费状况。本文采用了网络问卷调查的方式随机收集了九江学院在校大学生的部分消费数据。我们对收集的数据进行预处理并得到完整可靠的的数据样本,然后把这些数据以表格的形式存储于MySQL数据库中并建立可用的数据源。数据准备工作结束后,使用不同的决策相关的算法对数据建模。本文的目的是基于决策树算法对九江学院消费数据的研究,通过对算法的比较,选择了合适的决策树算法。使用的算法包括C5.0和CHAID。本文把研究目的细分为以下两项:基于决策树C5.0研究九江学院大学生消费状况对学生是否加兼职的影响;基于决策树CHAID研究九江学院大学生消费状况对学生是否能够领取贫困助学金的影响。最后通过相应的决策树算法建立了不同的决策树和规则集,并对决策树和规则集进行了分析与评估。关键词:大数据,数据挖掘,消费,决策树信息科学与技术学院学士学位论文IIAbstractIntheeraofbigdata,databecomesthefocusofattention.Wewillproducealotofdatainthecourseofourlives.Whenthedatabecomeslargeandunsystematic,dataminingplaysaparticularlyimportantroleindealingwiththesedata,wecanminingvaluableinformationfromthevastamountsofdatathroughthetechnologyofdatamining.Inrecentyears,peoplestarttogivenmoreattentionontheirrelateddatawithlife.Collegestudentsproduceahugeamountofdataassociatedwiththeconsumptionineveryday.Weneedtofindalotofinformationinthesedata.ThispapermainlystudiestheJiujianguniversitystudents'consumptionsituation.Andinthispaper,IrandomcollectedthedateofJiujianguniversitycollegestudentsconsumptionbyusingthenetworkquestionnaire.Wepreprocessedthedatawhichwecollectedandgotacompleteandreliabledatasamples,then,westoredthedataintheformofatableintheMySQLdatabaseandestablishedtheavailabledatasources.Afterthepreparationofdata,weuseddifferentalgorithmdecisionfordatamodeling.ThepurposeofthisarticleisbasedonalgorithmicdecisiontreeontheresearchoftheconsumptiondataofJiujianguniversity,weselecttheappropriatealgorithmicdecisiontreebycomparingalgorithms.ThealgorithmichavebeenusedincludingC5.0andCHAID.Ourresearchobjectivewassubdividedintothefollowingtwo:ResearchonConsumptionofJiujiangUniversityBasedonC5.0tofindouttheeffectsaboutwhethertotakepart-timejobs;ResearchonConsumptionofJiujiangUniversityBasedonCHAIDtofindouttheeffectsaboutwhethertohavechancetogetfinancialaid.Finally,differentdecisiontreesandrulesetswereestablishedbyusingalgorithmsofdecisiontree,thenweanalyzedandevaluatedthedecisiontreeandrulesets.Keywords:BigData,DataMining,Consumer,DecisionTree信息科学与技术学院学士学位论文III目录摘要.....................................................IAbstract..................................................II1绪论1.1课题研究的背景......................................(1)1.2选题的意义..........................................(2)1.3决策树挖掘的研究现状................................(3)1.4论文的组织结构......................................(4)2什么是数据挖掘2.1数据挖机的基本概念..................................(6)2.2数据挖掘的过程......................................(6)2.3数据挖掘的相关技术..................................(8)2.4选定本课题使用的软件...............................(12)3决策树算法的研究3.1决策树算法的概述...................................(17)3.2决策树基本算法的介绍...............................(20)3.3适用课题研究的算法及原因...........................(29)4基于决策树算法对九江学院大学生消费状况的研究4.1九江学院大学生的消费状况调查.......................(31)信息科学与技术学院学士学位论文IV4.2消费数据的收集与处理...............................(32)4.3决策树的挖掘结果...................................(34)4.4研究结果总结.......................................(45)5总结与展望5.1总结...............................................(47)5.2展望...............................................(47)致谢................................................(49)参考文献..............................................(50)信息科学与技术学院学士学位论文11绪论1.1课题研究的背景自从20世纪80年代开始,计算机数据库技术越来越成熟,各行业也越来越重视对自身数据的收集与处理。因此许多行业通过不同的方式获得的数据量惊人。由于人们逐渐有了提取数据中的信息的意识,因此数据挖掘技术发展的越来越成熟。国外非常重视数据中存在的价值,因此不乏数据挖掘的案例。随着互联网技术的发展,基于互联网平台进行销售的商城、书店、营业厅关于web点击流量的存储容量的大小已经到达了GB级[1]。这些数据中潜藏着很多十分有用的信息。例如国外某连锁超市就是通过对大量数据的分析发现顾客购买尿布后再去购买啤酒的关联性非常的大,然后根据这条关联规则,把啤酒喝尿布放相邻位置销售,结果销量相比没有放在一起销售前有了显著的上升。如今经济市场的竞争十分的激烈,为了能够更深入的了解市场及自身的状况,也为了能够为企业的发展作出更好的决策,许多企业的管理者开始寻求能够提高企业经济效益以及确保企业长远发展的方法。有许多企业管理者会使用优秀的数据挖掘工具分析企业数据,并从中得到对管理企业有帮助的重要信息。因此,人们逐渐把数据挖掘技术运用到商业领域,并且引发了一系列管理、营销策略的变化。比如,在国外使用数据挖掘技术帮助从政的案例:2012年美国总统奥巴马成功连任后,有媒体报道,奥巴马投入了巨额费用使用数据挖掘技术,有效锁定目标选民后即时调整广告投放策略,因此这极大的帮助了奥巴马赢得选举。而在国内数据挖掘技术发展比国外更晚,但是发展十分迅猛,研究消费数据方面的案例十分的丰富。大部分对数据挖掘技术研究重点偏向于商业应用方面。大学生是比较特殊的消费群体,其产生的海量消费数据中蕴含很多有用的信息,这些通过数据挖掘获取的信息对商家提高自己的经济效益有很大的帮助。在校大学生在生活中所产生数据量不容小视。我们知道校园管理人员的日常工作是十分繁琐与辛苦的,如果能从与学生生活息息相关的消费数据中分析得出大量的信息,并且这些信息科学与技术学院学士学位论文2信息能够有助于学生的学习和生活以及老师的教学与管理,那么这将更加能够说明数据挖掘的价值与意义。1.2选题的意义如今国内大学入学率越来越高,随之而来的是学校对于培养学生的良好的消费习惯和价值观的任务变得举足轻重。我们的消费不仅能够影响我们的学习,还能够影响我们的人生观。研究人员对大学生消费的研究并不多,而且使用数据挖掘技术来分析大学生消费行为的就更屈指可数了。以往对大学生消费调查与研究所得的结果大部分比较浅显。在大数据时代我们可以使用数据挖掘技术从海量的消费数据中研究当今大学生的消费行为,并能够从中得到便于学校更好的教育莘莘学子的决策树或者规则集。比如,我们可以找到到九江学院大学生在课余时间有意愿做兼职或者勤工助学的消费特征,根据这些消费特征我们可以更准确的判断哪些学生会有兼职或勤工助学的趋势,这样学校就可以为那些预测结果为极有可能去兼职的学生做相应的引导或者帮助;我们也可以从消费数据中挖掘出判断学生电话消费档次的决策树,通过不同的规则,电信运营商可以推出更贴合学生需求的话费套餐;我们还可以从消费数据中挖掘出能够判断学生能否申请到贫困补助的决策树。每个学校都有本校学生申请贫困补助的评选标准,校园管理者可以使用通过数据挖掘学生的各种数据而得到的关于是否能够成功申请贫困补助的决策树,作为评选贫困生的参考。本次课题对我的挑战非常的大。我来自信息管理与信息系统专业,平时对数据挖掘这门技术了解比较少。如今获知的一些关于大数据的信息让我更清楚的认识到我们生活中的数据中蕴含巨大