数据挖掘分类算法研究及应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

摘要I摘要数据挖掘技术是机器学习、数据库和统计理论相结合的产物,是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含的、先前未知的并有潜在价值的信息的非平凡过程。在数据挖掘领域中,分类问题是数据挖掘技术中的主要研究课题。分类是根据数据集的特点构造一个分类器,利用分类器对未知类别的样本赋予类别的一种技术。目前的分类算法主要有统计分类法、决策树、神经网络等。不同的分类方法会产生不同的分类器,分类器的优劣直接影响数据挖掘的效率与准确性。因此,当对大规模的海量的数据进行分类时,选择最有效的分类算法是至关重要的。决策树是分类应用中采用最广泛的模型之一。它是建立在信息论基础上的,其基本思想是,通过一批已知的训练数据建立一棵决策树,然后利用建好的决策树,对数据进行预测。与神经网络和贝叶斯方法相比,决策树无须花费大量的时间和进行上千次的迭代来训练模型,适用于大规模数据集,除了训练数据中的信息外不再需要其他额外信息,表现了很好的分类精确度。其核心问题是测试属性选择的策略,以及对决策树进行剪枝。连续属性离散化和对高维大规模数据降维,也是扩展决策树算法应用范围的关键技术。针对以上情况,本文的研究工作主要包括如下几个方面:1.本文首先介绍了数据挖掘的定义和主要方法,重点对分类的各种算法作了详细的介绍和比较,并分析了基于变形的FP-tree关联分类算法。2.本文仔细学习了决策树算法,对经典算法ID3进行了详细的介绍,然后详细地研究了C4.5算法对ID3算法5个方面进行了改进。针对粗糙集理论善于处理不精确和不确定性知识的特点,将粗糙集理论引入决策树算法分析中,对C4.5算法进行了相应的改进,通过实例分析验证了这种改进算法的有效性,分析了算法在时间上有明显的优越性。3.本文最后将改进的算法应用于一个英语在线学习系统,可以为网络教育提供监控和个性化指导,学生在学习过程中每一个动作都会被记录下来作为个性化评价数据挖掘分类算法研究及应用II的条件,这样就不会忽略学生的每一个细节,形成的评价也就越准确,经过实验表明,我们最终形成的模型是可用的。关键词:数据挖掘,分类,决策树,粗糙集,英语在线学习系统AbstractIIIAbstractThedataminingtechniqueisacombinationofmachinelearning,databaseandStatisticaltheory.Dataminingcanseekinterestingorvaluableinformationwithinlarge,incomplete,noisy,rough,andrandomdatabases.Theproblemofclassificationisamajorsubjectofresearchindataminingtechnology.Classificationisthetechnologyforbuildingamodelaccordingtothecharacteristicsofthedatasetandassigningcategoriestosamplesofunknowntypebymeansofthemodel.Atpresentclassificationalgorithmincludesstatisticalclassification,decisiontreeandnervenetworkandsoon.Differentclassificationmethodswillproducedifferentclassificationmodels.Thequalityoftheclassificationmodelhasadirecteffectontheefficiencyandaccuracyofdatamining.Therefore,itisofvitalimportancetochoosethemosteffectivealgorithmwhenclassifyinglargequantitiesofdata.Decisiontreeisthemostuniversalmodelsclassification.Itisamethodofdataclassificationminingbasedoninformationtheory.First,wewillbuildadecisiontreebythemediumofknowntrainingdata.Then,capitalizedonthedecisiontreewhichhadbeencreated,wepredictwiththisdata.ComparedtotheNeuralNetworksadoptedandBaysinapplicationofmethod,itdoesn'tneedalotoftimeandhundredsofiterationstotrainmodelsbutsuitableforthelargesetofdata.Moreover,theclassificationaccuracyofdecisiontreeisbetterthanothertechniques,andthealgorithmneedsnootherinformationbutthetrainingdatainformation.Thecoreissueofdecisiontreealgorithmisthestrategyinchoosingtestattributeandpruningtothedecisiontree.Discretizationthecontinuousattributesanddimensionreductiontothehighdimensiondataarecriticaltechniquestoexternthedecisiontreealgorithm'sapplicationdomain.Accordingtotheaboveconditions,thearticlehasdonethefollowingresearch:1.Thisthesisintroducestheconceptionandmainmethodsofdataminingatfirst,especiallyanalysesandcompareseverykindofclassificationalgorithmsdetailedly,thenaimprovedassociationalgorithmbasedontransformativeFP-treemethodisgiven.2.ThisthesisstudiesandanalysisesdecisiontreeID3algorithmcarefully,thenadetailedstudyC4.5algorithmoffiveareastoimproveID3algorithm.Becauseroughsetisgoodatdealingwithincompleteanduncertaininformation,weintroduceitinto数据挖掘分类算法研究及应用IVclassificationinordertoimproveC4.5algorithm,Theanalysisshowsthatcomparedwiththetraditionalalgorithmwithoutroughsetconception,theimprovedalgorithmhasmorepredominantthenC4.5abouttime.3.ThisthesisusesimprovedthealgorithmwhichisappliedanEnglishonlinelearningsystematlast.Itcanprovideeducationfornetworkmonitoringandpersonalizedguidance,studentsinthelearningprocesseveryactionwillberecordedasapersonalizedevaluationoftheconditions,sothatstudentswillnotbeignoredofeverydetail,theformationofthemoreaccurateevaluation,theresultsshowthatourultimateformofthemodelisavailable.KeyWords:Datamining;classification;decisiontrees;Roughtset;Englishonlinelearningsystem.目录V目录摘要..................................................................................................................................IAbstract.............................................................................................................................III目录................................................................................................................................V第一章绪论.......................................................................................................................11.1课题背景及意义...................................................................................................11.2国内外研究现状...................................................................................................21.3本文的组织结构...................................................................................................3第二章数据挖掘概述.......................................................................................................42.1数据挖掘的定义...................................................................................................42.2数据挖掘的任务和方法.......................................................................................42.3数据挖掘过程模型...............................................................................................62.4数据挖掘算法的评价标准..................................

1 / 79
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功