数据挖掘中贝叶斯分类算法的研究

xuana1314
3 ℃
2020-04-07

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

数据挖掘中贝叶斯分类算法的研究陈红玉（铁道警官高等专科学校，河南郑州450001）摘要：随着数据挖掘理论和技术的发展,分类挖掘的技术也逐渐趋向成熟,出现了许多有效的分类算法。本文简要叙述了数据挖掘及常用的几种挖掘方法，重点阐述贝叶斯算法的原理及应用，并以文本分类为实例建立了贝叶斯分类模型。关键词：数据挖掘；分类；贝叶斯中图分类号：TP311文献标识码：AAnalysisofBayesianClassificationAlgorithminDataMiningCHENHong-yu（RailwayPoliceCollege，HenanZhengzhou450001）Keywords：datamining；classification；Bayesian·多媒体技术·1引言随着计算机软硬件的发展，社会各行业信息化程度不断加深，一方面数据处理对于社会生产生活的影响也越加深远，数据存量急剧增长。而另一方面，大量的存储空间使数据资源并没有完全被利用，人们一面淹没于海量数据中，一面却仍感到知识匮乏,出现所谓“数据爆炸而信息贫乏”的现象。究其原因，是因为数据库及其管理技术以及相关数据处理工具，在信息的获取方面有一定的局限性，只能获取其中的一部分信息，远不能满足人们的需求。事实证明，在数据中隐藏着的这些重要信息，不仅能更深层次反映出数据间存在的潜在关系，在各项决策中也具有重要的参考价值。数据挖掘DM（DataMining）的任务正是发现这些被忽略的信息，从中产生效益。数据挖掘DM（DataMining）被定义为找出数据中模式的过程，即对数据库中数据进行一定的处理，从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含的、事先未知、但又是潜在有用的信息和知识的过程。工作步骤如下：首先，确定挖掘对象，搜索有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。其次，研究数据质量做数据准备工作，例如数据的清理、集成、选择、变换等。再次，选择有效算法对庞大有限的数据空间进行分析处理，挖掘数据集合中我们感兴趣的信息。2数据挖掘中的方法数据挖掘常用方法主要有：关联（Associations），目的在于挖掘出数据库中隐藏的关联网，可分为简单关联、时序关联、因果关联等；聚类（Clustering），是对记录分组，把相似的记录聚在一个集合里，焦点集中在数据间的相似性；分类（Classification），是根据分类集建立模型，该模型用于对未分类数据集分类；估值（Estimation），估值与分类类似，但估值处理连续值的输出，且估值的量是不确定的；预言（Prediction），是通过分类或估值得出模型，该模型用于对未知变量的预言，在数据挖掘中是归纳推理；偏差检测（DeviationSegmentation），是发现数据库中的异常数据，利用偏差检测进行数据清洗。2.1分类分析（Classification）分类即学会一个分类函数或分类模型（也常常称作分类器）,利用该模型把数据库中的数据项映射到给定类别集合中的某一个。分类分析可以描述为：一组记录集合和一组具有不同特征的类别，这组类别称为标记（TAG），按标记分类记录，即将记录集合中的每一条记录赋予一个标记，对这些标记分类的记录进行检测评估，以一定的方式表述出记录的特征，利用学会的分类函数或分类模型，来对未知的新数据进行分类。分类分析是数据挖掘的众多分支中一个重要分支，在众多行业中都有广泛的应用,在过去的十多年中引起很多来自不同领域学者的关注和研究。按构造分类器的技术特点，可将分类算法分为：决策树（DecisionTree）、贝叶斯算法（BayesAlgo⁃rithm）、神经网络（NeuralNetwork）、模糊集（FuzzySet）、遗传算法（GeneticAlgorithm）、粗糙集（RoughSet）、k近邻分类算法（kNearestNeighbour）、支持向量机（SupportVectorMa⁃chine）等。其中贝叶斯分类算法是利用概率统计知识进行分类的分类算法，因其模型简单，处理速度快，正确率高，因而得到广泛的应用。2.2朴素贝叶斯（NaiveBayes）贝叶斯算法是探索、处理不确定性知识领域的一种简洁而有效的方法，以概率理论为基础，其学习和推理都由概率规则实作者简介：陈红玉（1981-），女，河北省唐山市人，硕士，助教，主要研究方向：数据挖掘。陈红玉：数据挖掘中贝叶斯分类算法的研究572009年第7期现，该算法关键在于使用概率表示各种形式的不确定性，原理是根据新的信息从先验概率得到后验概率。贝叶斯规则指出，如果存在一个假设H和一个样本E，其中P（H）是H先验概率，P（H|E）是后验概率，P（H|E）反映在E条件下,我们对假定H成立的信任程度。P（E|H）反映出假定H成立的前提下，满足E条件的概率。后验概率P（H|E）比先验概率P（H）基于更多的信息，根据不断获取的新信息修正先验概率P（H），最终得出后验概率P（H|E）。朴素贝叶斯（NaiveBayes）即在贝叶斯规则的基础上假设属性独立，其有效前提是P（E|H）相对比较容易计算。设有E{e1,e2…en}，E为实例中每个样本，ei为样本特征，则对于分类集H1,H2…Hm，由上述贝叶斯规则可得：其中：于｛P（Hi｜E）｝中得出P（Hj｜E）,满足条件P（Hj｜E）P（Hi｜E），（j∈（1,m）且j≠i），则概率所对应的类别Hj就是数据E所属的类别。2.3基于贝叶斯模型的文本分类设有分类集H和文本集E，对于文本分类集H，可以描述为文本的主题。而对于文本集E其特性描述为文本中出现的词汇，那么文本分类的方法可以描述为每一个词汇的出现或者是空缺，即用文本中词汇的布尔值属性描述文本特征。理论上朴素贝叶斯算法忽略了词汇在文本中出现的次数，即要求一个集合中所包含的特征向量具有唯一性。实际情况中，同一词汇在文本中很可能多次出现，不具有唯一性，且词汇出现次数在文本分类决策中起着至关重要的作用。基于以上原因我们需要对朴素贝叶斯算法进行调整，假设n1，n2，…，nk为词汇在文本中出现的次数，P1,P2,…,Pk是从所有的H类文本中取样得到i的概率。结合上述朴素贝叶斯原理，可得到对于一个文件E属于一个给定类别H的概率：其中，N=n1+n2+…+nk，为一个文本中的词汇总量。通过H类训练文本中i出现的频率可以估算出Pi的值。由于i在文本E中出现的位置并不重要，所以公式中采用了阶乘，且公式中的阶乘对于每个类都是一样的，在正常化过程中会被消除，不需要真正去计算。对于较大文档，公式中一些小概率相乘可能会造成概率偏差，对此可以采用对概率取对数的方式去来避免这样的问题。3结束语朴素贝叶斯法是一种简单而易实现的分类方法，但在处理属性时，它假设一个属性对给定类的影响独立于其它属性，在实际情况中此种假设过于简单，属性之间的依赖性难免会影响到朴素贝叶斯算法的挖掘能力。对此可以结合属性选择程序，在决策过程中仔细挑选属性子集，去除数据冗余造成的非独立属性。为降低独立性假设，也出现了许多对贝叶斯改进的分类算法，如，TAN算法、贝叶斯网络、半朴素贝叶斯算法、BAN算法等多种改进算法。各类算法不断向更高级、更多样化和更综合化方向发展，使学习方案更加精细，从而得出更加完善的预测结果。参考文献：[1]朱明.数据挖掘[M].北京：中国科学技术大学出版社，2002.[2]LangleyP，SageS.InductionofselectiveBayesianclassifiers，inProceedingsoftheTenthConferenceonUncertaintyinArtificialIntelligence（1994），pp.339-406.[3]邵峰晶，于忠清.数据挖掘原理与算法[M].北京：中国水利水电出版社，2003.[4]刘红岩.可扩展的快速分类算法的研究与实现[D].北京:清华大学。2000.58