数据挖掘中贝叶斯分类算法的研究陈红玉(铁道警官高等专科学校,河南郑州450001)摘要:随着数据挖掘理论和技术的发展,分类挖掘的技术也逐渐趋向成熟,出现了许多有效的分类算法。本文简要叙述了数据挖掘及常用的几种挖掘方法,重点阐述贝叶斯算法的原理及应用,并以文本分类为实例建立了贝叶斯分类模型。关键词:数据挖掘;分类;贝叶斯中图分类号:TP311文献标识码:AAnalysisofBayesianClassificationAlgorithminDataMiningCHENHong-yu(RailwayPoliceCollege,HenanZhengzhou450001)Keywords:datamining;classification;Bayesian·多媒体技术·1引言随着计算机软硬件的发展,社会各行业信息化程度不断加深,一方面数据处理对于社会生产生活的影响也越加深远,数据存量急剧增长。而另一方面,大量的存储空间使数据资源并没有完全被利用,人们一面淹没于海量数据中,一面却仍感到知识匮乏,出现所谓“数据爆炸而信息贫乏”的现象。究其原因,是因为数据库及其管理技术以及相关数据处理工具,在信息的获取方面有一定的局限性,只能获取其中的一部分信息,远不能满足人们的需求。事实证明,在数据中隐藏着的这些重要信息,不仅能更深层次反映出数据间存在的潜在关系,在各项决策中也具有重要的参考价值。数据挖掘DM(DataMining)的任务正是发现这些被忽略的信息,从中产生效益。数据挖掘DM(DataMining)被定义为找出数据中模式的过程,即对数据库中数据进行一定的处理,从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含的、事先未知、但又是潜在有用的信息和知识的过程。工作步骤如下:首先,确定挖掘对象,搜索有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。其次,研究数据质量做数据准备工作,例如数据的清理、集成、选择、变换等。再次,选择有效算法对庞大有限的数据空间进行分析处理,挖掘数据集合中我们感兴趣的信息。2数据挖掘中的方法数据挖掘常用方法主要有:关联(Associations),目的在于挖掘出数据库中隐藏的关联网,可分为简单关联、时序关联、因果关联等;聚类(Clustering),是对记录分组,把相似的记录聚在一个集合里,焦点集中在数据间的相似性;分类(Classification),是根据分类集建立模型,该模型用于对未分类数据集分类;估值(Estimation),估值与分类类似,但估值处理连续值的输出,且估值的量是不确定的;预言(Prediction),是通过分类或估值得出模型,该模型用于对未知变量的预言,在数据挖掘中是归纳推理;偏差检测(DeviationSegmentation),是发现数据库中的异常数据,利用偏差检测进行数据清洗。2.1分类分析(Classification)分类即学会一个分类函数或分类模型(也常常称作分类器),利用该模型把数据库中的数据项映射到给定类别集合中的某一个。分类分析可以描述为:一组记录集合和一组具有不同特征的类别,这组类别称为标记(TAG),按标记分类记录,即将记录集合中的每一条记录赋予一个标记,对这些标记分类的记录进行检测评估,以一定的方式表述出记录的特征,利用学会的分类函数或分类模型,来对未知的新数据进行分类。分类分析是数据挖掘的众多分支中一个重要分支,在众多行业中都有广泛的应用,在过去的十多年中引起很多来自不同领域学者的关注和研究。按构造分类器的技术特点,可将分类算法分为:决策树(DecisionTree)、贝叶斯算法(BayesAlgo⁃rithm)、神经网络(NeuralNetwork)、模糊集(FuzzySet)、遗传算法(GeneticAlgorithm)、粗糙集(RoughSet)、k近邻分类算法(kNearestNeighbour)、支持向量机(SupportVectorMa⁃chine)等。其中贝叶斯分类算法是利用概率统计知识进行分类的分类算法,因其模型简单,处理速度快,正确率高,因而得到广泛的应用。2.2朴素贝叶斯(NaiveBayes)贝叶斯算法是探索、处理不确定性知识领域的一种简洁而有效的方法,以概率理论为基础,其学习和推理都由概率规则实作者简介:陈红玉(1981-),女,河北省唐山市人,硕士,助教,主要研究方向:数据挖掘。陈红玉:数据挖掘中贝叶斯分类算法的研究572009年第7期现,该算法关键在于使用概率表示各种形式的不确定性,原理是根据新的信息从先验概率得到后验概率。贝叶斯规则指出,如果存在一个假设H和一个样本E,其中P(H)是H先验概率,P(H|E)是后验概率,P(H|E)反映在E条件下,我们对假定H成立的信任程度。P(E|H)反映出假定H成立的前提下,满足E条件的概率。后验概率P(H|E)比先验概率P(H)基于更多的信息,根据不断获取的新信息修正先验概率P(H),最终得出后验概率P(H|E)。朴素贝叶斯(NaiveBayes)即在贝叶斯规则的基础上假设属性独立,其有效前提是P(E|H)相对比较容易计算。设有E{e1,e2…en},E为实例中每个样本,ei为样本特征,则对于分类集H1,H2…Hm,由上述贝叶斯规则可得:其中:于{P(Hi|E)}中得出P(Hj|E),满足条件P(Hj|E)P(Hi|E),(j∈(1,m)且j≠i),则概率所对应的类别Hj就是数据E所属的类别。2.3基于贝叶斯模型的文本分类设有分类集H和文本集E,对于文本分类集H,可以描述为文本的主题。而对于文本集E其特性描述为文本中出现的词汇,那么文本分类的方法可以描述为每一个词汇的出现或者是空缺,即用文本中词汇的布尔值属性描述文本特征。理论上朴素贝叶斯算法忽略了词汇在文本中出现的次数,即要求一个集合中所包含的特征向量具有唯一性。实际情况中,同一词汇在文本中很可能多次出现,不具有唯一性,且词汇出现次数在文本分类决策中起着至关重要的作用。基于以上原因我们需要对朴素贝叶斯算法进行调整,假设n1,n2,…,nk为词汇在文本中出现的次数,P1,P2,…,Pk是从所有的H类文本中取样得到i的概率。结合上述朴素贝叶斯原理,可得到对于一个文件E属于一个给定类别H的概率:其中,N=n1+n2+…+nk,为一个文本中的词汇总量。通过H类训练文本中i出现的频率可以估算出Pi的值。由于i在文本E中出现的位置并不重要,所以公式中采用了阶乘,且公式中的阶乘对于每个类都是一样的,在正常化过程中会被消除,不需要真正去计算。对于较大文档,公式中一些小概率相乘可能会造成概率偏差,对此可以采用对概率取对数的方式去来避免这样的问题。3结束语朴素贝叶斯法是一种简单而易实现的分类方法,但在处理属性时,它假设一个属性对给定类的影响独立于其它属性,在实际情况中此种假设过于简单,属性之间的依赖性难免会影响到朴素贝叶斯算法的挖掘能力。对此可以结合属性选择程序,在决策过程中仔细挑选属性子集,去除数据冗余造成的非独立属性。为降低独立性假设,也出现了许多对贝叶斯改进的分类算法,如,TAN算法、贝叶斯网络、半朴素贝叶斯算法、BAN算法等多种改进算法。各类算法不断向更高级、更多样化和更综合化方向发展,使学习方案更加精细,从而得出更加完善的预测结果。参考文献:[1]朱明.数据挖掘[M].北京:中国科学技术大学出版社,2002.[2]LangleyP,SageS.InductionofselectiveBayesianclassifiers,inProceedingsoftheTenthConferenceonUncertaintyinArtificialIntelligence(1994),pp.339-406.[3]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003.[4]刘红岩.可扩展的快速分类算法的研究与实现[D].北京:清华大学。2000.58