数据挖掘-分类

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

2020年4月18日星期六1主要内容分类和预测贝叶斯分类、神经网络分类预测2020年4月18日星期六2Classification主要用于对离散的数据进行预测分为两步:根据训练集,构造分类模型(训练集中每个元组的分类标号事先已经知道)估计分类模型的准确性,如果其准确性可以接受的话,则利用它来对未来数据进行分类Prediction:构造、使用模型来对某个样本的值进行估计,例如预测某个不知道的值或者缺失值主要用于对连续或有序的数据进行预测Typicalapplications信誉评估医学诊断性能预测Classificationvs.Prediction2020年4月18日星期六3Classification—ATwo-StepProcess模型构造阶段:describingasetofpredeterminedclasses假定每个元组/样本都属于某个预定义的类,这些类由分类标号属性所定义用来构造模型的元组/样本集被称为训练集(trainingset)模型一般表示为:分类规则,决策树或者数学公式模型使用阶段:forclassifyingfutureorunknownobjects估计模型的准确性用一些已知分类标号的测试集和由模型进行分类的结果进行比较两个结果相同所占的比率称为准确率测试集和训练集必须不相关如果准确性可以接受的话,使用模型来对那些不知道分类标号的数据进行分类。2020年4月18日星期六4ClassificationProcess(1):ModelConstructionTrainingDataNAMERANKYEARSTENUREDMikeAssistantProf3noMaryAssistantProf7yesBillProfessor2yesJimAssociateProf7yesDaveAssistantProf6noAnneAssociateProf3noClassificationAlgorithmsIFrank=‘professor’ORyears6THENtenured=‘yes’Classifier(Model)2020年4月18日星期六5ClassificationProcess(2):UsetheModelinPredictionClassifierTestingDataNAMERANKYEARSTENUREDTomAssistantProf2noMerlisaAssociateProf7noGeorgeProfessor5yesJosephAssistantProf7yesUnseenData(Jeff,Professor,4)Tenured?2020年4月18日星期六6分类和预测相关问题(1):数据预处理数据清洗对数据进行预处理,去掉噪声,对缺失数据进行处理(用某个最常用的值代替或者根据统计用某个最可能的值代替)相关分析(特征选择)去掉某些不相关的或者冗余的属性数据转换对数据进行概括(如将连续的值离散成若干个区域,将街道等上升到城市)对数据进行规范化,将某个属性的值缩小到某个指定的范围之内2020年4月18日星期六7分类和预测相关问题(2):对分类方法进行评价准确性:分类准确性和预测准确性速度和可伸缩性构造模型的时间(训练时间)使用模型的时间(分类/预测时间)鲁棒性能够处理噪声和缺失数据可伸缩性对磁盘级的数据库有效易交互性模型容易理解,具有较好的洞察力2020年4月18日星期六8VisualizationofaDecisionTreeinSGI/MineSet3.02020年4月18日星期六9Supervisedvs.UnsupervisedLearningSupervisedlearning(classification)Supervision:Thetrainingdata(observations,measurements,etc.)areaccompaniedbylabelsindicatingtheclassoftheobservationsNewdataisclassifiedbasedonthetrainingsetUnsupervisedlearning(clustering)TheclasslabelsoftrainingdataisunknownGivenasetofmeasurements,observations,etc.withtheaimofestablishingtheexistenceofclassesorclustersinthedata2020年4月18日星期六10简单例子分类两岁宝宝,给他看几个水果,并告诉他:红的圆的是苹果,橘黄的圆的是橘子(建模型)拿一个水果问宝宝:这个水果,红的圆的,是什么?(用模型)聚类两岁宝宝,给他一堆水果,告诉他:根据颜色分成两堆。宝宝会将苹果分成一堆,橘子分成一堆。假如告诉他:根据大小分成3堆,则宝宝会根据大小分成3堆,苹果和橘子可能会放在一起。2020年4月18日星期六11主要内容分类和预测贝叶斯分类、神经网络分类预测2020年4月18日星期六12BayesianClassification是一种基于统计的分类方法,用来预测诸如某个样本属于某个分类的概率有多大基于Bayes理论研究发现,NaïveBayesClassifier在性能上和DecisionTree、NeuralNetworkclassifiers相当。在应用于大数据集时,具有较高的准确率和速度NaïveBayesClassifier假设属性值之间是独立的,因此可以简化很多计算,故称之为Naïve。当属性值之间有依赖关系时,采用BayesianBeliefNetworks进行分类。2020年4月18日星期六13BayesianTheorem:Basics假设X是未知分类标号的样本数据H代表某种假设,例如X属于分类CP(H|X):给定样本数据X,假设H成立的概率例如,假设样本数据由各种水果组成,每种水果都可以用形状和颜色来描述。如果用X代表红色并且是圆的,H代表X属于苹果这个假设,则P(H|X)表示,已知X是红色并且是圆的,则X是苹果的概率。2020年4月18日星期六14BayesianTheorem:BasicsP(H):拿出任一个水果,不管它什么颜色,也不管它什么形状,它属于苹果的概率P(X):拿出任一个水果,不管它是什么水果,它是红色并且是圆的概率P(X|H):一个水果,已知它是一个苹果,则它是红色并且是圆的概率。2020年4月18日星期六15BayesianTheorem:Basics现在的问题是,知道数据集里每个水果的颜色和形状,看它属于什么水果,求出属于每种水果的概率,选其中概率最大的。也就是要算:P(H|X)但事实上,其他三个概率,P(H)、P(X)、P(X|H)都可以由已知数据得出,而P(H|X)无法从已知数据得出Bayes理论可以帮助我们:)()()|()|(XPHPHXPXHP2020年4月18日星期六16NaïveBayesClassifier每个数据样本用一个n维特征向量表示,描述由属性对样本的n个度量。假定有m个类。给定一个未知的数据样本X(即,没有类标号),分类法将预测X属于具有最高后验概率(条件X下)的类。即,朴素贝叶斯分类将未知的样本分配给类Ci,当且仅当:这样,我们最大化。其最大的类Ci称为最大后验假定。根据贝叶斯定理:.1)|()|(ijmjXCPXCPji)|(XCPi)()()|()|(XPiCPiCXPXCPi2020年4月18日星期六17NaïveBayesClassifier由于P(X)对于所有类为常数,只需要最大即可。如果类的先验概率未知,则通常假定这些类是等概率的;即,。并据此只对最大化。否则,我们最大化。类的先验概率可以用计算;其中,si是类C中的训练样本数,而s是训练样本总数。)()|(iiCPCXP)(...)()(21mCPCPCP)|(iCXP)()|(iiCPCXPssCPii)(2020年4月18日星期六18NaïveBayesClassifier给定具有许多属性的数据集,计算的开销可能非常大。为降低计算的开销,可以朴素地假设属性间不存在依赖关系。这样,概率,,…,可以由训练样本估计,其中,(a)如果Ak是分类属性,则;其中sik是在属性Ak上具有值xk的类Ci的训练样本数,而si是Ci中的训练样本数(b)如果是连续值属性,则通常假定该属性服从高斯分布。因而,其中,给定类Ci的训练样本属性Ak的值,是属性Ak的高斯密度函数,而分别为平均值和标准差。)|(iCXPnkCixkPCiXP1)|()|()|(1iCxP)|(2iCxP)|(inCxPiikikssCxP)|(222)(21),,()|(iCiCiiixCCCkikexgCxP),,(iiCCkxgiiCC,2020年4月18日星期六19NaïveBayesClassifier为对未知样本X分类,对每个类Ci,计算。样本X被指派到类Ci,当且仅当:换言之,X被指派到其最大的类Ci。.1)()|()()|(ijmjCPCXPCPCXPjjii)()|(iiCPCXP2020年4月18日星期六20Trainingdatasetageincomestudentcredit_ratingbuys_computer=30highnofairno=30highnoexcellentno30…40highnofairyes40mediumnofairyes40lowyesfairyes40lowyesexcellentno31…40lowyesexcellentyes=30mediumnofairno=30lowyesfairyes40mediumyesfairyes=30mediumyesexcellentyes31…40mediumnoexcellentyes31…40highyesfairyes40mediumnoexcellentnoClass:C1:buys_computer=‘yes’C2:buys_computer=‘no’DatasampleX=(age=30,Income=medium,Student=yesCredit_rating=Fair)2020年4月18日星期六21NaïveBayesianClassifier:AnExampleComputeP(X|Ci)foreachclassP(buys_computer=“yes”)=9/14=0.643P(buys_computer=“no”)=5/14=0.357P(age=“30”|buys_computer=“yes”)=2/9=0.222P(age=“30”|buys_computer=“no”)=3/5=0.6P(income=“medium”|buys_computer=“yes”)=4/9=0.444P(income=“medium”|buys_computer=“no”)=2/5=0.4P(student=“yes”|buys_computer=“yes)=6/9=0.667P(student=“yes”|buys_computer=“no”)=1/5=0.2P(credit_rating=“fair”|buys_computer=“yes”)=6/9=0.667P(credit_rating=“fair”|buys_computer=“no”)=2/5=0.4X=(age=30,income=medium,student=yes,credit_rating=fair)P(X|Ci):P(X|buys_computer=“yes”)=0.222x0.444x0.667x0.667=0.044P(X|buys_co

1 / 53
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功