模式识别实验报告1ws

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

模式识别实验报告5103班3115390014魏双基于贝叶斯方法对鸢尾花数据的分类一、实验原理贝叶斯准则又称为最大后验概率,假定一个两类问题,先验概率分别为1()P和2()P。令X为n维向量,X的类条件概率密度为1(X)p和2(X)p分别表示的。由全概率公式,可知观测样本X出现的全概率密度为:1122(X)(X)()(X)()ppPpP(1)由贝叶斯公式,在观测样本X出现的情况下,X属于两个类别1和2的后验概率分别可表示为:111(X)()P(X)(X)pPp222(X)()P(X)(X)pPp这里,(X)p由式(1)给出。如果规定把观测样本X判归后验概率较大的类别,则相应的判决规则可表示为:121212P(X)P(X)P(X)P(X)XX上述规则可进一步表示为:1122122112(X)()(X)()(X)()(X)()pPpPXpPpPX对于具有多个特征参数的样本150个(本实验的IRIS数据为n=4维)。实验中所用的数据集已经分成三类,假设本实验所使用的IRIS鸢尾花数据中各类数据服从正态分布,则概率密度函数为:鸢尾花数据集包含了150个样本,分别是山鸢尾,变色鸢尾和维吉尼亚鸢尾。四个特征被用作样本的定量分析,分别是花瓣的长度和宽度。实验中所用的数据集已经分成三类,第一组为山鸢尾,第二组为变色鸢尾,第三组为维吉尼亚鸢尾。对于具有多个特征参数的样本,其正态分布的概率密度函数为:}'mean-mean-21exp{-21xP1-212n)()()()(XBXB其中X是n维的行向量,B是n*n维的协方差矩阵,B是B的行列式,mean是均值。(X)()i1,2,3iipipP由其判决规则,Xipipjij即可对样本进行分类。二、实验过程(1)数据导入导入data.txt文件中数据,并将三类数据分别存储,每个数据都为一个4维行特征向量。closeall;clearall;clc;A=load('data.txt');B1=[A(1:5,:)];B2=[A(51:56,:)];B3=[A(101:105,:)];(2)抽取数据分类计算设置每组训练数据个数NUM_train,从每类50个数据中随机抽取NUM_train个向量作为训练数据并存储,剩余数据作为测试样本存储。N1=5;N2=5;N3=5;Xp1=0.5;Xp2=0.5;Xp3=0.5;mean1=mean(B1);mean2=mean(B2);mean3=mean(B3);var1=cov(B1);n1=inv(cov(B1));k1=det(var1);var2=cov(B2);n2=inv(var2);k2=det(var2);var3=cov(B3);n3=inv(var3);k3=det(var3);(4)分类测试一共分为三组(w1,w2)(w1,w3)(w2,w3),test=1代表(w1,w2)分类,test=2代表(w1,w3)分类,test=3代表(w2,w3)分类,针对某一训练数据x计算其判别函数Pi,比较两个值的大小,哪个最大,就可判断该数据属于哪一类。G=[A(6:50,:);A(106:150,:)];a=zeros(1,90);a1=zeros(1,90);a2=zeros(1,90);fori=1:1:90p1=-0.5*(G(i,:)-mean1)*n1*(G(i,:)-mean1)'-0.5*log(k1)+log(Xp1);p2=-0.5*(G(i,:)-mean2)*n2*(G(i,:)-mean2)'-0.5*log(k2)+log(Xp2);p3=-0.5*(G(i,:)-mean3)*n3*(G(i,:)-mean3)'-0.5*log(k3)+log(Xp3);a1(i)=p1;a2(i)=p2;ifp1p2a(i)=1;elsea(i)=2;endend三、实验结果(一)第一组和第二组a)分别取第一组和第二组的前10个样本作为训练样本,求出每一类别(X)ip的表达式,然后对剩余的样本进行分类,此时先验概率均为0.5,比较(X)ip的大小。得到的判决结果如下:Columns1through101111111111Columns11through201111111111Columns21through301111111111Columns31through401111111111Columns41through502222222222Columns51through602222222222Columns61through702222222222Columns71through802222222222成功率依然为100%,这说明每类10个数据也足够成功的将不同类的数据区分开来。b)分别取第一组和第二组的前五个样本作为训练样本,然后再对剩余样本进行分类,结果如下:Columns1through102222222222Columns11through202222222222Columns21through302222222222Columns31through402222222222Columns41through502222222222Columns51through602222222222Columns61through702222222222Columns71through802222222222Columns81through902222222222可见,当样本数量太少时,所提供的信息不足以区分两组类别。c)若取第一组和第二组的5个差异比较大的样本作为训练样本,先验概率第一组取0.5,第三组取0.5,判决结果如下:Columns1through101111111111Columns11through201111111111Columns21through301111111111Columns31through401111111111Columns41through501111122222Columns51through602222222222Columns61through702222222222Columns71through802222222222Columns81through902222222222判决结果完全正确,说明训练样本的选取也会对后面的分类产生影响,并且训练样本的差异越大越好。d)若改变先验概率,假设p1=0.7,p2=0.3,每组数据仍采用10个作为已知数据,其余为被检测数据,实验结果如下:Columns1through101111111111Columns11through201111111111Columns21through301111111111Columns31through401111111111Columns41through502222222222Columns51through602222222222Columns61through702222222222Columns71through802222222222结果仍然是正确率百分百,说明第一类和第二类特征比较明显,比较容易区别开。(二)第一组和第三组a)分别取第一组和第三组的前10个样本作为训练样本,先验概率均取0.5所得判决结果:Columns1through101111111111Columns11through201111111111Columns21through301111111111Columns31through401111111111Columns41through503333333333Columns51through603333333333Columns61through703333333333Columns71through803333333333判决结果完全正确,说明只需要十组样本就足以分类第一类和第三类。b)分别取第一组和第三组的前6个样本作为训练样本,先验概率第一组取0.5,第三组取0.5,判别结果如下:Columns1through101111111111Columns11through201111111111Columns21through301111111111Columns31through401111111111Columns41through501111333333Columns51through603333333333Columns61through703333333333Columns71through803333333333Columns81through8833333333从结果可见,正确率100%,说明6个样本足以来区分第一类和第三类。c)若继续减小样本数量,分别取第一组和第三组的前5个样本作为训练样本,先验概率第一组取0.5,第三组取0.5,判决则会出现错误。程序会出现警告,判决结果如下:Columns1through103333333333Columns11through203333333333Columns21through303333333333Columns31through403333333333Columns41through503333333333Columns51through603333333333Columns61through703333333333Columns71through803333333333Columns81through903333333333可见,因为样本的减少,信息量不够,导致判断失误。d)若取第一组和第三组的5个差异比较大的样本作为训练样本,先验概率第一组取0.5,第三组取0.5,判决结果如下:Columns1through101111111111Columns11through201111111111Columns21through301111111111Columns31through401111111111Columns41through501111133333Columns51through603333333333Columns61through703333333333Columns71through803333333333Columns81through903333333333判决结果完全正确,说明训练样本的选取也会对后面的分类产生影响,并且训练样本的差异越大越好。(三)第二组和第三组a)分别取两组的前10组,先验概率均取0.5,判决结果如下:Columns1through102222222222Columns11through202222222222Columns21through302223222222Columns31through402222222222Columns41through503333333333Columns51through603333332233Columns61through703232333323Columns71through803333333333结果可见,正确率达93.7%,经比较,第二组和第三组的特征差异不如和第一组的显著。b)分别取两组的前20组,先验概率均取0.5,程序出现警告,判决结果如下:Columns1through103222222222Columns11through202223222222Columns21through302222222222Columns31through403333333333Columns41through503333333333Columns51through603333333333从结果可见,正确率达96.7%c)分别取两组的前20组,先验概率第二类取0.7,第三类取0.3,判决结果如下:Columns1through102222222222Columns11through202223222222Columns21th

1 / 9
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功