模式识别实验报告1ws

aks718
1 ℃
2020-07-04

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

模式识别实验报告5103班3115390014魏双基于贝叶斯方法对鸢尾花数据的分类一、实验原理贝叶斯准则又称为最大后验概率，假定一个两类问题，先验概率分别为1()P和2()P。令X为n维向量，X的类条件概率密度为1(X)p和2(X)p分别表示的。由全概率公式，可知观测样本X出现的全概率密度为：1122(X)(X)()(X)()ppPpP（1）由贝叶斯公式，在观测样本X出现的情况下，X属于两个类别1和2的后验概率分别可表示为：111(X)()P(X)(X)pPp222(X)()P(X)(X)pPp这里，(X)p由式(1)给出。如果规定把观测样本X判归后验概率较大的类别，则相应的判决规则可表示为：121212P(X)P(X)P(X)P(X)XX上述规则可进一步表示为：1122122112(X)()(X)()(X)()(X)()pPpPXpPpPX对于具有多个特征参数的样本150个（本实验的IRIS数据为n=4维）。实验中所用的数据集已经分成三类，假设本实验所使用的IRIS鸢尾花数据中各类数据服从正态分布，则概率密度函数为：鸢尾花数据集包含了150个样本，分别是山鸢尾，变色鸢尾和维吉尼亚鸢尾。四个特征被用作样本的定量分析，分别是花瓣的长度和宽度。实验中所用的数据集已经分成三类，第一组为山鸢尾，第二组为变色鸢尾，第三组为维吉尼亚鸢尾。对于具有多个特征参数的样本，其正态分布的概率密度函数为：}'mean-mean-21exp{-21xP1-212n）（）（）（）（XBXB其中X是n维的行向量，B是n*n维的协方差矩阵，B是B的行列式，mean是均值。(X)()i1,2,3iipipP由其判决规则，Xipipjij即可对样本进行分类。二、实验过程（1）数据导入导入data.txt文件中数据，并将三类数据分别存储，每个数据都为一个4维行特征向量。closeall;clearall;clc;A=load('data.txt');B1=[A(1:5,:)];B2=[A(51:56,:)];B3=[A(101:105,:)];（2）抽取数据分类计算设置每组训练数据个数NUM_train，从每类50个数据中随机抽取NUM_train个向量作为训练数据并存储，剩余数据作为测试样本存储。N1=5;N2=5;N3=5;Xp1=0.5;Xp2=0.5;Xp3=0.5;mean1=mean(B1);mean2=mean(B2);mean3=mean(B3);var1=cov(B1);n1=inv(cov(B1));k1=det(var1);var2=cov(B2);n2=inv(var2);k2=det(var2);var3=cov(B3);n3=inv(var3);k3=det(var3);（4）分类测试一共分为三组（w1,w2）（w1,w3）（w2,w3），test=1代表（w1,w2）分类，test=2代表（w1,w3）分类，test=3代表（w2,w3）分类，针对某一训练数据x计算其判别函数Pi，比较两个值的大小，哪个最大，就可判断该数据属于哪一类。G=[A(6:50,:);A(106:150,:)];a=zeros(1,90);a1=zeros(1,90);a2=zeros(1,90);fori=1:1:90p1=-0.5*(G(i,:)-mean1)*n1*(G(i,:)-mean1)'-0.5*log(k1)+log(Xp1);p2=-0.5*(G(i,:)-mean2)*n2*(G(i,:)-mean2)'-0.5*log(k2)+log(Xp2);p3=-0.5*(G(i,:)-mean3)*n3*(G(i,:)-mean3)'-0.5*log(k3)+log(Xp3);a1(i)=p1;a2(i)=p2;ifp1p2a(i)=1;elsea(i)=2;endend三、实验结果（一）第一组和第二组a)分别取第一组和第二组的前10个样本作为训练样本，求出每一类别(X)ip的表达式，然后对剩余的样本进行分类，此时先验概率均为0.5，比较(X)ip的大小。得到的判决结果如下：Columns1through101111111111Columns11through201111111111Columns21through301111111111Columns31through401111111111Columns41through502222222222Columns51through602222222222Columns61through702222222222Columns71through802222222222成功率依然为100%，这说明每类10个数据也足够成功的将不同类的数据区分开来。b)分别取第一组和第二组的前五个样本作为训练样本，然后再对剩余样本进行分类，结果如下：Columns1through102222222222Columns11through202222222222Columns21through302222222222Columns31through402222222222Columns41through502222222222Columns51through602222222222Columns61through702222222222Columns71through802222222222Columns81through902222222222可见，当样本数量太少时，所提供的信息不足以区分两组类别。c)若取第一组和第二组的5个差异比较大的样本作为训练样本，先验概率第一组取0.5，第三组取0.5，判决结果如下：Columns1through101111111111Columns11through201111111111Columns21through301111111111Columns31through401111111111Columns41through501111122222Columns51through602222222222Columns61through702222222222Columns71through802222222222Columns81through902222222222判决结果完全正确，说明训练样本的选取也会对后面的分类产生影响，并且训练样本的差异越大越好。d)若改变先验概率，假设p1=0.7，p2=0.3，每组数据仍采用10个作为已知数据，其余为被检测数据，实验结果如下：Columns1through101111111111Columns11through201111111111Columns21through301111111111Columns31through401111111111Columns41through502222222222Columns51through602222222222Columns61through702222222222Columns71through802222222222结果仍然是正确率百分百，说明第一类和第二类特征比较明显，比较容易区别开。（二）第一组和第三组a)分别取第一组和第三组的前10个样本作为训练样本，先验概率均取0.5所得判决结果：Columns1through101111111111Columns11through201111111111Columns21through301111111111Columns31through401111111111Columns41through503333333333Columns51through603333333333Columns61through703333333333Columns71through803333333333判决结果完全正确，说明只需要十组样本就足以分类第一类和第三类。b)分别取第一组和第三组的前6个样本作为训练样本，先验概率第一组取0.5，第三组取0.5，判别结果如下：Columns1through101111111111Columns11through201111111111Columns21through301111111111Columns31through401111111111Columns41through501111333333Columns51through603333333333Columns61through703333333333Columns71through803333333333Columns81through8833333333从结果可见，正确率100%，说明6个样本足以来区分第一类和第三类。c)若继续减小样本数量，分别取第一组和第三组的前5个样本作为训练样本，先验概率第一组取0.5，第三组取0.5，判决则会出现错误。程序会出现警告，判决结果如下：Columns1through103333333333Columns11through203333333333Columns21through303333333333Columns31through403333333333Columns41through503333333333Columns51through603333333333Columns61through703333333333Columns71through803333333333Columns81through903333333333可见，因为样本的减少，信息量不够，导致判断失误。d)若取第一组和第三组的5个差异比较大的样本作为训练样本，先验概率第一组取0.5，第三组取0.5，判决结果如下：Columns1through101111111111Columns11through201111111111Columns21through301111111111Columns31through401111111111Columns41through501111133333Columns51through603333333333Columns61through703333333333Columns71through803333333333Columns81through903333333333判决结果完全正确，说明训练样本的选取也会对后面的分类产生影响，并且训练样本的差异越大越好。（三）第二组和第三组a)分别取两组的前10组，先验概率均取0.5，判决结果如下：Columns1through102222222222Columns11through202222222222Columns21through302223222222Columns31through402222222222Columns41through503333333333Columns51through603333332233Columns61through703232333323Columns71through803333333333结果可见，正确率达93.7%，经比较，第二组和第三组的特征差异不如和第一组的显著。b)分别取两组的前20组，先验概率均取0.5，程序出现警告，判决结果如下：Columns1through103222222222Columns11through202223222222Columns21through302222222222Columns31through403333333333Columns41through503333333333Columns51through603333333333从结果可见，正确率达96.7%c)分别取两组的前20组，先验概率第二类取0.7，第三类取0.3，判决结果如下：Columns1through102222222222Columns11through202223222222Columns21th