深圳大学研究生课程:模式识别理论与方法课程作业实验指导(4thEdition)(分数:5%10=50%)(共10题)实验参考教材:a)《PatternClassification》byRichardO.Duda,PeterE.Hart,DavidG.Stork,2ndEditionWiley-Interscience,2000.(机械工业出版社,2004年,影印版)。b)《模式分类》RichardO.Duda,PeterE.Hart,DavidG.Stork著;李宏东,姚天翔等译;机械工业出版社和中信出版社出版,2003年。(上面a的中文翻译版)c)《模式识别(英文第四版)》SergiosTheodoridis,KonstantinosKoutroumbas著;机械工业出版社,2009年,影印版。d)《神经网络与机器学习(原书第三版)》SimonHaykin著;申富饶等译,机械工业出版社,2013年。裴继红编2015年2月深圳大学信息工程学院深圳大学研究生课程“模式识别理论与方法”实验指导书(4thEdition裴继红编)1提交实验报告的格式要求实验作业是本课程的重要组成部分,实验报告要简捷、明了,要有统一而简单的格式。下面是实验报告的参考格式要求:封面.要求排版美观,内容包括:实验名称(标题)实验编号签名姓名学号截止提交日期摘要(不要超过1/2页)技术论述.约1~4页.包括所使用的技术,如果在实验中涉及到公式的话,则要包括在实验中用到的主要公式。实验结果讨论.1~2页.包括实验中主要的客观发现,以及对任何生成的图表、图形等的清楚、明确的介绍和说明。实验结果(页数不限).包括实验中产生的所有图表、图形。每幅图表、图形要单独编号,以利于在讨论过程中方便引用。附录.程序清单.学生自己编写的所有程序的清单。对于公认的有名称的标准例程,其源码程序不需要打印出清单,但需要注明出处。实验报告版面要求.整个报告打印在标准A4(21x29.7cm)纸张上,报告用订书机左侧装订。编程中注意的事项:目前有很多可以完成本课程实验中的某些函数的现成程序包。但是在本课程的实验中,若整个实验过程仅仅用已经存在的、现成的例程去实现是不允许的,也不会有高分的。下一页是本课程试验报告的封面样例深圳大学研究生课程“模式识别理论与方法”实验指导书(4thEdition裴继红编)2深圳大学研究生课程:模式识别理论与方法课程作业实验报告(封面样例)实验名称:利用matlab生成模式类实验编号:Proj01-01签名:姓名:叶佩林学号:20140802截止提交日期:2015年3月13日摘要:包括实验内容、解决问题所用关键技术、实验所得结果分析等(注意:摘要字体为五号宋体,摘要长度至少100字以上,但不宜超出本页)深圳大学研究生课程“模式识别理论与方法”实验指导书(4thEdition裴继红编)3实验内容概述关于编程的一点说明:本课程实验的主要目的如下:(1)理解和掌握模式识别的基本理论和基本算法;(2)帮助学生建立使用模式识别理论解决问题的感性概念,以及用计算机程序解决模式识别问题的设计步骤。本课程实验所需要的编程环境可以是C、C++等常规程序开发环境,也可以是包含有已经存在的具有可扩展能力的函数集合组成的集成编程环境。集成环境最典型的例子是MATLAB的编程环境。建议实验中使用MATLAB集成编程环境。实验题目如下:ProjectNo.TitleChapterCommentsProj01-01利用matlab生成模式类11Proj02-01贝叶斯分类器22Proj03-01最大似然估计与贝叶斯估计方法33Proj03-02PCA主分量分析与Fisher线性判别分析34Proj04-01Parzen窗估计和k最近邻估计45Proj05-01感知器的实现56Proj06-01三层BP神经网络的设计与实现67Proj07-01模拟退火算法的设计与实现78Proj08-01分类回归决策树CART的研究与实现89Proj10-01k均值聚类的研究与实现1010深圳大学研究生课程“模式识别理论与方法”实验指导书(4thEdition裴继红编)4实验题目说明如下:Proj01-01:利用matlab生成模式类在Matlab中提供了很多产生随机数和随机向量的函数,以及计算随机函数的概率密度值的函数。下面是几个较常用的函数:rand()生成均匀分布随机数randn()生成高斯分布随机数mvnrnd()生成多元高斯分布的随机向量矩阵mvnpdf()计算多元高斯分布的概率密度函数值认真阅读上述函数Matlab的在线帮助,以及Matlab中的绘图函数,完成下面的实验。(1)在一维区间[10,70]中,生成1000个均匀分布的随机数,然后统计并绘制这些数的直方图;在二维区间[1,5]☓[20,30]中,生成5000个均匀分布的二维随机点,并绘制出它们的二维散点图;在三维区间[10,50]☓[30,60]☓[10,15]中,生成10000个均匀分布的三维随机点量,并绘制出它们的三维散点图。扩展实验1:利用均匀分布的随机数函数,编写可以生成具有三角分布、以及梯形分布的随机数的函数。用它们生成一定数量的样本数据,并绘制数据分布图。(2)生成两组各1000个具有不同均值和方差的一维高斯分布的随机数,然后统计并绘制这些点的直方图;生成三组各1000个具有不同均值矢量和协方差矩阵的二维随机矢量,并绘制出它们的二维散点图;生成五组各1000个具有不同均值矢量和协方差矩阵的三维随机矢量,并绘制出它们的三维散点图。进一步,绘制上述三维随机矢量数据集合的二维投影散点图。可以指定模式向量的其中两个分量,将集合中每个向量的这两个分量提取出来构成一个2维模式子分量的向量集合,然后在二维平面上画出该子分量集合的二维散点图。深圳大学研究生课程“模式识别理论与方法”实验指导书(4thEdition裴继红编)5(3)确定一个二维的均值矢量和协方差矩阵,然后利用matlab中的meshgrid函数生成一个二维网格,利用mvnpdf函数计算在每个网格点上的概率密度函数值,并绘制出这些函数值的三维曲面图。扩展实验2,编写一个生成N个d维向量的混合高斯类数据集的函数。其中,生成的数据集中共有N个模式向量,它们分成c类。各个类对应的样本数分别为Ni,i=1,2,…,c,服从N(mi,Si),i=1,2,…,c的高斯分布,mi,Si分别是第i类的均值向量和协方差矩阵。取不同的值,在二维空间和三维空间中生成数据,并绘制出散点图进行验证。扩展实验3,编写一个绘制由c类共N个d维模式向量构成的多模式类集合的二维投影绘图函数。其中,模式的类别标记已知,不同类别的模式绘制时用不同的颜色表示。其中,d维模式的2维子空间,简单来说就是由d维模式矢量中的其中2个分量构成向量空间,在作图时以这两个分量做为坐标量。利用实验(4)中的函数生成不同的高维数据,在二维空间中绘制出子空间投影图进行验证。绘图时注意添加数据和坐标的标记。(4)下面的实验用以验证大数定理:大量独立的随机变量的整体分布近似为一个高斯分布。4.1)写一个程序,从范围100100luxx中随机取lx和ux,以及在范围01000n中随机取整数n的值(样本数)。4.2)在区间,luxx中生成均匀分布的n个随机数。4.3)利用4.1和4.2的方法10次,将以上所述方式累计产生的样本点形成一个数据集合,绘制该集合的直方图,计算该直方图的均值和标准差。4.4)分别利用4.1和4.2的方法100、1000、10000次重复4.3的实验。4.5)讨论并分析实验结果。深圳大学研究生课程“模式识别理论与方法”实验指导书(4thEdition裴继红编)6Proj02-01:贝叶斯分类器(1)基本的Bayes分类实验:编程实现一个可以对两类模式样本进行分类的贝叶斯分类器,假设两个模式类的分布均为高斯分布。模式类1的均值矢量m1=(1,3)t,协方差矩阵为S1=(1.5,0;0,1),模式类2的均值矢量m2=(3,1)t,协方差矩阵为S2=(1,0.5;0.5,2),先验概率P1=P2=1/2。(a)利用proj01-01中的函数为每个模式类各生成100个随机样本,并在一幅图中画出这些样本的二维散点图;(b)仅用模式集合的第1个特征分量作为分类特征,对(a)中的200个样本进行分类,统计正确分类的百分比,并在2维图上用不同的颜色画出正确分类和错分的样本;(c)仅用模式的第2个特征分量作为分类特征,对(a)中的200个样本进行分类,统计正确分类的百分比,并在2维图上用不同的颜色画出正确分类和错分的样本;(d)同时用模式的2个分量作为分类特征,对(a)中的200个样本进行分类,统计正确分类的百分比,并在2维图上用不同的颜色画出正确分类和错分的样本;(e)对上述实验结果进行分析说明。(2)进一步的Bayes分类器实验:本实验是在假设分类数据均满足高斯分布的情况下,设计一个判别分类器,实验目的是为了初步了解和设计一个分类器。(a)编写一个高斯型的Bayes判别函数,该函数输入为:一给定正态分布的均值、协方差矩阵,先验概率()iPw,以及模式样本矢量x,输出为判别函数值。(b)表格1为三类样本中的各10个样本点,假设每一类均为正态分布,三个类别的先验概率相等均为123()()()1/3PwPwPw。计算每一类样本的均值矢量和协方差矩阵,为这三个类别设计一个分类器。深圳大学研究生课程“模式识别理论与方法”实验指导书(4thEdition裴继红编)7(c)用(b)中设计的分类器对测试点进行分类:(1,2,1)t,(5,3,2)t,(0,0,0)t,(1,0,0)t,并且利用式(45)求出各个测试点与各个类别均值之间的Mahalanobis距离。(d)如果123()0.8,()()0.1PwPwPw,再进行(b)和(c)实验。(e)分析实验结果。表格1样本1w2w3w1x2x3x1x2x3x1x2x3x1-5.01-8.12-3.68-0.91-0.18-0.055.352.268.132-5.43-3.48-3.541.30-.206-3.535.123.22-2.6631.08-5.521.66-7.75-4.54-0.95-1.34-5.31-9.8740.86-3.78-4.11-5.470.503.924.483.425.195-2.670.637.396.145.72-4.857.112.399.2164.943.292.083.601.264.367.174.33-0.987-2.512.09-2.595.37-4.63-3.655.753.976.658-2.25-2.13-6.947.181.46-6.660.770.272.4195.562.86-2.26-7.391.176.300.90-0.43-8.71101.03-3.334.33-7.50-6.32-0.313.52-0.366.43Proj03-01:最大似然估计与贝叶斯估计方法对不同维数下的高斯概率密度模型,用最大似然估计等方法对其参数进行估计。假设有概率密度为高斯分布()(,)pxN的样本集合S={xk,k=1,2,…,n},可以使用下面的三种方法进行均值矢量和协方差矩阵的参数估计:方法一:11nkknx,11ntkkknxx方法二:111kkkkkkx,00,k=1,2,…,n111tkkkkkkkkkxx,00,k=1,2,…,n深圳大学研究生课程“模式识别理论与方法”实验指导书(4thEdition裴继红编)8方法三:11kkkx,00,k=1,2,…,n11tkkkkkkxx,00,k=1,2,…,n其中,λ是一个小于1的正数,一般可取λ=0.01。在方法二、三中,在第k步的估计误差可以由下面的公式计算:kEk,