模式识别练习题

asdqwefr
3 ℃
2019-12-24

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

填空题1、模式识别系统的基本构成单元包括：模式采集、特征选择与提取和模式分类。2、统计模式识别中描述模式的方法一般使用特征矢量；句法模式识别中模式描述方法一般有串、树、网。3、影响层次聚类算法结果的主要因素有计算模式距离的测度、聚类准则、类间距离门限、预定的类别数目。4、线性判别函数的正负和数值大小的几何意义是正（负）表示样本点位于判别界面法向量指向的正（负）半空间中；绝对值正比于样本点到判别界面的距离。5、感知器算法1。（1）只适用于线性可分的情况；（2）线性可分、不可分都适用。6、在统计模式分类问题中，聂曼-皮尔逊判决准则主要用于某一种判决错误较另一种判决错误更为重要情况；最小最大判别准则主要用于先验概率未知的情况。7、“特征个数越多越有利于分类”这种说法正确吗？错误。特征选择的主要目的是从n个特征中选出最有利于分类的的m个特征（mn），以降低特征维数。一般在可分性判据对特征个数具有单调性和（Cnmn）的条件下，可以使用分支定界法以减少计算量。8、散度Jij越大，说明i类模式与j类模式的分布差别越大；当i类模式与j类模式的分布相同时，Jij=0。选择题1、影响聚类算法结果的主要因素有（BCD）。A.已知类别的样本质量B.分类准则C.特征选取D.模式相似性测度2、模式识别中，马式距离较之于欧式距离的优点是（CD）。A.平移不变性B.旋转不变性C.尺度不变性D.考虑了模式的分布3、影响基本K-均值算法的主要因素有（DAB）。A.样本输入顺序B.模式相似性测度C.聚类准则D.初始类中心的选取4、在统计模式分类问题中，当先验概率未知时，可以使用（BD）。A.最小损失准则B.最小最大损失准则C.最小误判概率准则D.N-P判决5、散度JD是根据（C）构造的可分性判据。A.先验概率B.后验概率C.类概率密度D.信息熵E.几何距离6、如果以特征向量的相关系数作为模式相似性测度，则影响聚类算法结果的主要因素有（BC）。A.已知类别样本质量B.分类准则C.特征选取D.量纲7、欧式距离具有（AB）；马式距离具有（ABCD）。A.平移不变性B.旋转不变性C.尺度缩放不变性D.不受量纲影响的特性8、聚类分析算法属于（A）；判别域代数界面方程法属于（C）。A.无监督分类B.有监督分类C.统计模式识别方法D.句法模式识别方法9、下列函数可以作为聚类分析中的准则函数的有（ACD）。A.][1BWSSTrJB.1BWSSJC.cjnijjijmxJ112)(D.)()(1mmmmJjcjj10、Fisher线性判别函数的求解过程是将N维特征矢量投影在（B）中进行。A.二维空间B.一维空间C.N-1维空间简答题一、试问“模式”与“模式类”的含义。如果一位姓王的先生是位老年人，试问“王先生”和“老头”谁是模式，谁是模式类？答：在模式识别学科中，就“模式”与“模式类”而言，模式类是一类事物的代表，概念或典型，而“模式”则是某一事物的具体体现，如“老头”是模式类，而王先生则是“模式”是“老头”的具体化。二、试说明Mahalanobis距离平方的定义，到某点的Mahalanobis距离平方为常数的轨迹的几何意义，它与欧氏距离的区别与联系。答：Mahalanobis距离的平方定义为：12)()(),(uxuxuxrT其中x，u为两个数据，是一个正定对称矩阵（一般为协方差矩阵）。根据定义，距某一点的Mahalanobis距离相等点的轨迹是超椭球，如果是单位矩阵Σ，则Mahalanobis距离就是通常的欧氏距离。三、试说明用监督学习与非监督学习两种方法对道路图像中道路区域的划分的基本做法，以说明这两种学习方法的定义与它们间的区别。答：监督学习方法用来对数据实现分类，分类规则通过训练获得。该训练集由带分类号的数据集组成，因此监督学习方法的训练过程是离线的。非监督学习方法不需要单独的离线训练过程，也没有带分类号（标号）的训练数据集，一般用来对数据集进行分析，如聚类，确定其分布的主分量等。就道路图像的分割而言，监督学习方法则先在训练用图像中获取道路象素与非道路象素集，进行分类器设计，然后用所设计的分类器对道路图像进行分割。使用非监督学习方法，则依据道路路面象素与非道路象素之间的聚类分析进行聚类运算，以实现道路图像的分割。四、试述动态聚类与分级聚类这两种方法的原理与不同。答：动态聚类是指对当前聚类通过迭代运算改善聚类；分级聚类则是将样本个体，按相似度标准合并，随着相似度要求的降低实现合并。五、已知一组数据的协方差矩阵为12/12/11，试问1．协方差矩阵中各元素的含义。2．求该数组的两个主分量。3．主分量分析或称K-L变换，它的最佳准则是什么？4．为什么说经主分量分析后，消除了各分量之间的相关性。答：协方差矩阵为12/12/11，则1.对角元素是各分量的方差，非对角元素是各分量之间的协方差。2.主分量，通过求协方差矩阵的特征值，用121211＝0得4/1)1(2，则2/32/1，相应的：2/3，对应特征向量为11，21，对应11。这两个特征向量，即为主分量。3.K-L变换的最佳准则为：对一组数据进行按一组正交基分解，在只取相同数量分量的条件下，以均方误差计算截尾误差最小。4.在经主分量分解后，协方差矩阵成为对角矩阵，因而各主分量间相关性消除。六、试列举线性分类器中最著名的三种最佳准则以及它们各自的原理。答：线性分类器三种最优准则：Fisher准则：根据两类样本一般类内密集，类间分离的特点，寻找线性分类器最佳的法线向量方向，使两类样本在该方向上的投影满足类内尽可能密集，类间尽可能分开。这种度量通过类内离散矩阵Sw和类间离散矩阵Sb实现。感知准则函数：准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分类器函数进行修正，这种准则是人工神经元网络多层感知器的基础。支持向量机：基本思想是在两类线性可分条件下，所设计的分类器界面使两类之间的间隔为最大，它的基本出发点是使期望泛化风险尽可能小。七、对一副道路图像，希望把道路部分划分出来，可以采用以下两种方法：1．在该图像中分别在道路部分与非道路部分画出一个窗口，把在这两个窗口中的象素数据作为训练集，用Fisher准则方法求得分类器参数，再用该分类器对整幅图进行分类。2．将整幅图的每个象素的属性记录在一张数据表中，然后用某种方法将这些数据按它们的自然分布状况划分成两类。因此每个象素就分别得到相应的类别号，从而实现了道路图像的分割。试问以上两种方法哪一种是监督学习，哪个是非监督学习？答：第一种方法中标记了两类样本的标号，需要人手工干预训练过程，属于监督学习方法；第二种方法只是依照数据的自然分布，把它们划分成两类，属于非监督学习方法。八、试分析五种常用决策规则思想方法的异同。答、五种常用决策是：1.基于最小错误率的贝叶斯决策，利用概率论中的贝叶斯公式，得出使得错误率最小的分类规则。2.基于最小风险的贝叶斯决策，引入了损失函数，得出使决策风险最小的分类。当在0-1损失函数条件下，基于最小风险的贝叶斯决策变成基于最小错误率的贝叶斯决策。3.在限定一类错误率条件下使另一类错误率最小的两类别决策。4.最大最小决策：类先验概率未知，考察先验概率变化对错误率的影响，找出使最小贝叶斯奉献最大的先验概率，以这种最坏情况设计分类器。5.序贯分类方法，除了考虑分类造成的损失外，还考虑特征获取造成的代价，先用一部分特征分类，然后逐步加入性特征以减少分类损失，同时平衡总的损失，以求得最有效益。九、假设在某个地区细胞识别中正常（w1）和异常（w2）两类先验概率分别为9.0)(1wP，1.0)(2wP，现有一待识别的细胞，其观察值为x，从类条件概率密度分布曲线上查得2.0)(1wxP，4.0)(2wxP，并且已知011，612，121，022试对该细胞x用一下两种方法进行分类：1.基于最小错误率的贝叶斯决策；2.基于最小风险的贝叶斯决策；请分析两种结果的异同及原因。答：利用贝叶斯公式，分别计算出1w和2w的后验概率：818.01.04.09.02.09.02.0)()()()()(211111jjjwpwxpwpwxpxwp，182.0)(1)(12xwpxwp根据贝叶斯决策规则：182.0)(818.0)(21xwpxwp，所以把x归为正常状态。(2)根据条件和上面算出的后验概率，计算出条件风险：092.1)()()(2122111xwpxwpxRjjj818.0)()()(1212122xwpxwpxRjjj由于)()(21xRxR，即决策为1w的条件风险小于决策为2w的条件风险，因此采取决策行动2，即判断待识别的细胞x为2w类――异常细胞。将1与2相对比，其分类结果正好相反，因为这里影响决策结果的因素多了“损失”；而且两类错误决策所造成的损失相差很悬殊，因此“损失”起了主导作用。十、既然有线性判别函数，为什么还要引进非线性判别函数？试分析由“线性判别函数”向“非线性判别函数”推广的思想和方法。答：实际中有很多模式识别问题并不是线性可分的，这时就需要采用非线性分类器，比如当两类样本分不具有多峰性质并互相交错时，简单的线性判别函数往往会带来较大的分类错误。这时，树分类器作为一种分段线性分类器，常常能有效地应用于这种情况。十一、1.什么是特征选择？2.什么是Fisher线性判别？答：1.特征选择就是从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的。2.Fisher线性判别：可以考虑把d维空间的样本投影到一条直线上，形成一维空间，即把维数压缩到一维，这在数学上容易办到，然而，即使样本在d维空间里形成若干紧凑的互相分得开的集群，如果把它们投影到一条任意的直线上，也可能使得几类样本混在一起而变得无法识别。但是在一般情况下，总可以找到某个方向，使得在这个方向的直线上，样本的投影能分开得最好。问题是如何根据实际情况找到这条最好的、最易于分类的投影线，这就是Fisher算法所要解决的基本问题。十二、写出两类和多类情况下最小风险贝叶斯决策判别函数和决策面方程。两类问题：判别函数)()()(2121111xwpxwpxg)()()(2221212xwpxwpxg决策面方程：)()(21xgxgC类问题：判别函数)()(1xwpxgjijcji，ci,......2,1决策面方程：)()(xgxgji，ji，ci,......2,1，cj,......2,1十三、请论述模式识别系统的主要组成部分及其设计流程，并简述各组成部分中常用方法的主要思想。信息获取：通过测量、采样和量化，可以用矩阵或向量表示二维图像或波形。预处理：去除噪声，加强有用的信息，并对输入测量仪器或其他因素造成的退化现象进行复原。特征选择和提取：为了有效地实现分类识别，就要对原始数据进行变换，得到最能反映分类本质的特征。分类决策：在特征空间中用统计方法把识别对象归为某一类。十四、有两类样本集Tx]0,0,0[11，Tx]0,0,1[21，Tx]1,0,1[31，Tx]0,1,1[41Tx]1,0,0[12，Tx]0,1,0[22，Tx]1,1,0[32，Tx]1,1,1[421.用K-L变换求其二维特征空间，并求出其特征空间的坐标轴；2.使用Fisher线性判别方法给出这两类样本的分类面。iTiiTxxXXE81][答：5.025.025.025.05.025.025.025.05.081][iTiiTxxXXE，其对应的特征值为：100025.000025.0特征向量为31612131612131620U，降到二维空间，取