第一章绪论1.什么是模式?具体事物所具有的信息。模式所指的不是事物本身,而是我们从事物中获得的2•模式识别的定义?让计算机来判断事物。3•模式识别系统主要由哪些部分组成?数据获取一预处理一特征提取与选择一分类器设计/分类决策。第二章贝叶斯决策理论.信息__。如果I(x)P(X|W1)P(X|w2):::P(W2)/P(W1)_,贝VX1.最小错误率贝叶斯决策过程?答:已知先验概率,类条件概率。利用贝叶斯公式得到后验概率。根据后验概率大小进行决策分析。P(Wi|X)=P(X|Wi)P(Wi)2P(X|Wj)P(Wj)j丄2.最小错误率贝叶斯分类器设计过程?答:根据训练数据求出先验概率P(Wi),i1-2类条件概率分布p(X1Wi)D;;1;2P(X|Wi)P(Wi)利用贝叶斯公式得到后验概率P(Wi|X)2--ZP(x|Wj)P(Wj)j二如果输入待测样本X,计算X的后验概率根据后验概率大小进行分类决策分析。3.最小错误率贝叶斯决策规则有哪几种常用的表示形式?决策规则的不同形我C亜点〉max尸(vr|兀),UUJ*c小1,27II果卩(*|〉尸(叭)=XImaxIM'.'JPj-ve7=-1.2JJ,空也则*IM尸(…)|*11果(丸》=—11订/(A-)]=—111p(.^|)+111/J(A*I11^2)I〔化4.贝叶斯决策为什么称为最小错误率贝叶斯决策?答:最小错误率Bayes决策使得每个观测值下的条件错误率最小因而保证了(平均)错误率最小。Bayes决策是最优决策:即,能使决策错误率最小。5.贝叶斯决策是由先验概率和(类条件概率)概率,推导(后验概率)概率,然后利用这个概率进行决策。6.利用乘法法则和全概率公式证明贝叶斯公式答:p(AB)=p(A|B)p(B)=p(B|A)p(A)p(B)*p(B|Aj)p(Aj)所以推出贝叶斯公式P(B|Ai)P(AJP(B)P(B|Ai)P(Ai)~MP(B|Aj)P(Aj)j=1=P(x1|3i)P(x2|3i)…P(xn|3i))8.怎样利用朴素贝叶斯方法获得各个属性的类条件概率分布?答:假设各属性独立,P(x|3i)=P(x1,x2,…,xn|3i)=P(x1|3i)P(x2|3i)…P(xn|3i)后验概率:P(3i|x)=P(3i)P(x1|3i)P(x2|3i)…P(xn|3i)类别清晰的直接分类算,如果是数据连续的,假设属性服从正态分布,算出每个类的均值方差,最后得到类条件概率分布。9.计算属性MaritalStatus的类条件概率分布给表格计算,婚姻状况几个类别和分类几个就求出多少个类条件概率。10.朴素贝叶斯分类器的优缺点?答:分类器容易实现。面对孤立的噪声点,朴素贝叶斯分类器是健壮的。因为在从数据中估计条件概率时。这些点被平均。面对无关属性,该分类器是健壮的。相关属性可能降低分类器的性能。因为对这些属性,条件独立的假设已不成立。11.我们将划分决策域的边界称为(决策面),在数学上用可以表示成(决策面方程)12.用于表达决策规则的函数称为(判别函数)13.判别函数与决策面方程是密切相关的,且它们都由相应的决策规则所确定14.写出多元正态概率下的最小错误率贝叶斯决策的判别函数,即gi(x)二ln(p(x「‘j)P(‘j))==-2(X-山)T匕「(X-山)15.多元正态概率下的最小错误率贝叶斯决策的决策面方程为16.多元正态概率下的最小错误率贝叶斯决策,当类条件概率分布的协方差矩阵为ai=;丁2时,每类的协方差矩阵相等,且类内各特征间(相互独立),并具有相等的方差。17.多元正态概率下的最小错误率贝叶斯决策,如果先验概率相等,并、匚且i=1,2,...c,那么分类问题转化为只要计算待测样本x到各类均值的(欧式距离),然后把x归于具有(最小距离平方)的类。这种分类器称为(最小距离分类器)。18.I己知样本类条件概率密度袞別文I阿)-*二)1=1,2U其中“==(4,6)r,)=0.7t)=0.3fu如果用垠小锚i吴率贝叶斯决策—IT]r\L-J来进行分类器设计,决策而梅______________不通过______(通过”不通过)和宀连线的中点口决策面与向虽如止交(止交S不疋交)©19.多元正态概率下的最小错误率贝叶斯决策,类条件1m均值:mean(x)ximy方差:var(x)=1m-1m、(xi一恥2i4dIn22-1In龙j十InP(⑷j)概率密度各类的协方差矩阵不相等时,决策面是(超二次曲面)证明:多元正态概率下的最小错误率贝叶斯决策,对于+二KJ,;=L2,…、c的特殊情况,最终的决策面方程为超平而.证明:多元正态概率下的最小错误率贝叶斯决策,对于r_r,_11『■■[■■hv■I-L的特殊情况,最终的決策面方程为:£iW-£/W=^(^-^o)W=£_1(^-N7)41尸阿)、f0=7仙+叩--------序7--------◎rJ2机厂呵)E輛-旳)多元正态概率下的屋小锚误率贝叶斯决策*对于M=7订、i—L2“+…c的特殊情况,证明先验概率相等时,形成的分类器是最小距离分类器.雾元疋态槪率下的最小链误率贝叶斯抉策,对于的特殊情况,证明判别函数是线性的.2.6砸筑题甩朋小风险轴瞅策删可赫为呼岡)J兀-仏)卩的rrJW'R@i二叫Ix)=兄i』(®|工)+兀心叫Ix)R©=&2|.T)=萄尸(®I-v)+^22P(®2I-T)|用Bayes公式展开,最小风险贝叶斯决策决策得到:如果止迪坯丄二如止丄,贝心XGrt,p(xI切)%-如果匹辿八俎-加莎(如,则,xetyP(.T|(為i-人莎佃J第三章概率密度函数的估计1•类条件概率密度估计的两种主要方法(参数估计)和(非参数估计),判别函数是(二次型)2•类条件概率密度估计的非参数估计有两种主要的方法们的基本原理都是基于样本对分布的(未知)原则。4.假设正常细胞和癌细胞的样本的类条件概率服从多元正态分布,使用最大似然估计方法,对概率密度的参数估计的结果为。证明:使用最大似然估计方法,对一元正态概率密度的参数估计的结果如下:5.已知5个样本和2个属性构成的数据集中,w1类有3个样本,w2类有两个样本。如果使用贝叶斯方法设计分类器,需要获得各类样本的条件概率分布,现假设样本服从多元正态分布卩(xpJ=N(山,二)i1,2则只需获得分布的参数均值向量和协方差矩阵即可,那么采用最大似然估计获得的w1类的20-2类条件概率密度均值向量为((2,3)转置),以及协方差矩阵为(02-2)。〕-2-24一第四章线性判别函数1.已知两类问题的样本集中,有两个样本。为=(1一3,2)T属于类,X2=(1,2,—3)丁属于类,对它们进行增广后,这两个样本的增广样本分别为[y1=(1,1,-3,2)T,y2=(-1,-1,-2,3)T]2.广义线性判别函数主要是利用(映射)原理解决(普通函数不能解决的高次判别函数)问题,利用广义线性判别函数设计分类器可能导致(维数灾难)。3.线性分类器设计步骤?主要步骤:1.收集训练数据集D={x1,x2,…,xN}2.按需要确定一个准则函数J(D,w,wO)或J(D,a),其值反映分类器的性能,其极值解对应于“最好”决策。3.用最优化技术求准则函数J的极值解w*,w*或a*。TT4.最终,得到线性判别函数,完成分类器设计g(x)二(w*)x•Wo,g(x)二(a*)y5.线性判别函数g(x)的几何表示是:点x到决策面H的(距离的一种代数度量)。6.增广样本向量使特征空间增加了(一)维,但样本在新的空间中保持了样本间的(欧氏距离)不变,对于分类效果也与原决策面相同。在新的空间中决策面H通过坐标(原点)7.Fisher准则的基本原理为:找到一个最合适的投影轴,使_(类间)在该轴上投影之间的距离尽可能远,而(类内)的投影尽可能紧凑,从而使分类效果为最佳。8.Fisher准则函数的定义为|(w)Sw=SbWF()S+S_ToS&wSww9Fisher方法中,样本类内离散度矩阵Si与总类内离散度矩阵Sw分别为(Parzen窗法)和(KN近邻法)。它3.如果有N个样本,可以计算样本邻域的体积V,然后获得V中的样本数k,那么P(x)=INVN'Xkk=1CJ‘2N'(Xk-?)2k=1Si(x-mJ(x-mi)T,i=1,2Sw二S「S2xDi10.利用Lagrange乘子法使Fisher线性判别的准则函数极大化,最终可以得到的判别函数*A权向量wSw(m1-m2)11.叙述Fisher算法的基本原理。Fisher准则的基本原理:找到一个最合适的投影轴,使两类样本在该轴上投影之间的距离尽可能远,而每一类样本的投影尽可能紧凑,从而使分类效果为最佳。12Fisher公式的推导齐厂吋令MS”朮义Lagrange函数:L(w,A)=wrS^w—A(wrSww—c)15感知准则函数JP(a)=扛(-aTy)y€Yk二Aw=Sw~lSbW=£:1叫—m2Kin,-mJrwRw*=一5;/打】口1-mJ)二Sj+mj-m2)13.已知两类问题的样本集中,有两个样本°X[属于W1类,x2二(1,2,-3)T属于W2类,对它们进行增广规范化后,这两个样本的规范化增广样本分别为y1=(1,1,-3,2)转置和y2=(1,-1,-2,3)转置。14.叙述感知准则的梯度下降算法的基本过程。答:1.初值:任意给定一向量初始值a(1)2.迭代:第k+1次迭代时的权向量a(k+1)等于第k次的权向量a(k)加上被错分类的所有样本之和与pk的乘积3.终止:对所有样本正确分类任蕙给定一冋量初始值&⑴a(k+l)=a(k)+pAxSum16线性判别函数g(x)的几何表示是:点x到决策面H的(距离的代数度量)17.感知机方法主要有两种,批量样本修正法与单样本修正法。它们之间的区别是什么?答单样本修正法:样本集视为不断重复出现的序列,逐个样本检查,修正权向量批量样本修正法:样本成批或全部检查后,修正权向量18.感知准则特点是随意确定权向量(初始值),在对样本分类训练过程中(逐步修正)权向量直至最终确定。佃.对于感知准则函数,满足(aTy0)的权向量称为解向量,解向量不止一个,而是由无穷多个解向量组成的解,称这样的区域为(解区域)。20.感知准则函数为Jp(a)=::,(-aTy)极小值时的a为最优解y=Yk证明使用梯度下降算法的迭代过程公式a⑴任意a(k1)=a(k)丁yI戶丫k证明:,Jp(a)==-(-y)WaywYka(k1)=a(k)-?JJp(a)=a(k)\yy运Yk21.下列哪种分类方法最不适用于样本集线性不可分情况:BA.Fisher线性判别的Lagrange乘子法B.感知准则的梯度下降算法C.最小错分样本数准则的共轭梯度法D.最小平方误差准则的梯度下降法22.多类问题可以利用求两类问题的方法来求解。这样做的缺点是会造成(无法确定类别的区域增大),需要训练的(子分类器及参数增多)。23.利用最小平方误差准则函数进行分类器设计,主要是求极小化时的权向量。当b=(1,...」T时,最小平方误差准则函数的解等价于但ayes)线性判别的解。''24.叙述分类器错误率估计中的留一法的运算过程。答:1.N个样本,取N-1个样本作为训练集,设计分类器。2•剩下的一个样本作为测试集,输入到分类器中,检验是否错分。3•然后放回样本,重复上述过程,直到N次,即每个样本都做了一次测试。k4•统计被错分的次数k,?作为错误率的估计率。25利用两类问题的线性分类器解决多类问题常用的两种方法的优缺点。答:优点:设计思想简单,容易实现。缺点:(1)需要训练的子分类器或参数多,效率低。(2)无法确定类别的区域多。【造成该问题的根本原因是将多类问题看成了多个两类问题来解决。这样必然造成阴影区域的出现。解决办法用多类问题的分类器】26线性分类器设计中的最小平方准则函数方法采用的准则函数公式是什么?当利用伪逆解方法求解时,遇到计算量过大时,可以代替采用何种方法来训练分类器参数?叙述你所使用方法的基本原理,并解释为什么你的方法可以降低计算量。N答:因为e