1、贝叶斯分类器贝叶斯分类器的定义:在具有模式的完整统计知识的条件下,按照贝叶斯决策理论进行设计的一种最优分类器。贝叶斯分类器的分类原理:通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。贝叶斯分类器是各种分类器中分类错误概率最小或者在预先给定代价的情况下平均风险最小的分类器。贝叶斯的公式:什么情况下使用贝叶斯分类器:对先验概率和类概率密度有充分的先验知识,或者有足够多的样本,可以较好的进行概率密度估计,如果这些条件不满足,则采用最优方法设计出的分类器往往不具有最优性质。2、K近邻法kNN算法的核心思想:如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。假设有N个已知样本分属c个类ω𝑖,𝑖=1,…,c,考察新样本x在这些样本中的前K个近邻,设其中有𝑘𝑖个属于ω𝑖类,则ω𝑖类的判别函数就是𝑔𝑖(𝑥)=𝑘𝑖𝑖=1,…,c决策规则:若𝑔𝑘(𝑥)=max1≤𝑖≤𝑐𝑔𝑖(𝑥)则𝑥∈ω𝑘什么情况下使用K近邻法:kNN只是确定一种决策原则,在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别,并不需要利用已知数据事先训练出一个判别函数,这种方法不需要太多的先验知识。在样本数量不足时,KNN法通常也可以得到不错的结果。但是这种决策算法需要始终存储所有的已知样本,并将每一个新样本与所有已知样本进行比较和排序,其计算和存储的成本都很大。对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其他方法更为适合。3、PCA和LDA的区别PrincipalComponentsAnalysis(PCA):usesasignalrepresentationcriterionLinearDiscriminantAnalysis(LDA):usesasignalclassificationcriterionLDA:线性判别分析,一种分类方法。它寻找线性分类器最佳的法线向量方向,将高维数据投影到一维空间,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。即使投影后两类相隔尽可能远,而同时每一类的样本又尽可能聚集。PCA:主成分分析法,一种数据降维方法。它将高维的数据映射到低维的空间中表示,新特征是原有特征的线性组合。降维之后能够最大化保持数据的内在信息,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。PCA和LDA的区别:PCA主要是从特征的协方差角度,去找到比较好的投影方式;LDA选择分类性能最好的方向,期望投影后类间距更大,类内距更小。PCA是无监督的方式,它没有分类标签,降维之后需要采用K-Means或自组织映射网络等无监督的算法进行分类;LDA是有监督的,它先对训练数据进行降维,然后找出一个线性判别函数。PCA投影的坐标系都是正交的;LDA根据类别的标注,关注分类能力,因此不保证投影到的坐标系是正交的。4、开测试,闭测试开测试:测试样本不包含训练样本闭测试:测试样本包含训练样本5、维数,训练样本对分类器性能的影响维数:从理论上讲,在有无限的训练样本的情况下。不断的增加新的特征并不会影响最终的分类结果,最坏的情况也就是分类器忽略了新加的特征,而只要新特征提供了有用的信息,那么分类器的精确度就会提高。在实际情况中,刚开始随着维数的增加,精确度也会越来越高,但当维数到达一定值后,精确度会下降。这就是“维数灾难”:因为我们的样本不是无限多的,在高维的情况下,样本密度会越来越稀疏,很容易就能找到一个超平面将训练样本分开,但当其映射到低维空间时,得到的是一个复杂的非线性分类器。如果将其用来辨别那些未曾出现在训练样本中的测试样本时,通常结果不太理想。这其实就是我们在机器学习中学过的过拟合问题。另外,随着维数的增加,大部分分类器计算的时间复杂度会呈指数型提高。样本数量:从理论上讲,样本越多,分类器的精确度也会越高。在实际情况中,因为存在特征维数的限制,随着样本增多,精确度会逐渐升高然后趋于稳定。又因为实际情况的样本中可能存在着噪声,如果后来增加的样本噪声太多,精确度反而可能下降。从效率上来说,样本越多,时间复杂度会线性提高。6、监督学习在概率密度函数不知道的情况下怎么分类对于贝叶斯分类器来说,就是用学习样本估计特征向量的类条件概率密度函数。在已知类条件概率密度函数形式的条件下,用给定的独立和随机获取的样本集,根据最大似然法或贝叶斯学习估计出类条件概率密度函数的参数。例如,假定模式的特征向量服从正态分布,样本的平均特征向量和样本协方差矩阵就是正态分布的均值向量和协方差矩阵的最大似然估计。在类条件概率密度函数的形式未知的情况下,有各种非参数方法,直接用学习样本对类条件概率密度函数进行估计。方法一:非参数估计。不对概率密度函数的形式作出任何假设,而是直接用样本估计出整个函数。最大似然方法和贝叶斯方法都属于参数化的估计方法,要求待估计的概率密度函数形式已知,只是利用样本来估计函数中的某些参数。但是当样本的分布未知,无法事先给出概率密度函数,或者很难用简单的函数来描述概率密度函数时,就需要使用非参数估计的方法,即不对概率密度函数的形式作出任何假设,而是直接用样本估计出整个函数。非参数估计的方法可以看做是从所有可能的函数中进行一种选择。常见的非参数估计方法有直方图法,KN近邻估计法,Parzen窗法等。(可以稍微解释下这三种方法)方法二:使用基于数据的模式识别方法。无需进行概率密度估计,而是直接根据要解决的问题和训练样本就求出判别函数的分类器,例如神经网络和SVM。甚至是使用直接确定分类原则,连分类器都不需要的模式识别方法,例如近邻法。7、分类器性能衡量衡量方法一、利用所假设的参数模型来计算例如代入未知参数的均值和协方差的估计来评估误差率的上界。这种方法存在的问题:误差估计过分乐观;参数模型的有效性无法验证;训练样本独有的特性没有被揭示;衡量方法二、训练错误率(闭测试)用分类器对全部训练样本进行分类,其中分类错误的样本占总样本数的比例就是训练错误率。这种方法存在的问题:在一定程度上反映了机器推广能力;但是这种做法偏乐观,存在信息泄露问题,因此这种训练错误率不能很好的反映分类器在未来样本上的表现。衡量方法三、测试错误率(开测试)将样本划分成训练集和测试集,其中,训练集样本不包含测试集样本互不相交。测试错误率:使用常规训练集训练分类器完成后,用分类器对验证集训练样本进行分类,其中分类错误的样本占验证集的比例就是测试错误率。这种方法存在的问题:在样本数不是很多时,如果把一部分样本划分为测试集,则训练样本数目就大大减少,可能影响分类器性能;测试集本身也不大,所以测试错误率估计的方差本身也比较大。衡量方法4:交叉验证一般的衡量分类器的性能常用的就是CV2的交叉验证方法。在现有总样本不变的情况下,随机选用一部分样本作为临时的训练集,其余样本作为临时测试集得到一个错误率估计;然后随机选用另外一部分样本作为临时训练集,其余样本作为临时测试集,再得到一个错误率估计……如此反复多次,最后各个错误率求平均,得到交叉验证错误率。8、高斯混合模型参数怎么确定?用EM算法确定GMM认为数据是从几个GSM中生成出来的,即K需要事先确定好,就像K-means中的K一样。πk是权值因子。其中的任意一个高斯分布N(x;uk,Σk)叫作这个模型的一个component。GMM是一种聚类算法,每个component就是一个聚类中心。即在只有样本点,不知道样本分类(含有隐含变量)的情况下,计算出模型参数(π,u和Σ)----这显然可以用EM算法来求解。再用训练好的模型去差别样本所属的分类,方法是:step1随机选择K个component中的一个(被选中的概率是πk);step2把样本代入刚选好的component,判断是否属于这个类别,如果不属于则回到step1。EM算法:在统计计算中,最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(LatentVariable)。最大期望经常用在机器学习和计算机视觉的数据聚类(DataClustering)领域。最大期望算法经过两个步骤交替进行计算:第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。总体来说,EM的算法流程如下:1.初始化分布参数2.重复直到收敛:E步骤:估计未知参数的期望值,给出当前的参数估计。M步骤:重新估计分布参数,以使得数据的似然性最大,给出未知变量的期望估计。