述马氏距离欧式距离Tanimoto测度的相同点和不同点

foo1984
1 ℃
2019-12-15

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第三章作业姓名：苏刚学号：1515063004学院：数学与计算机学院一、述马氏距离、欧式距离、Tanimoto测度的相同点和不同点。1.欧式距离(Euclideandistance)相当于高维空间内向量说表示的点到点之间的距离。由于特征向量的各分量的量纲不一致，通常需要先对各分量进行标准化，使其与单位无关，比如对身高（cm）和体重（kg）两个单位不同的指标使用欧式距离可能使结果失效。优点：简单,应用广泛(如果也算一个优点的话)缺点：没有考虑分量之间的相关性,体现单一特征的多个分量会干扰结果。2.马氏距离(Mahalanobisdistance)C=E[(X-X平均)(Y-Y平均)]为该类输入向量X的协方差矩阵.(T为转置符号，E取平均时是样本因此为n-1)适用场合：度量两个服从同一分布并且其协方差矩阵为C的随机变量X与Y的差异程度。度量X与某一类的均值向量的差异程度,判别样本的归属。此时，Y为类均值向量。优点：独立于分量量纲，排除了样本之间的相关性影响。缺点：不同的特征不能差别对待，可能夸大弱特征。3.Tanimoto系数(又称广义Jaccard系数)通常应用于X为布尔向量，即各分量只取0或1的时候。此时，表示的是X,Y的公共特征的占X，Y所占有的特征的比例。马氏距离的计算是建立在总体样本的基础上的，这一点可以从上述协方差矩阵的解释中可以得出，也就是说，如果拿同样的两个样本，放入两个不同的总体中，最后计算得出的两个样本间的马氏距离通常是不相同的，除非这两个总体的协方差矩阵碰巧相同；在计算马氏距离过程中，要求总体样本数大于样本的维数，否则得到的总体样本协方差矩阵逆矩阵不存在，这种情况下，用欧式距离来代替马氏距离，也可以理解为，如果样本数小于样本的维数，这种情况下求其中两个样本的距离，采用欧式距离计算即可。满足了条件总体样本数大于样本的维数，但是协方差矩阵的逆矩阵仍然不存在，比如三个样本在其所处的二维空间平面内共线（如果是大于二维的话，比较复杂）。这种情况下，也采用欧式距离计算。在实际应用中“总体样本数大于样本的维数”这个条件是很容易满足的，而所有样本点共线的情况很少，所以在绝大多数情况下，马氏距离是可以顺利计算的，但是马氏距离的计算是不稳定的，不稳定的来源是协方差矩阵，这也是马氏距离与欧式距离的最大差异之处。我们熟悉的欧氏距离虽然很有用，但也有明显的缺点。它将样品的不同属性（即各指标或各变量）之间的差别等同看待，这一点有时不能满足实际要求。马氏距离有很多优点。它不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关；由标准化数据和中心化数据(即原始数据与均值之差）计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。它的缺点是夸大了变化微小的变量的作用。Tanimoto系数，元素的取值可以是实数。用EJ来表示，计算方式如下：EJ(A,B)=(A*B)/(||A||^2+||B||^2-A*B)其中A、B分别表示为两个向量，集合中每个元素表示为向量中的一个维度，在每个维度上，取值通常是[0,1]之间的值，A*B表示向量乘积，||A||^2表示向量的模，即||A||^2=sqrt(a1^2+a2^2+a3^2+......)。Tanimoto系数计算公式中，如果把分母的A*B去掉，并将||A||^2+||B||^2替换为（||A||^2）*（||B||^2），就转成了余弦相似度（cosinesimilarity）。EJ中每个分量的取值可以是实数，通常在[0,1]之间。二、构思一个英文字母的识别方法，写出该方法的识别步骤。第一步：图像预处理，首先将图像进行灰度化，将英文字母图像进行灰度化，将图像转化为只包含亮度信息的灰度图像，以达到改善画质和增强对比度的目的。第二步：字符分割及特征提取，在进行上述预处理操作后，将英文字母图像从背景中分离出来，再对图像进行倾斜矫正，采用16*16（使得精确度更高）方格模板，若取每一点为一个特征，则有256个特征值。采用纵向投影法，每个数字的样本需要4096个。第三步：字符识别，在上述过程中，我们已经检测已知手写字母的形状，我们使用这个目标物的形状模板与图像匹配，在约定的某种准则下检测出目标图像，我们将英文字母模板做成16*16的大小，将图像中的字符归一化成16*16后，待匹配图像和英文字母模板是一样大小，直接将引文字母模板和待匹配图像对应像素点值做减操作，找到差值最小的那个模板，认为待匹配图像的值就是该模板的值，即输出相应的英文字母。