第三章作业姓名:苏刚学号:1515063004学院:数学与计算机学院一、述马氏距离、欧式距离、Tanimoto测度的相同点和不同点。1.欧式距离(Euclideandistance)相当于高维空间内向量说表示的点到点之间的距离。由于特征向量的各分量的量纲不一致,通常需要先对各分量进行标准化,使其与单位无关,比如对身高(cm)和体重(kg)两个单位不同的指标使用欧式距离可能使结果失效。优点:简单,应用广泛(如果也算一个优点的话)缺点:没有考虑分量之间的相关性,体现单一特征的多个分量会干扰结果。2.马氏距离(Mahalanobisdistance)C=E[(X-X平均)(Y-Y平均)]为该类输入向量X的协方差矩阵.(T为转置符号,E取平均时是样本因此为n-1)适用场合:度量两个服从同一分布并且其协方差矩阵为C的随机变量X与Y的差异程度。度量X与某一类的均值向量的差异程度,判别样本的归属。此时,Y为类均值向量。优点:独立于分量量纲,排除了样本之间的相关性影响。缺点:不同的特征不能差别对待,可能夸大弱特征。3.Tanimoto系数(又称广义Jaccard系数)通常应用于X为布尔向量,即各分量只取0或1的时候。此时,表示的是X,Y的公共特征的占X,Y所占有的特征的比例。马氏距离的计算是建立在总体样本的基础上的,这一点可以从上述协方差矩阵的解释中可以得出,也就是说,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同;在计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧式距离来代替马氏距离,也可以理解为,如果样本数小于样本的维数,这种情况下求其中两个样本的距离,采用欧式距离计算即可。满足了条件总体样本数大于样本的维数,但是协方差矩阵的逆矩阵仍然不存在,比如三个样本在其所处的二维空间平面内共线(如果是大于二维的话,比较复杂)。这种情况下,也采用欧式距离计算。在实际应用中“总体样本数大于样本的维数”这个条件是很容易满足的,而所有样本点共线的情况很少,所以在绝大多数情况下,马氏距离是可以顺利计算的,但是马氏距离的计算是不稳定的,不稳定的来源是协方差矩阵,这也是马氏距离与欧式距离的最大差异之处。我们熟悉的欧氏距离虽然很有用,但也有明显的缺点。它将样品的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求。马氏距离有很多优点。它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。它的缺点是夸大了变化微小的变量的作用。Tanimoto系数,元素的取值可以是实数。用EJ来表示,计算方式如下:EJ(A,B)=(A*B)/(||A||^2+||B||^2-A*B)其中A、B分别表示为两个向量,集合中每个元素表示为向量中的一个维度,在每个维度上,取值通常是[0,1]之间的值,A*B表示向量乘积,||A||^2表示向量的模,即||A||^2=sqrt(a1^2+a2^2+a3^2+......)。Tanimoto系数计算公式中,如果把分母的A*B去掉,并将||A||^2+||B||^2替换为(||A||^2)*(||B||^2),就转成了余弦相似度(cosinesimilarity)。EJ中每个分量的取值可以是实数,通常在[0,1]之间。二、构思一个英文字母的识别方法,写出该方法的识别步骤。第一步:图像预处理,首先将图像进行灰度化,将英文字母图像进行灰度化,将图像转化为只包含亮度信息的灰度图像,以达到改善画质和增强对比度的目的。第二步:字符分割及特征提取,在进行上述预处理操作后,将英文字母图像从背景中分离出来,再对图像进行倾斜矫正,采用16*16(使得精确度更高)方格模板,若取每一点为一个特征,则有256个特征值。采用纵向投影法,每个数字的样本需要4096个。第三步:字符识别,在上述过程中,我们已经检测已知手写字母的形状,我们使用这个目标物的形状模板与图像匹配,在约定的某种准则下检测出目标图像,我们将英文字母模板做成16*16的大小,将图像中的字符归一化成16*16后,待匹配图像和英文字母模板是一样大小,直接将引文字母模板和待匹配图像对应像素点值做减操作,找到差值最小的那个模板,认为待匹配图像的值就是该模板的值,即输出相应的英文字母。