第四章 矢量量化技术

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第四章矢量量化技术4.1概述4.2矢量量化的基本原理4.3矢量量化的失真测度4.4矢量量化器的最佳码本设计4.5矢量量化技术的优化设计4.1概述矢量量化(VectorQuantization,VQ)技术是20世纪70年代后期发展起来的一种数据压缩和编码技术,广泛应用于语音编码、语音合成、语音识别和说话人识别等领域。矢量量化在语音信号处理中占有十分重要的地位,在许多重要的研究课题中,矢量量化都起着非常重要的作用。4.2矢量量化的基本原理一、矢量量化的基本原理二、矢量量化在语音识别中的应用三、矢量量化的关键之处一、矢量量化的基本原理1、矢量的定义若干个标量数据组成一个矢量,标量的个数就为矢量的维数。如语音信号某一帧中提取的声道参数,共K个,Xi={ai1,ai2,…,aiK}。则Xi是一个K维矢量。设共有N个K维矢量X={X1,X2,…,XN},其中第i个矢量为Xi,i=1,2,…N。类比过来,N个语音帧,每帧中共有K个声道参数,共组成N个K维矢量。一、矢量量化的基本原理2、矢量空间的划分把K维欧几里德空间无遗漏的划分为J个互不相交的子空间R1,R2…RJ,这些子空间Rj称为胞腔。在每一个子空间Rj找一个代表矢量Yj,则J个代表矢量可以组成矢量集为Y={Y1,Y2,…,YJ}这样就组成了一个矢量量化器,在矢量量化里Y叫做码书或码本;Yj称为码矢或码字;Y内矢量的个数J则叫做码本长度或者码本尺寸。kR一、矢量量化的基本原理3、矢量量化的过程当给矢量量化器输入一个任意矢量进行矢量量化时,矢量量化器首先判断它属于哪个子空间Rj,然后输出该子空间Rj的代表矢量Yj。矢量量化过程就是用Yj代替Xi的过程,或者说把Xi量化成了Yj,即Yj=Q(Xi),1jJ,1iN式中,Q(Xi)为量化器函数。从而矢量量化的全过程完成一个从K维欧几里德空间中的矢量Xi到K维空间有限子集Y的映射Q:kiXRkR12{,,...,}kJRXYYYY一、矢量量化的基本原理4、判断规则当给矢量量化器输入一个任意矢量Xi进行矢量量化时,首先要选择一个合适的失真测度,而后根据最小失真原理,分别计算用各码矢Yj代替Xi所带来的失真。其中产生最小失真的那个码矢Yj,就是Xi的重构矢量(或称恢复矢量),或者称为矢量Xi被量化成了那个码矢。二、矢量量化在语音识别中的应用矢量量化技术在语音识别中应用时,一般是先用矢量量化的码本作为语音识别的参考模板,即系统词库中的每一个字(词)做一个码本作为该字(词)的参考模板。识别时对于任意输入的语音特征矢量序列X1,X2,…,XN,计算该序列对每一个码本的总平均的失真量化误差,即语音每一帧特征矢量与码本的失真之和除以该语音的长度(帧数)。总平均失真误差最小的码本所对应的字(词)即为识别结果,这一过程如下图所示。二、矢量量化在语音识别中的应用三、矢量量化的关键之处1、设计一个好的码本关键在于如何划分J个区域边界。这需要大量的输入信号矢量,经过统计实验才能确定,这个过程称为“训练”或“学习”。应用聚类算法,按照一定的失真度准则,对训练的数据进行分类,从而把训练数据在多维空间中划分成一个个以码字为中心的胞腔,常用的是LBG算法来实现。三、矢量量化的关键之处2、未知矢量的量化对未知矢量,按照选定的失真测度准则,把未知矢量量化为失真测度最小的区域边界的中心矢量值(码字矢量),并获得该码字的序列号。其次是未知矢量量化时的搜索策略,好的搜索策略可以减少量化时间。4.3矢量量化的失真测度一、失真测度的定义二、欧氏距离测度三、线性预测失真测度四、识别失真测度一、失真测度的定义失真测度(距离测度)就是将输入矢量Xi用码本重构矢量Yj来表征时所产生的误差或失真的度量方法,它可以描述两个或多个模型矢量之间的相似程度。K维语音特征矢量X和码本Y的失真测度d(X,Y)需满足下列条件:1)对称性d(X,Y)=d(Y,X)2)正值性d(X,Y)0;d(X,X)=03)d(X,Y)在频域有物理意义4)对d(X,Y)有高效率的计算方法最常用的失真测度是欧氏距离测度、加权欧氏距离测度、识别失真测度等。()XY二、欧氏距离测度设未知模式的K维特征为X,与码本中某个K维码矢Y进行比较,,分别表示X和Y的同一维分量(),则几种常用的欧氏距离测度如下:1)均方误差欧氏距离这里,的下标2表示平方误差。2)r方平均误差ixiy01iK2211(,)()KiiidXYxyK2(,)dXY11(,)()KrriiidXYxyK二、欧氏距离测度3)r平均误差4)绝对值平均误差5)最大平均误差1'11(,)[]KrrriiidXYxyK111(,)KiiidXYxyK11(,)lim[(,)]max[]rMriiriKdXYdXYxy二、欧氏距离测度6)加权欧氏距离测度式中,称为加权系数。常用的加权系数有211(,)()()KiiidXYwixyK()wi2()(),01()1(1)sin[(4)]2swiiwiiswikik三、线性预测失真测度当语音信号特征矢量是用线性预测方法求出的LPC系数时,为了比较用这种参数表征的矢量,不宜直接使用欧氏距离。因为,仅由预测器系数的差值不能完全表征这两个语音信息的差别。此时应直接使用由这些系数所描述的信号模型的功率谱来进行比较。I-S距离适用于LPC参数描述语音信号的情况。当预测器的阶数,信号与模型完全匹配,信号功率谱式中,表示信号的功率谱,为预测误差功率,为预测逆滤波器的频率响应。p222()()()jwPjwfwXeAe2()jwXe2P()jwAe三、线性预测失真测度相应地,设码本中某重构矢量的功率谱为则可定义I-S距离如下:式中;R是阶的自相关矩阵,而'22''2'()()()jwPjwfwXeAe'''2(,)ln1TISaRadff12(1,,,...,)Tpaaaa(1)(1)pp1(0)(0)2()()PTaaiaRarrriri三、线性预测失真测度这里,其中,N为信号的长度,为信号的自相关函数,为预测系数的自相关函数。是码书重构矢量的预测误差功率11()()()Nikrixkxki0()piakkikriaa(0,...,)ip()xn()ri()ari2'2''1()()2jwpAefwdw'''1(0)(0)2()()PTaaiaRarrriri三、线性预测失真测度又推导出以下两种线性预测的失真测度,它们比上述具有更好的性能。1)对数似然比失真测度2)模型失真测度ISd'''(,)lnTLLRTaRadffaRa'''(,)1TmTaRadffaRa四、识别失真测度将矢量量化技术用于语音识别时,对失真测度还应有其他的一些考虑。例如,对两矢量的功率谱的比较在使用LPC参数的似然比失真测度时,还应考虑到能量。因为研究表明,频谱与能量都携带有语音信号的信息。为此,可采用如下的失真度定义式中,及分别为输入信号矢量和码书重构矢量的归一化能量。可取为''(,)(,)()dfEdffgEEE'E0()()()()dFdFFxxgxxxxxxxx()gx4.4矢量量化器的最佳码本设计一、最佳码本设计的原则二、LBG算法三、初始码本的生成一、最佳码本的设计原则所谓最佳设计,就是从大量信号样本中训练出好的码本;从实际效果出发寻找到好的失真测度定义公式;用最少的搜索和计算失真的运算量,来实现最大可能的平均信噪比。最佳码本设计的两条原则1)遵从最邻近准则,即2)所有选择码字Yl的输入矢量X的集合为Sl,那么Yl是Sl中所有矢量的质心,即(,)min(,)ljjdXYdXY1,llNXSYXl二、LBG算法LBG算法是一种递推算法,从一个事先选定的初始码本开始迭代。若以欧氏距离计算两个矢量的畸变,那么LBG的算法思想是:把训练序列按照码本中的码矢根据最邻近准则分组,对每一分组找质心,得到新的码本,又作为初始码本,再进行分组,重复上述过程,直到系统性能满足要求和不再有明显的改进为止。三、初始码本的生成1、随机选取法从训练序列中随机的选取J个矢量作为初始码字,从而构成初始码本。优点是简单,不需要初始化计算。问题是可能选到一些非典型的矢量作为码字,使最终设计的码本达不到最优。三、初始码本的生成2、分裂法步骤如下1)首先求出S中全体训练矢量X的质心作为初始化码本的码字。2)将分裂为新的初始码本、,利用LBG算法进行迭代计算,求得新码本、。3)重复上面的循环,经过r次后,最终码书容量。(0)1Y(0)1Y(1)'1Y(1)'2Y(1)1Y(1)2Y2rJ三、初始码本的生成3、链映射法步骤如下:1)特征空间各矢量按规律排序:在待聚类的点中先任选一点,称为X1,排作首位;求其最邻近点称为X2,列为第二位,以此类推,则得一矢量序列X1,X2,…,XN。2)设Xi,Xi-1间的距离为di,则得距离序列d1,d2…dN-1。做出的关系图,这个图称为这批特征点的“链映射图”。3)链映射图尖峰状的位置代表特征性质有突变的位置,故可以把在每两相邻峰值之间的各点归为一类。4.5矢量量化技术的优化设计上面介绍的矢量量化技术用于语音信号处理时有其局限:实时性的问题码本优化问题降低复杂度的优化设计方法:引入模糊理论模糊c均值聚类算法模糊c均值聚类算法目标函数为如下式所示:(4-29)其中,为某一训练观察矢量序列;为各类聚中心组成的码本;为一个模糊c均值隶属度函数集,是第k个类聚中心即第k个码字的隶属度函数;代表模糊度。,11(,,)()()NJmFCMkiiKikJXUYuXdXY12{,,...,}NXXXX12{,,...,}NYYYY12{,,...,}NUuuu[1,]m模糊c均值聚类算法根据目标函数的模糊c均值类聚算式如下:(4-30)1121211(),1()()(),1,1()NmkiiikNmkiiJmikijmiuXXYkJuXdXuXkJiNdXkj,Y,Y模糊c均值聚类算法模糊矢量量化码本估计的步骤如下:1)设定初始码本和每个码字的初始隶属度函数,为了方便可以令每个码字的初始隶属度函数为相等的值;2)对于训练观察矢量序列,利用式(4-30)计算新的聚类中心及新的隶属度函数;3)利用式(4-29)的目标函数,判断迭代计算是否收敛。如果前后差值小于某个阈值,则迭代计算结束,由新的聚类中心和隶属度函数集组成重估后的新码本;否则继续进行下一轮迭代计算。ku12,,...,NXXXXkYku模糊c均值聚类算法模糊矢量量化的步骤如下:1)对于待矢量量化的输入矢量,模糊矢量量化不是通过矢量量化把输入矢量量化成为某个码字,而是把输入矢量量化成由隶属度函数组成的矢量,它表示分别属于码字的程度是多少;其中由下式给定:2)这时的量化误差由下式给定:iXiXkYiX12()(),(),...,()iiiJiUXuXuXuXiX(1,2,...,)kYkJ()kiuX121211()(),1,()1()JmikikijkmidXuXkJuXdXkj,Y,YiX模糊c均值聚类算法3)的重构矢量由下式给定:可见的重构矢量由码字的线性组合组成。1()(,)JmkiikkDuXdXYiX11ˆJmkkkiJmkkuYXuiX(1,2,...,)kYkJ

1 / 33
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功