复杂背景下声纹识别系统的研究方法综述【摘要】声纹识别是生物特征识别领域的一个重要分支。它采用语言数据自动地鉴定测试者身份。本文研究复杂背景下的声纹识别系统的设计与实现,首先,利用正交小波滤波器组来对信号进行预滤波,对语言信号的每个频率段进行细粒度去噪,提取出各频段小波系数,重构出语音信号;其次,在特征提取阶段,利用倒谱法计算出基音周期参数,通过Mel滤波器组将小波系数转换成Mel倒谱系数(MFCC),将得出的两种参数组成一个特征矢量作为声纹特征;最后声纹识别阶段,每一个说话人都由一个GMM表示,计算出特征矢量序列的每个似然函数,找到其中最大的说话人模型,即判定为说话人。【关键词】声纹识别;小波滤波器组;基音周期;Mel倒谱系数;高斯混合模型1.引言说话人声纹识别可以看作是语音识别的一种。它和语音识别一样,都是通过对所收到的语音信号进行处理,提取相应的特征或建立相应的模型,然后据此作出判断。而区别在于它并不注意语言信号中的语义内容,而是希望从语音信号中提取出人的特征。从这点上说,说话人声纹识别是企求挖掘出包含在语音信号中的个性因数,而语音识别是企求从不同人的词语信号中寻找相同因素。在处理方法上,说话人声纹识别力图强调不同人之间的差别,而语音识别则力图对不同人说话的差别加以归一化。世界范围内,声纹识别技术正广泛应用于诸多领域。截止到去年年初,声纹识别产品的市场占有率为15.8%,仅次于指纹识别和掌形识别。现有文献中用于说话人识别的特征许多是建立在短时频谱基础上。它们主要有Mel频率倒谱系数(MFCC),LPC倒谱系数,差值倒谱等。在声纹识别技术中,目前研究最多的方法有:模板匹配法、概率模型法和人工神经网络法。Soong等人将矢量量化技术用于与文本无关的说话人是被系统。Rosenberg等人利用子词单元构成的隐马尔科夫模型(HMM),建立了一个说话人确认系统。Delesby等人利用径向基函数神经网络方法进行说话人识别[1]。我国的北京大学以迟惠生为领导的说话人识别研究团体、清华大学以杨行峻为领导的研究团体以及中国科学院声学所和东南大学也在这个方面取得了非常优秀的科研成果.从国内外文献看来,有的着重距离测度,但是大多数向几种方法如HMM、GMM和ANN混合的方向发展。2.声纹识别的基本原理及相关算法2.1基本原理声纹识别的基本原理如图1所示,主要包括两个阶段,即训练和识别阶段。训练阶段,系统的每个使用者说出若干训练语句,系统据此建立每个使用者的模板或模型参数。识别阶段,由待识人说的语音经特征提取后与系统训练时产生的模板或模型参数进行比较。在主说话人的辨认中,取与测试音匹配距离最小的说话人模型所对应的说话人作为识别结果;在说话人确认中,则通过判断测试音与所声称的说话人的模型的匹配距离是否小于一定闭值做出判断。2.2语音信号的预处理在语音信号特征提取之前,首先要进行的一个环节就是对输入语音信号的预处理,主要包括预滤波、预加重、加窗分帧以及语音端点检测等过程。本文就以涉及到的预滤波进行描述,预滤波在本文中是通过小波滤波器组来实现。预滤波器必须是一个带通滤波器,其上、下截止频率分别是和。对于绝大多数语音处理中,,,采样率为。2.3声纹特征提取2.3.1概述提取说话人特征就是把原来语音中的冗余信息去掉,找到我们关注的语音特征信息,是一个减小数据量的过程。从说话人语音信号中提取的特征参数应满足以下准则:对外部条件具有鲁棒性(如:说话人的健康状况和情绪,方言和别人模仿等);能够长期地保持稳定;易于从语音信号中进行提取;与其他特征不相关。2.3.2典型声纹特征参数提取算法声纹特征参数主要有以下几种:基音周期、短时过零率、线性预测(LPC)、线性预测倒谱系数(LPCC)、Mel频率倒谱系数(MFCC)、以及经过噪声谱减或者信道谱减的去噪倒谱系数等,每一种特征参数都有其相应的提取算法。在声纹特征提取这一点,本文将采用基音周期和Mel频率倒谱混合的参数作为特征参数。2.3.2.1线性预测(LPC)方法语音线性预测的基本思想是:利用过去的样值对新样值进行预测,然后将样值的实际值与其预测值相减得到一个误差信号,显然误差信号的动态范围远小于原始语音信号的动态范围,对误差信号进行量化编码而达到最小,可以确定唯一的一组线性预测系数。目前主流算法有Durbin递推算法、Levinson递推算法、舒尔(schur)算法和个性算法[2][3]。由于LPC分析是基于全极点模型的假设,所以它对于声道响应含有零点的清音和浊音和鼻音描述不确切。2.3.2.2线性预测倒谱系数(LPCC)倒谱特征是用于说话人个性特征和说话识别人识别的最有效的特征之一。语音信号是声道频率特性和激励源信号源两者共同卷积的结果,后者对于某帧而言常带有一定的随机性,而说话人的个性特征很大程度上取决于说话人的发音声道,因此要将此二者进行有效的分离,可以通过对信号做适当的同态滤波,将相卷积的两个部分分离。滤波的关键是先将卷积处理化为乘积,然后做对数处理,使之化为可分离的相加成分。线性预测倒谱系数可由LPC特征进行推导,基于LPC系数分析得倒谱存在一种非常简单有效的递推求解方法。LPCC参数比较彻底地去掉了语音产生过程中的激励信息,主要反映声道特性,只需要十几个倒谱系数能比较好的描述语音的共振特性,计算量小,其缺点是对辅音的描述能力较差,抗噪声性能也较弱。2.3.2.3梅尔倒谱系数(MFCC)MFCC着眼于人耳的听觉感知机理。因为听到的声音的高低与声音的频率的并不成线性正比关系,Mel频率的尺度更符合人耳的听觉特性。用Mel滤波器组对语音信号进行滤波和加权,使语音信号更加接近于人耳听觉感知系统特性,MFCC特征成为目前说话人识别和语音识别中最为广泛的特征参数。根据倒谱计算过程,MFCC计算过程可以简单地描为如下四个步骤: