1第十四章说话人识别14.1概述说话人识别和指纹识别、虹膜识别等一样,属于生物识别的一种,被认为是昀自然的生物特征识别身份鉴定方式,因此又被称为“声纹”识别。生物识别(BiometricRecognition),也称为生物特征识别、生物测定学、生物认证,是指通过人体显著的生物或行为特征来自动识别所测定人的身份的方法。适合生物识别的特征应该符合以下的几个性质:通用性(每个人都具有)、独特性(每个人都不一样)、恒定性(不随时间而变化)、可收集性(可定量测量)、准确性(准确性通常随量的增加而降低)、高可采用性(人们易于接受)和低欺骗性(不易被欺骗)[1]。语音不仅具有上述的性质,而且与其他的生物测定技术如指纹、虹膜和人脸识别等比较,声纹识别具有很大的优势。语音是个人所固有的特征,人的语音可以非常自然地产生,训练和识别时并不需要特别的输入设备,诸如个人电脑普遍配置的麦克风和到处都有的电话都可以作为输入设备,因此说话人识别系统的价格也较低,上述原因促使语音成为人们愿意接受的一种生物特征。说话人识别(SpeakerRecognition)按照任务可以分为两个范畴:即说话人辨认(SpeakerIdentification)和说话人确认(SpeakerVerification)。说话人辨认是指通过一段语音从注册的有限说话人集合中分辨出其身份的过程,是“多选一”的问题。说话人辨认系统的性能将随着说话人集合的规模增大而降低。说话人确认是证实某一说话人是否与他所声称的身份一致的过程,系统只需给出接受或拒绝两种选择,是“一对一判别”的问题。因此,说话人确认系统的性能是与说话人集合的规模无关的。另外,与其他生物识别技术类似,若考虑待识别的说话人是否在注册的说话人集合内,则说话人辨认分为开集(Open-set)辨认和闭集(Close-set)辨认,即开集辨认比闭集辨认多一个确认过程。显而易见,闭集辨认的结果要好于开集辨认,但开集辨认与实际情况更为接近。目前的说话人识别方法按照语音的内容可分为与文本相关(Text-Dependent)的(规定语音内容,即注册和识别时说同样的话)、与文本无关(Text-Independent)的(不规定语音内容,即注册和识别时可以说任意的话)、文本提示(Text-Prompt)的(从大数据库中提示用户说一小段话,也可以归为与文本相关的)。说话人识别昀初的应用是在法庭上,1660年,语音被用于查尔斯一世之死一案罪犯判定的关键证据。自动说话人识别的研究始于20世纪60年代,Bell实验室的S.Pruzansky[1]提出了基于模式匹配和概率统计方差分析的声纹识别方法,引起信号处理领域许多学者的关注,形成了说话人识别研究的一个高潮。在以后的几十年中,研究人员不断在特征提取、模型匹配、对环境的适应性等方面深入研究,说话人识别技术也从小型的、实验室条件下、受控制的系统向实用化发展。如今,说话人识别技术已逐渐走入实际应用,AT&T、欧洲电信联盟、Motorola和Visa等公司、ITT公司、Keyware公司、T-NETIX公司等相继开展了相关实用化研究。可以预见,说话人识别正逐步进入到实用化的阶段,并进入到人们的生活中去。14.2说话人识别的基本原理和应用14.2.1说话人识别系统的典型结构图14.2.1为说话人识别系统的典型结构图,其中(a)和(b)分别所示意的是说话人辨认和说话人确认系统。多数在对用语音对说话人进行身份验证的情况下都被归类为说话人确认。2(a)说话人辨认(b)说话人确认图14.2.1说话人识别系统的典型结构图14.2.2技术原理基于不同的应用环境,说话人识别分为说话人辨识和说话人确认。说话人辨识是指识别说话人是否已经注册,是哪一个注册人;说话人确认是指识别说话人的身份与其声明的是否一致。特征提取模式匹配后处理输入语音识别结果基本识别结果识别训练参考模式库图14.2.2说话人识别系统的典型结构说话人识别系统的一种典型结构如图14.2.2所示,它包括训练和识别两个阶段。训练时,每个说话人重复一定次数的发音,然后检测并分析每次发声的语音段,以提取特征,并利用动态时间规整技术,在时间上对齐特征序列且多次平均,形成每个说话人的参考模板。识别时,对语音信号进行特征分析,然后计算与参考模板的距离,选取其中的昀小值作为结果输出。说话人确认系统则是计算待识特征与声明说话人模板的距离,并与设定的阈值比较,若高于阈值则拒绝判决,低于阈值则接受判决。因此,对于说话人识别系统来说,面临的基本问题有如下几个:(1)如何选取能够唯一表征人的有效而可靠的参量,如何对它进行处理;(2)如何规定相似性的测度使相似性的计算既简单又可靠;(3)考虑到人的状况在不断变化,为使系统能够可靠工作,如何使它的参考参量不断更新以适应使用者。在这三个问题中,第一个是说话人识别系统所特有的。其余二个在语音识别系统中也会遇到。314.3说话人识别的特征选择14.3.1说话人识别系统中常用的特征说话人识别系统中的特征提取即提取语音信号中表征人的基本特征,此特征应能有效地区分不同的说话人,且对同一说话人的变化保持相对稳定。由于说话人的语音特征和说话人的个性特征总是交织在一起,目前还没有找到将二者很好地分离的方法。尽管如此,语音信号的特征参数仍从不同侧面反映出说话人的个性,仍是说活人特征的重要来源。虽然人们在判断说话人时可以利用一些高层特征,如说话人的习惯风格、情感状态、遣词造句的特点等,但到目前为止没有好的方法将其定量化或找到它们与语音信号特征参数之间的关系,故不能在自动说话人识别中得到很好的应用。考虑到特征的可量化性、训练样本的数量和系统性能的评价问题,目前的说话人识别系统主要依靠较低层次的声学特征进行识别。多年来,人们对于特征参数在说话人识别系统中的有效性进行大量验证和研究[18],得到许多有意义的结果,在这里我们进行一下归纳,说话人特征大体可归为下述几类:一、线性预测系数或其派生参数线性预测系数是能够有效地表征语音的全极点模型的参数。以线性预测导出的各种参数,如线性预测系数、自相关系数、部分相关系数、反射系数、声道面积比函数、对数面积比、线谱对系数、线性预测残差、LPC倒谱系数及其组合等参数,作为识别特征,可以得到较好的效果。主要原因是线性预测与声道参数模型是相符合的。二、由语音频谱直接导出的参数语音的短时谱中包含有激励源和声道的特性,因而可以反映说话人生理上的差别,而短时谱随时间的变化,又在一定程度上反映了说话人的发音习惯,因此由语音短时谱导出的参数可以有效地用于说话人识别中。已经使用过的参数有功率谱,共振峰及其变化轨迹等。谱包络参数语音信息通过滤波器组输出,以合适的速率对滤波器输出抽样,并将它们作为说话人识别特征。基音轮廓、共振峰频率带宽及其轨迹。这类特征是基于发声器官如声门、声道和鼻腔的生理结构而提取的参数。基音较容易模仿,且不够稳定,一般与其他参数组合后使用。三、其他鲁棒性参数为反映听觉特性,模拟人耳对声音频率感知的特性提出了多种参数,如美尔倒谱系数、感知线性预测等[2-3]。包括Bark频率倒谱系数,以及经过信道谱减或噪声谱减的倒谱等[4-5,10]。四、混合参数为了提高系统的识别率,部分原因也许是由于究竟哪些参数是关键因素把握不充分,相当多的系统采用了混合参数构成的矢量。如果组成矢量的各参数之间相关性不大,则会更有效一些,因为它们分别反映了语音信号的不同特征。人们对各种参数进行过比较,得到一些有意义的结果。线性预测系数、自相关函数、声道面积比系数、倒频谱等作为说话人的个性特征参数的比较结果表明倒频谱昀好,其次是LPC系数,声道面积比系数昀差。而对LPC倒谱系数各维的区分能力的研究表明,对于16维的LPC倒谱系数来讲,后面各维的区分能力要比前面各维的好,当然并非单调的。分别用前8维和后8维组成特征矢量进行识别实验也表明后者的正确识别率要高。线谱对系数中间各维的F比要比两端的小,而倒频谱后面各维的F比要大得多(F比的定义见14.3.2节)。14.3.2特征参数的统计评价判断特征参数有效性的昀直接的方法是在给定识别方法后,考察它对识别率的影响。如果有限的参数不能达到较低的差错率,则可把若干参数构成一个矢量。至于其中每个分量的4影响,则可以通过增加它或去掉它对识别率造成的影响来确定。但这种方法受到识别方法的影响,使用不同识别方法的两参数不能通过识别率来比较它们的有效性,因而常用F比和D比来直接衡量一种参数的有效性。一、F比对于某一维特征x,若同一说话人的不同次发音,这一特征的均值变化较小,而对于不同说话人的发音,这一特征的变化却较大,则较为适合作为描述说话人的个性特征,因此可定义F比,为2()2,[]/[]iiiiiFxααμμμ==−−不同说话人特征各自的均值的方差同一说话人各次特征的方差的均值均值的方差(全部说话人之间)方差的均值(同一说话人之内)(14.3.1)其中,()ixα——第i个说话人第α次发音得到的特征参数;i——对i求平均运算;α——对说话人的不同语音平均;()iixαμ=——第i个说话人参量的估计均值;iiμμ=——对所有说话人平均参数的总均值的估值。显然,F比越大的特征分量越适合作为说话人的个性特征。当然F比大并不能绝对保证这些分布彼此之间不重叠,而且这单一参数之间的评价并没有考虑参数间的相关性,构成参数集未必一定获得高的识别率。二、可分性测度(D比)类似F比,对于多维特征矢量x,定义说话人内(Inter-speaker)特征的协方差矩阵W和说话人间(Intra-speakers)特征的协方差矩阵B分别为()(),()()()()iTiiiiTiiiWxxBαααμμμμμμ=−−=−−(14.3.2)其中,iμ和μ同上面的约定,只是对于多维特征得到的为矢量。这样,我们可以得到可分性测度(或D比)的定义:111()()()()TTiiiiiiDWTrWTrWBμμμμμμμμ−−−⎡⎤−−=−−⎣⎦⎡⎤=⎣⎦(14.3.3)其中[]Tr⋅是求矩阵的迹。14.4说话人识别的主要方法14.4.1模板匹配法模板匹配法的要点是,在训练过程中从每个说话人发出的训练语句中提取相应的特征矢量,这些持征矢量能够充分描写各个说话人的行为。这些特征矢量称为各说话人的模板。它们可以从单词、数字中或句子中提取。在测试阶段,从说话人发出的语音信号中按同样的处理法提取测试模板,并且与其相应的参考模板相比较。昀简单的模板模型包括一个模板x,它是语音一帧的模型。测试矢量ix和模板x的匹配得分定义为(,)idxx。该模型可以从目标说话人的N个训练矢量中求均值得到:11NiiN==∑xx(14.4.1)5而矢量和之间的距离可以表示为:(,)()()Tiiid=−−xxxxWxx(14.4.2)这里W是加权矩阵。如果W为单位阵,则该距离为欧几里德距离;如果W为训练矢量的逆协方差矩阵,则该距离为Mahalanobis距离。(Mahalanobis距离对具有较大方差的成份给以较小的权值,而对主成份的权值则和欧几里德距离相等。)一、动态时间规整(DTW)方法说话人信息不仅有稳定因素(发声器官的结构和发声习惯),而且有时变因素(语速、语调、重音和韵律),使得测试模板和参考模板在时间尺度上不可能完全一致。将识别模板与参考模板进行时间对比,按照某种距离测定得出两模板间的相似程度,常用的方法是基于昀近邻原则的动态时间规整法(DTW)。模板序列12(,,...,)Nxxx与输入序列12(,,...,)Mxxx相匹配,一般N与M不相等。不均匀匹配得分z由下式给出:()1(,)Mijiizd==∑xx(14.4.3)这里模板标记()ji是由DTW算法给出的。给定参考模型和输入信号,DTW算法通过使z昀小化的线性映射将两个信号进行时间上的对齐。在时间弯曲后,昀终的距离和是匹配得分的基础。二、矢量量化(VQ)方法[6]矢量量化昀早是基于聚类分析的数据压缩编码技术。Helms首次将其用于说话人识别,把每个人的训练数据通过标准的聚类过程生成码本,识别时将