Mel域语音质量客观评价测度性能研究陈华伟1,张知易2,靳蕃1(1.西南交通大学信息科学与技术学院,四川成都610031;2.中国电子科技集团公司第三十研究所,四川成都610041)摘要:为了有效进行语音质量客观评价,对以MFSC为特征参数的Mel-SD和以MFCC为特征参数的Mel-CD进行对比分析,研究了特征提取中滤波器构造变化对两种测度的影响,并对Mel-SD中压缩因子的影响加以研究。测试研究表明,Mel-SD性能好于Mel-CD,同时具有对滤波器组构造变化的鲁棒性;Mel-CD对滤波器构造变化比较敏感,在滤波器数目超过13后随着滤波器数目的增加性能下降。Mel-SD在给定的滤波器数目的情况下,有最佳的压缩因子。当在一定的范围内,压缩因子的影响并不严重。最佳压缩因子基本符合对心理声学静态测量实验结论的近似表达。将参数优化的Mel-CD和Mel-SD用于干扰条件下通信系统的语音质量的客观评价,结果表明,Mel-SD性能优于Mel-CD和PESQ,Mel-CD性能则与PESQ相当。关键词:语音质量;客观评价;美尔谱系数;Mel谱失真测度;Mel倒谱系数失真测度中图分类号:TN912.3文献标识码:AAnalysisonPerformanceofObjectiveSpeechQualityMeasuresinMelDomainCHENHua-wei1,ZHANGZhi-yi2,JINFan1(1.SchoolofInformationScience&Technology,SouthwestJiaotongUniversity,SichuanChengdu,610031;2.No.30InstituteofCETC,SichuanChengdu,610041)Abstract:Toevaluatespeechqualityeffectivelyandexactly,Mel-SDandMel-CDarecomparedandanalyzed,especiallyonfeatureextraction.TheeffectsofthestructureofMelfilterbankonbothmeasuresareinvestigated.TheresultshowsthatMel-SDperformancebetterthanMel-CD,whileretainingrobustonvarietyofMelfilterbank.Mel-CDissensitivetostructureofMelfilterbank,anddecreasesitsperformancewhenthesizeofbankisincreased.Basedonoptimalsizeofbank,Mel-SDwastestedbydifferentcompressionfactortofindtheoptimalfactorinassessingspeechquality.Furthermore,optimalMel-SDandMel-CDweretestedbyassessingspeechqualityofcommunicationsystem.ExperimentresultsshowthatMel-SDhasgoodperformance,andperformanceofMel-CDisequivalenttoPESQ.Keywords:SpeechQuality;ObjectiveSpeechQualityEvaluation;MelFrequencySpectralCoefficient;MelSpectralDistortionMeasure;MelCepstralDistanceMeasure在通信系统的研究、设计、发展、运营过程中,需要对设备和系统的性能进行监测,以便进行调整、改进、优化等。在涉及语音信息交流的系统中,评价系统性能优劣的一个重要指标就是系统所传输语音的质量。面对新的通信技术和通信服务的要求,研究灵活、可靠、准确的语音质量评价系统成为国内外研究者努力的目标。收稿日期:作者简介:陈华伟(1972-),男,江西宁都人,博士研究生。Email:chw.mail@163.comMel-CD是Mel域上的语音质量客观评价方法,在研究和实践中都得到了一定的应用[1~5]。Mel-CD把美尔倒谱系数MFCC(MelFrequencyCesptralCoefficient)作为语音信号的特征描述,并用于表示客观失真距离的计算模型。MFCC考虑了人耳对频率的非线性感知特性,但MFCC本身是同态解卷积的处理,将其作为语音质量客观评价中的语音特征描述时并没有很好地符合听觉生理模型以及感知特性。针对Mel-CD存在的问题,文献[6]提出一种以美尔谱系数MFSC(MelFrequencySpectral系统预处理特征参数计算预处理特征参数计算失真计算/判断模型原始语音失真语音图1基于输入-输出语音质量客观评价原理框图Coefficient)为特征参数的语音质量客观评价方法-美尔谱失真测度Mel-SD(MelSpectralDistortionMeasure)。Mel域上的语音质量客观评价与Mel域滤波器的选择有密切的关系,本文将对Mel-SD、Mel-CD与滤波器关系加以研究,并在此基础上,对MFSC中非线性压缩函数变化对Mel-SD性能的影响进行研究。1Mel-CD和Mel-SD典型的基于输入-输出的语音质量客观评价主要由语音信号预处理、特征参数计算、失真计算/判断模型三部分组成,如图1所示。核心部分在于特征参数计算、失真计算及判断模型,不同的客观测度主要区别在于这个两个部分。音调是听觉分辨声音高低时,用于描述这种感觉的一种特性,客观上用频率表示音调,主观上音调的单位用Mel标度。Mel-CD和Mel-SD是建立在人对声音信号频率所产生音调感知特性的基础上,对语音信号提取Mel域上的特征描述,得到失真量计算所需要的特征参数,通过合适的判断模型,将失真量与MOS值相对应。本节将对Mel-CD和Mel-SD的主要不同部分-特征参数提取进行说明和比较。1.1预处理由于输入-输出语音质量客观评价的要求,需要先对语音信号进行预处理,主要有:时间对齐、电平规整、预加重处理、分帧等。1.2特征参数表示-美尔倒谱系数MFCC与美尔谱系数MFSCMFCC与MFSC的计算过程见图2、图3。1.2.1FFT与短时功率谱语音信号是非平稳信号,但是一般认为,在10~25ms内是短时平稳的,因此对25ms的语音帧计算其短时功率谱。1.2.2频率弯折将频率按式(1)变换至Mel标度域。)(1)7001(log2595)(10ffMel1.2.3Mel域滤波第k帧的短时信号功率谱通过耳蜗三角带通滤波器组,得到滤波器功率谱输出。NjfAfPOfjkkj,,3,2,1,,(2)kjO,是第k帧,第j个滤波器的输出,)(fAj是滤波器组中的第j个滤波器的传输函数,N为滤波器的个数。Mel域滤波器组由给定数目的三角带通滤波器组成,滤波器的中心频率和带宽在[0-4000]Hz范围对应的Mel刻度频率域上均匀排列。各个三角滤波器带内,其对应线性频率对应的权值由式(3)确定:otherwisefffffffffffffffAjjjjjjjjjjj,0,,)(111111(3)图3美尔谱系数计算计算短时功率谱滤波非线性压缩ƒDCTFFTX(f)P(f)x(n)OjX(j)频率弯折MFSCP(mel)计算短时功率谱滤波log|*|DCTFFTX(f)P(f)x(n)OjX(j)频率弯折MFCCP(mel)图2美尔倒谱系数计算jf为第j个滤波器的中心频率,)(fAj为第j个滤波器的幅频特性。1.2.4对数运算与非线性压缩变换从图2、图3中,可以看出MFCC与MFSC的区别就在于对数运算与非线性压缩函数部分不同。MFCC中的对数运算源于同态解卷积,MFSC的非线性压缩运算基于强度-响度感知变换。在MFSC中选择合理的压缩函数基于两点考虑:1.符合听觉感知特性;2.避免复杂计算模型。在文献[7]中选择立方根函数作为强度-响度变化的近似。1.2.5离散余弦变换MFCC中DCT变换目的本身是同态解卷积,同时也可以起去相关和降维作用。MFSC中DCT变换的目的是去相关和必要的降维作用,经过DCT处理后MFCC和MFSC各个系数分量之间不具有相关性,满足距离失真计算中的各分量间不相关的假设。1.2.6MFCC与MFSC的关系MFCC虽然结合了语音频率感知非线性和Mel域带通滤波的概念,但本质是基于同态解卷积的倒谱分析;MFSC则基于语音的频率和强度听觉感知的特征表示。但如果不考虑MFCC和MFSC原理的区别,若将对数运算作为非线性压缩的一个实现,则可以认为MFCC是MFSC的一个特例。在文中,为了比较MFCC与MFSC在客观音质评价中使用的不同效果,依然将两者看作是不同的特征参数。1.3失真计算与判断模型1.3.1失真量计算Mel-SD与Mel-CD的失真量计算完全相同,下面仅仅对Mel-SD的失真量计算加以说明。第k帧的美尔谱失真距离定义如式(4)miyxkiMFSCkiMFSCkSDMel12),(),()(k=1,2,…,N(4)MFSCx(i,k)为输入语音信号的第k帧MFSC第i阶系数,MFSCy(i,k)为失真语音信号的第k帧MFSC第i阶系数。N为语音信号的总帧数,m为MFSC的阶数。将语音文件每帧的美尔谱系数失真距离作算术平均,得到该失真文件的美尔谱系数失真距离,作为失真语音的总失真量,见式(5)。NkSDMelSDMelk)((5)1.3.2判断模型计算的失真量按最小二乘法准则进行二次多项式拟合,以对应相应的语音质量的客观MOS值或者称为预测MOS值。1.4Mel-CD与Mel-SD的关系从以上分析,如果将MFCC作为MFSC的一个实现特例,则Mel-CD可以作为Mel-SD的一个特例,只是由于选择了并不符合听觉感知特性的对数压缩的原因,Mel-CD与Mel-SD在评价性能不同[6]。2语音质量客观评价的性能指标语音质量客观评价方法的性能优劣,一般用语音质量的客观MOS值与主观MOS值之间的相关程度和预测误差作为评价的性能指标[8],两者的相关程度采用Pearson相关系数加以描述,如式(6)所示。相关系数描述了客观评价与主观评价MOS之间的线性程度,相关系数越接近+1,客观测度用于预测主观MOS值越准确。MiMissoossMiooMOSiMOSMOSiMOSMOSiMOSMOSiMOS11221))(())(())(())(((6)预测误差用标准估计偏差sse表示,见式(7)所定义。SSE越小,反映预测误差越小,客观评价测度的性能越好。M)i(MOS)i(MOSM1i2sosse(7)在(6)和(7)中,MOSO(i)是第i个数据的客观MOS值,MOSs(i)是主观评判的MOS分值,M是数据点的数目。3Mel-SD、Mel-CD与Mel滤波器数目的关系分析Mel-SD和Mel-CD,两者的区别在于提取的语音特征参数不同。而在MFCC和MFSC中,除了非线性变化部分不同,其他部分也是相同的。Mel域滤波是两个参数计算的共同部分,因此Mel滤波器组的选择对Mel-SD、Mel-CD都将产生影响。在此,我们希望了解Mel滤波器组对客观测度的影响。在此针对电话频带语音质量客观评价研究,我们选择带宽比电话频带略宽,为[0-4000]Hz。Mel滤波器组的构造,根据给定滤波器组中滤波器的数目,在对应[0-4000]Hz的Mel域范围[0-2146]Mel尺度域内三角形滤波器组的中心频率均匀排列。滤波器的数目不同,则滤波器的带宽不同,滤波器组的构成也不同。滤波器组对测度性能的影响就转换为用滤波器组中滤波器数目的变化对测度的影响加以研究。滤波器的影响