语音情感识别概述语音情感识别是指由计算机自动识别输入语音的情感状态。人机语音智能交互的关键技术互动电影、情感翻译、心理检测、电子游戏和辅助心理治疗……语音情感识别研究具有重要的理论价值和应用前景2研究进展美国、日本、韩国、欧洲等许多国家国内:东南大学、中国科学院、清华大学、浙江大学、哈尔滨工业大学、微软亚洲研究院3结构1语音情感识别的系统2语音情感特征参数3特征选择和降维方法4语音情感识别算法5展望41系统概述1语音情感识别的系统三个环节:即预处理、特征提取和情感分类6预处理主要包括采样量化、预加重、端点检测、分帧加窗。预处理过程的好坏在一定程度上也影响系统的识别效果7特征提取特征提取的任务是从输入的语音信号中提取能够区分不同情感的参数序列,在提取特征数据的过程中,为了获得最优特征子集,可能还需要特征降维、特征选择等进一步处理。8模式分类a)在训练时用反映情感特征的参数序列,为每种情感建立相应的情感模型b)在测试或识别时根据所得到的待识别语音信号的特征参数序列,由系统对这些参数和已知情感模型之间的相似程度进行评估,并根据评估的结果判断输入语音信号的情感归属92特征参数2语音情感特征参数语音情感的变化通过特征参数的差异来体现语音情感识别系统主要依靠语音的低层次声学特征来进行识别特征征大致可分为基于模型的特征非基于模型的特征112.1基于模型的特征1线性激励源/滤波器语音产生模型特征2非线性激励源/滤波器语音生成模型特征3语音的全极点模型特征4正弦语音模型特征122.1.1线性激励源/滤波器语音产生模型特征特征主要表现在语音的频谱结构上包含了反映声道共振的频谱包络特征信息和反映声带振动等音源特性的频谱细节构造特征信息具有代表性的特征参数有基音频率共振峰。13基音频率浊音的声带振动基本频率称为基音频率多语种下,情感语音的基频结构特征随情感状态改变有明显的变化,且不同语种下这种结构的变化有较好的一致性。[1]一般提取的基音参数是一段语音的基频衍生参数,如基频的均值、范围、方差、中值、轮廓变化等。[2]14基频与人的生理构造密切相关,具有较强的相异性和不稳定性,基频本身绝对数值使用较少,基频的统计数值更为常用,而且在不同的性别上基频差异更为明显。通过分析基频均值、方差、统计分布模型在性别上的差异,对基频参数进行基于性别差异的规整;引入规整后的基频均值和方差以及基频统计分布模型距离作为情感特征参数[3]15共振峰当元音激励进入声道时会引起共振特性,产生一组共振频率即共振峰共振峰的位置和频带宽度是反映声道特性应用最广泛的是前三个共振峰峰值及前三个共振峰的带宽。共振峰参数存在个体差异,应用较多的是统计特征[4]162.1.2非线性激励源/滤波器语音生成模型特征传统的语音学方法对语音模型的研究将语音的产生假定为线性源—滤波器模型,语音被假设是沿声道方向传播的平面波Teager等人[5]认为当气流通过声带和伪声带区域会出现气流的分离、附着,进而形成涡流,并与平面波一起构成语音生成的原因,提出Teager能量算子(TEO)17TEO发展TEO算子分别应用于信号的时域和频域,并与子带能量特征相结合,提出两种基于TEO的非线性特征用于识别语音情感。[6]结合小波分析的多分辨率思想将不同形式的TEO与美尔频域倒谱系数(MFCC)相结合,提出五种非线性特征用于语音情感识别[7]182.1.3语音的全极点模型特征这类特征主要表现在语音频谱结构随时间的变化上,包含了特征参数的动态特性代表性的特征参数是倒谱系数,如线性预测倒谱系数(LPCC)和美尔频域倒谱系数(MFCC)19线性预测倒谱系数(LPCC)LPCC是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱系数。根据同态处理的概念和语音信号产生的模型,语音信号的倒谱等于激励信号的倒谱和声道传输函数的倒谱之和。20通过分析激励信号的语音特点及声道传输函数的零极点分布情况可知,激励信号的倒谱分布范围很宽,而声道传输函数的倒谱主要分布于低时域中。考虑到不同情感的发音可能使声道有不同的变化,进而引起声道传输函数倒谱的变化,因而在语音情感识别中语音信号倒谱的低时域系数LPCC得到了应用。21MFCC然而,LPCC在所有的频率上是线性逼近语音的,这与人的听觉特性不一致,而且LPCC包含了语音高频部分的大部分噪声细节,使其抗噪声性能较差。针对以上的缺陷提出了MFCC,并在语音情感识别领域得到广泛应用。222.1.4正弦语音模型特征语音信号被假设可以由一组不同频率、幅度和相位的正弦波之和表示,因此这组正弦波的频率、幅度和相位可以作为表达语音情感变化的特征参数。仿真结果表明上述三种特征可以有效地刻画语音情感的变化,并且性能优于常用的倒谱特征参数。[8]232.2非基于模型的特征这类特征通常由一帧或一段语音信号的各个时域采样直接计算一个特征矢量,常用的特征参数有语速、短时平均过零率、发音持续时间和能量等。24发音长度通常认为,欢快、愤怒、惊奇的发音长度和平静发音相比压缩了,而悲伤的发音长度却稍稍伸长了。25语速从语速和情感的关系来看,欢快、愤怒、惊奇和平静发音相比变快了,而悲伤却变慢了在提取持续时间时应注意包括无声部分,因为无声部分本身对情感是有贡献的。对于汉语而言,一个汉字即为一个音节,所以用总音节数除以持续时间即得到语速。26能量语音作为一种能量有限的信号,能量特征是其最重要的特征之一。从人们的直观感觉中就可感受到语音信号的能量特征与情感具有较强的相关性,如当人们愤怒时,发音的音量往往变大;而当人们悲伤时,往往讲话声音较低。273特征选择和降维3.1特征选择任一类型特征都有各自的侧重点和适用范围,不同的特征之间具有一定的互补性。因此,相当多的文献采用了混合参数构成特征向量。常用的特征选择方法有[9]序列前向选择(SFS)序列后向选择(SBS)优先选择法(PFS)29SFSSFS法考虑了所选特征与已选定特征之间的相关性,但它的主要缺点是一旦某特征已入选,即使由于后加入的特征使它变得冗余,也无法再将它剔除。30SBSSBS在计算过程中可以估计每除去一个特征所造成的可分性的降低,与SFS相比,由于要在较大的变量集上计算可分性判据,其计算量要比SFS大。31PFSPFS方法虽然不能得到最优的结果,但它能快速、方便地完成特征选择过程,在一些原始特征数量较大、可分性判据计算复杂的情况下,被普遍使用,在有些情况下它的综合效率比SFS和SBS都要高。323.2降维方法从模式识别的研究也表明,识别率不与特征空间的维数成正比,在高维情况下泛化能力反而减弱,甚至导致维数灾难。现在解决此问题的方法是对高维特征向量进行特征选择或者降维。常用的降维方法有主成分分析法(PCA)线性判别分析(LDA)33PCAPCA提取了最有代表性的特征,可以有效地消除冗余,降低维数,但它没有考虑不同类别数据之间的区分性。34LDALDA通过最大化数据的类间离散度和最小化类内离散度来选择合适的投影方向,侧重于寻找具有最大分辨力的方向。354识别算法4语音情感识别算法语音情感识别现在的处理思路仍然是把它作为典型的模式识别问题,所以到目前为止,几乎所有的模式识别算法都被应用其中。37两大类较为流行的方法a)基于概率生成模型的方法隐马尔可夫模型(HMM)高斯混合模型(GMM)b)基于判别模型的方法支持向量机(SVM)人工神经网络(ANN)384.1隐马尔可夫模型(HMM)HMM是一种基于转移概率和传输概率的随机模型由于它既能用短时模型即状态解决声学特性相对稳定段的描述,又能用状态转移规律刻画稳定段之间的时变过程,在基于时序特征的语音情感识别模型中,HMM已成为研究人员广泛采用的模型。39常用HMM的结构自左向右连续型HMM模型状态回跳连续HMM模型各态历经离散HMM模型自左向右半连续型HMM模型自左向右的状态转移结构适合文本相关的情感识别,各态历经的状态转移结构适合文本无关的情感识别。40离散型HMM模型离散型模型相对简单语音情感特征参数必须经过矢量量化(VQ)处理从而造成一些信息的丢失VQ的码本训练和离散HMM的训练不是同时进行优化训练,因而很难保证训练的全局优化41连续型HMM模型连续型HMM模型避免了矢量量化的计算,可以直接处理特征参数为得到较精确的状态观察值的概率密度分布函数必须使用较多的概率密度函数进行混合,这样造成模型复杂、运算量大,并且需要足够多的训练数据才能得到可靠的模型参数。42半连续型HMM模型半连续型模型的特点介于离散型模型和连续型模型模型之间。43HMM特点基于HMM的语音情感识别扩展性好,增加新样本不需要对所有的样本进行训练,只需训练新样本缺点是模型结构参数的选择仍与待处理的语音数据有关,需由实验确定,并且训练时的计算量较大444.2高斯混合模型(GMM)GMM本质上是一种多维概率密度函数,可以用来表示语音特征矢量的概率密度函数。它可以看作为一种状态数为1的连续分布HMM。4546通过对情感特征矢量聚类,把每一类看做是一个多维高斯分布函数然后求出每一类的均值、协方差矩阵和出现的概率,将此作为每种情感的训练模板。识别时将测试矢量输入每种情感模板,最大后验概率即为识别结果。GMM的识别率高于采用短时特征矢量与HMM分类器的识别率[10]矢量回归模型(VR)传统的GMM算法中,通常假设特征矢量之间是统计独立的,而事实上语音在发生过程中,特征矢量之间存在相互的制约关系,而矢量回归模型(VR)则可有效地描述矢量之间的相关性。4748利用VR改进传统的GMM,提出一种称为高斯混合回归模型(GMVAR)的分类器实验表明GMVAR算法的识别效果明显优于HMM、K近邻算法及前向神经网络算法[11]GMM特点GMM的优点是可以平滑地逼近任意形状的概率密度函数,每个密度分布可以表示出基本声学类,并且模型稳定、参数容易处理GMM阶数和初值较难确定,特别是阶数很难从理论上推导出来,通常根据不同的语音样本由实验确定494.3支持向量机(SVM)支持向量机是贝尔实验室研究人员Vapnik等人在对统计学习理论进行了多年研究的基础上提出的一种全新的机器学习算法,该算法基于结构风险最小化原则,能够较好地解决小样本学习问题。5051由于SVM有统计学习理论作为坚实的数学基础,可以很好地克服维数灾难和过拟合等传统算法所不可避免的问题,近年来已成为一种有效的分类工具,并被广泛地应用于语音情感识别研究当中。计算机仿真实验结果表明,与已有的多种语音情感识别方法相比,SVM对情感识别取得的识别效果优于其他方法。52SVM良好的分类性能在模式识别中得到了日益广泛的应用目前在SVM的训练和实现上仍然存在一些y有待解决的问题。SVM中核函数的选择影响分类器的性能,如何根据语音样本数据选择和构造合适的核函数及确定核函数的参数等问题缺乏相应的理论指导。虽然多类SVM的训练算法已被提出,但用于多分类问题的有效算法及多类SVM的优化设计等仍需进一步研究。4.4人工神经网络(ANN)神经网络可视为大量相连的简单处理器(神经元)构成的大规模并行计算系统,具有学习复杂的非线性输入输出关系的能力,可以利用训练过程来适应数据,对于模型和规则的依赖性较低。对于语音情感识别问题,根据使用的特征和情感分类的不同,可以使用不同的网络拓扑结构。53all-class-in-one(ACON)[12]ACON即为所有情感训练一个网络。利用两层的网络结构容易实现较为满意的近似映射,因此该网络包含与特征维数相同的输入节点、一个隐含层和与情感类别相同数目的输出节点。对每一个待识别的情感语句,将其特征矢量输入到网络中,再根据网络的输出判断其属于何种情感。54one-class-in-one(OCON)[13]OCON即为每一种情感训练一个子网络,每个子网络是一个多层感知器(MLP)。