1第11章11.1~11.5语音转换《语音信号处理》2第11章11.1~11.5语音转换11.1语音转换的原理和应用11.2常用语音转换的方法11.3语音分析模型和语音库的选择11.4应用GMM的语音转换11.5语音转换的研究方向311.1语音转换的原理和应用语音信号包含了很多信息,除了最为重要的语义信息外,还有说话人的个性特征(或者说身份信息)、情感特征、说话人的态度以及说话场景信息等语音转换(VoiceConversion):将A话者的语音转换为具有B话者发音特征的语音,而保持语音内容不变411.1语音转换的原理和应用要完成一个说话人语音转换,一般包含两个阶段:训练阶段和转换阶段训练阶段:首先提取源说话人和目标说话人的个性特征参数,然后根据某种匹配规则建立源说话人和目标说话人之间的匹配函数转换阶段:利用训练阶段获得的匹配函数,对源说话人的个性特征参数进行转换,最后利用转换后的特征参数合成出接近目标说话人的语音511.1语音转换的原理和应用语音转换的应用应用于文语合成系统多媒体娱乐:外语电影用于语言翻译系统:同步翻译语音识别通信领域中极低速率语音编码方案医学领域中语音增强系统说话人伪装身份通信611.2常用语音转换的方法11.2.1频谱特征参数转换11.2.2基音周期转换11.2.3韵律信息转换711.2.1频谱特征参数转换频谱特征参数转换矢量量化法线性多变量回归法神经网络法多说话人插值法高斯混合模型法811.2.1频谱特征参数转换1.矢量量化法:主要分为训练阶段和转换阶段9训练阶段码本生成码本生成矢量量化矢量量化DTW统计直方图A的学习单词说话人A的码本(A-B)匹配码本B的学习单词说话人B码本10转换阶段LPC分析矢量量化A的语音译码标量量化译码合成滤波器转换语音A的码本(频谱参数)(A-B)匹配码本(频谱参数)(A-B)匹配码本(基音频率)A的码本(基音频率)1111.2.1频谱特征参数转换2.线性多变量回归法训练阶段转换方程可表示为转换阶段,首先对源特征矢量进行归一化处理,然后对其进行量化归类,确定所用的转移矩阵,再将归一化之后的特征矢量乘以转移矩阵,再对得到的矢量进行解归一化,即得到转换后的频谱特征参数ˆ*iiiyAX1211.2.1频谱特征参数转换3.神经网络法4.多说话人插值法根据预先存储的多个说话人频谱包络进行插值得到目标的频谱包络,频谱包络通过慢变化的插值率来进行平滑的转换5.高斯混合模型法1311.2.2基音周期转换基音周期转换平均基音周期转换法高斯模型转换法句子码本模型转换法设源说话人和目标说话人的平均基音周期分别为,则平均基音周期转换率α=stpp和/tsppp,csttssApBABA1411.2.3韵律信息转换在表征说话人信息的特征参数中,除了表示声道信息的特征参数外,还包括说话人的韵律信息,它同样能丰富的反映说话人的个人信息,韵律信息包括:说话人的说话时长、能量、基音频率等等目前的研究中,主要是对基音周期和时长进行统计匹配,按照它们的平均值求出响应的比例因子,然后在合成语音时按比例的增加或者减少帧间叠加的样本点数目,或者通过复制或者删除一定的残差信号,实现基音周期平均值和音素时长平均值的转换1511.3语音分析模型和语音库的选择11.3.1语音分析模型11.3.2语音库的设计1611.3.1语音分析模型STRAIGHT(speechtransformationandrepresentationandinterpolationusingweightedspectrogram)即自适应加权谱内插,是针对语音参数的修改和恢复而提出的一种非常优秀的语音模型在时—频域重建语音信号精准地提取f0参数:Gabor滤波器人为构造最小相位系统恢复源信号17STRAIGHT的主要组成部分1.去除周期影响的谱估计去除时间轴上的周期性:采用基音同步并叠加补偿窗的方法来计算频谱,并在时域上平滑去除频率轴上的周期性:通过对线谱卷积三角窗,并进行频率轴上的平滑,得到最终的谱包络0012121h(,)114()()(,)[((,)((,)))]tttstgngFtdd18STRAIGHT的主要组成部分2.平滑可靠的基频轨迹的提取19STRAIGHT的主要组成部分3.合成器的实现合成时需要使用基音同步叠加和最小相位冲激响应的方法,可以实现对时长、基频和谱特征参数的调整01y()(())(())1()(,)()2iiititijtttutTtGftutVted20STRAIGHT分析的合成过程提取STRAIGHT谱与基频韵律生成模块声源频谱调整模块基频、时长生成声源频谱调整基音同步叠加合成转换语音原始语音LPC倒谱参数和LSP参数等?2111.3.2语音库的设计4.时间对齐3.说话人数量2.音素覆盖范围1.语音库大小语音库设计语音库是指以语音波形文件和相应的参数文件组成的数据库说话人越多,越有利于评估语音转换系统语音库中每个说话人的语音数据即文本内容,描述了语音库覆盖整个语音空间的程度往往需要对源语音特征参数序列和目标语音特征参数序列进行时间对齐2211.4应用GMM的语音转换训练阶段进行特征参数的提取,包括基音周期和频谱特征参数的提取对源说话人和目标说话人的混合频谱特征参数运用DTW方法进行对齐对经过时间对齐后的混合特征参数进行GMM模型的建模,运用LBG方法和EM方法训练出一个有效的GMM模型。分别获得源说话人和目标说话人特征参数的均值、方差和混合协方差,获得频谱转换函数分别对源说话人和目标说话人的平均基音周期F0,求出平均基音周期转换率2311.4应用GMM的语音转换转换阶段运用训练获得的频谱转换函数进行频谱特征参数的转换,运用基音周期转换函数对基音周期进进行转换对转换后的频谱特征参数和基音周期运用语音分析合成模型进行合成2411.4应用GMM的语音转换假设源特征矢量和目标特征矢量符合联合高斯概率分布,利用高斯混合模型对混合频谱参数进行建模,得到1p,,,MmmmmxxxxymmmmmyyxyymmmxxNyy2511.4应用GMM的语音转换利用EM算法可得到各参数的估计值在每一个高斯分量里对源特征矢量和目标特征矢量建立线性关系运用最小平均误差法进行求解1ˆ(|)()MtmtmtmmyPcxAxB11A(),(,,)(|)(,,)yxxxyxmmmmmMmxxxmtmmmtMxxxmtmmmBANxPcxNx2611.5语音转换的研究方向进一步研究激励和声道的关系加强基于非对称语料库训练方法的研究不同语种间的语音转换减少算法复杂度和运算量,增强实用性去噪处理考虑相邻帧之间的关系27谢谢!