语音信号处理是研究数字信号处理技术对语音信号进行处理的一门科学语音:是声音和语言的结合体,是一连串的音组成的语言的声音。人的说话过程:想说,说出,传送,接收,理解。句法的最小单位是单词,词法的最小单位是音节。语音特征:音色,音调,音强,音长。语音音素:元音和辅音。辅音包括浊音(声带振动)和清音共振峰:元音激励进入声道时引起共振特性,产生一组共振频率。基音频率:浊音的声带振动的基本频率。汉语是一种声调语言,声调具有辩义作用。声调的变化就是浊音基音周期的变化。汉语音节的一般结构:声带,韵母,声调对发音影响最大的是声带。基音周期:声带每开启和闭合一次的时间,倒数就是基音频率。语音听觉系统:耳:内耳(将机械信号转化为神经信号),中耳(声阻抗变换),外耳(声源定位和声音放大)。掩蔽效应:在一个强信号附近,弱信号将变得不可闻。被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限或掩蔽阈值。掩蔽效应:同时掩蔽和短时掩蔽。同时掩蔽:存在一个弱信号和一个强信号频率接近,强信号会提高弱信号的听阀,当弱信号的听阀被升高到一定程度就会导致这个弱信号弱不可闻。短时掩蔽:当A声和B声不同时存在时也存在掩蔽作用,称为短时掩蔽。语音信号生成的数学模型:激励模型(一般分为浊音激励和清音激励),声道模型(一般分为声管模型和共振峰模型,共振峰模型又分为三种:级联,并联,混合型),辐射模型。浊音激励模拟成是一个以基音周期为周期的斜三角脉冲串。可以把清音模拟成随机白噪声。完整的语音信号的数学模型的传输函数H(z)=AU(z)V(z)R(z).一阶高通形式的R(z)=R0(1-z^(-1))把和时序相关的傅里叶分析的显示图形称为语谱图。语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形。第三章:语音信号分析1.参数性质不同:时域,频域,倒频域。分析方法:模型分析法(根据语音信号产生的数学模型来分析和提取表征这些模型的特征参数)和非模型分析法(时域,频域,倒频域)。2.数字化和预处理:数字化:带通滤波,增益控制,模数转换,编码调制。预处理:预加重,加窗,分帧。预滤波的目的(作用):①抑制高频分量,防止混叠干扰②抑制电源工频干扰量化噪声特征:①平稳的白噪声②与输入信号不相关③等概率密度分布预滤波器是一个带通滤波器,其上下截止频率分别为fh=3400hzfl=60~100hz采样频率为fs=8khz预加重数字滤波器一般是一阶的数字滤波器H(Z)=1-uz^(-1)加窗,分帧的窗口的窗函数:要减小窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以减小语音帧的截断效应,在频域要有较宽的3db带宽以及较小的边带最大值。采样周期,窗口长度,频率分辨率之间关系△f=1/(NT),如果N很大,它等效于很窄的低通滤波器,语音信号通过时,反映波形细节的高频部分被阻碍,短时能量随时间变化很小,不能真实反映语音信号的幅度变化,反之,N太小时,滤波器的通带变宽,短时能量随时间有急剧变化,不能得到平滑的能量函数。3.语音信号的时域分析:短时能量及短时平均幅度分析,短时过零率分析,短时相关分析短时能量和平均幅度函数的主要用途:①区分浊音清音,浊音能量大②区分声母和韵母③作为超音段信息。短时过零率分析:作用①区分浊音清音,清音具有较高的过零率。②利用短时过零率从背景噪声中找出语音信号。浊音的短时平均幅度大,而短时过零率最低。清音的短时平均幅度居中而短时过零率最高,无声的短时平均幅度最低而短时过零率据居中。浊音才具有基音周期。短时平均幅度差函数和自相关函数有密切的关系,表达式)]()0()[(2)(FnkRnRnkk^(1/2)4语音信号的频域分析:傅里叶分析法。5语音信号的倒谱分析:①线性预测分析②同态分析同态信号处理:将非线性问题转化为线性问题。按被处理的信号由同态处理和卷积同态处理。同态信号处理也称为同态滤波,它实现了将卷积关系变换为求和关系的分离处理,即解卷。MEL倒谱分析着眼于人耳的听觉特性。6.线性预测分析:用过去的样点值来预测现在或未来的的样点值线性预测分析的基本思想:由于语音样点之间存在相关性,所以可以用过去的样点值来预测现在或未来的样点值。即一个语音的抽样能够用过去若干个语音抽样或他们的线性组合来逼近。同时含有极点和零点:回归-滑动平均模型。全极点模型:回归模型。全零点模型:滑动平均模型。语音信号处理最常用的是全极点模型。7.基音检测算法:自相关函数法,峰值提取算法,平均幅度差函数算法,并行处理技术,倒谱法,小波法。在利用自相关函数估计基音周期时,第一要考虑的问题是加窗的问题,应使用矩形窗,窗长要大于两个基音周期。为了减小误差1.减少共振峰的影响2.对语音信号进行非线性变换后再求自相关函数。8共振峰估计算法:带通滤波器组法,倒谱法,LPC法第四章:矢量量化技术VQ技术是20世纪70年代后期发展起来的一种数据压缩和编码技术。矢量量化广泛应用于语音编码语音合成语音识别和说话人识别1基本原理:将若干个标量数据组成一个矢量,在多维空间给予整体量化。2失真测度:最常用的是:欧氏距离测度,加权欧氏距离测度,Itakura-Saito距离,似然比失真测度,识别失真测度。失真测度是将输入矢量Xi用码本重构矢量Yj来表征时所产生的误差或失真的度量方法,它可以描述两个或多个模型矢量间的相似程度。3矢量量化器的码本设计:遵循的原则①最近临近准则②质心准则4.求最佳码本的一种算法:LBG算法步骤:①设定码本和迭代训练参数②设定初始化值③将S分成J个子集④计算总畸变⑤计算畸变改进量⑥计算新码本的码字⑦判断sigama迭代条件⑧判断mL?⑨输出码字5初始码本的构造方法①随机选取法②分裂法③链映射法④乘积码本法第五章:隐马尔模型考计算题HMM的计算balabalabalaHMMM的基本元素M={S,O,A,B,π,F}S:模型中状态的有限集合;O:输出的观测值符号的集合;A:状态转移概率的集合;B:输出观测值概率的集合;π:系统初始概率的集合;F系统终了状态的集合。第六章:人工神经网络初步1.人工神经网络的构成:神经元,网络拓扑,学习算法2.基于模式识别的神经网络模型和主要算法:单层感知器,双层,多层感知器。第七章:语音编码语音信号中存在两种类型的相关性,即在样点之间的短时相关性和相邻基音周期之间的长时相关性,去相关处理后得到的是预测余量。MOS:平均意见得分。5分:优良,不察觉;4:良:刚有察觉,3:中,有察觉且稍觉可厌,2:差,明显察觉且可厌但可忍受1:劣,不可忍受1.语音编码分类:波形编码,参数编码,混合编码波形编码的主要代表:自适应差分脉冲编码调制。2.语音压缩的基本原理:语音信号的冗余度和人的听觉感知机理。3.语音编码的关键技术:1.线性预测2.合成分析3.感觉加权滤波器。4.衡量语音压缩编码算法的主要指标包括:编码速率,语音质量,顽健性,计算复杂度和算法的可扩展性5.①波形编码:脉冲编码调制(PCM),自适应增量调制(ADM),自适应差分脉冲编码调制(ADPCM),子带编码,变换域编码。脉冲编码调制的形式(PCM):均匀PCM,非均匀PCM,自适应PCM自适应编码中的正交变换:DFT,KLT,DCT,沃尔什-哈达吗变换。②语音信号的参数编码:编码器:通道声码器,共振峰声码器,同态声码器,线性预测声码器。LPC编码器是应用最成功的低速率参数语音编码器。③混合编码3种最常见的分析-合成线性预测编码方法:多脉冲,规则脉冲激励,码激励(CELP)线性预测编码CELP的主要改进是采用矢量量化技术对激励信号编码,将事先经过训练得到的一组码矢量组成一个码本,然后对每一帧语音信号从这组码本中选出一个在感知加权误差最小意义上的最佳编码矢量作为激励源。CELP的最大问题在于用闭环的方式寻找最佳马奔和增益。第八章:语音合成语音合成的分类方法:技术上:波形合成,参数合成,规则合成。策略上讲:频谱逼近,波形逼近。语音合成的一些方法:共振峰合成,线性预测合成。文语转换系统的三个核心部分:文本分析,韵律控制,语音合成线性预测合成的形式有两种:一种是直接用预测器系数a构成的递归型合成滤波器,另一种是采用反射系数k构成的格型合成滤波器。第九章:语音识别1.分类按识别单位区分:孤立词,连接词,连续语音识别系统以及语音理解和会话系统。按词汇量:大词汇,中词汇,小词汇量语音识别系统。按讲话人的范围:特定人和非特定人语音识别系统。语音识别的方法一般有:模板匹配法,随机模型法,概率语法分析。三种方法都是建立在最大似然决策的贝叶斯判决的基础上的。2第一步:识别和训练阶段第二步识别和测试阶段3.孤立字词识别系统识别方法①判别函数或准则(bayes)②DTW③矢量量化技术④HMM技术⑤人工神经网络技术⑥混合技术动态时间规整(DTW):把时间规整和距离测度结合起来的一种非线性规整技术。第十章:说话人识别与语种辨识。说话人识别过程:1.预处理2.特征提取3.训练和识别4.判决1自动说话人识别分类:按其最终完成的任务分:自动说话人确认和自动说话人辨认。按被输入的识别用测试语音分:与文本无关,与文本有关,文本指定型。2说话人识别特征的选取:一般包含两个方面,生成语音的发音器官的差异,发音器官发音时动作的差异。前者主要表现在语音的频谱结构上,后者主要表现在频谱结构的变化上。3说话人识别中常用的参数大致可以分为几类:1.线性预测参数及其派生参数2.语音频谱直接导出的参数。3.混合参数4,。其他鲁棒参数。4模式匹配方法1.概率统计方法2.动态时间规整方法3.矢量量化方法4.隐马尔可夫模型方法5.人工神经网络方法5.vq的说话人识别系统步骤:1.利用每个说话人的训练语音,建立参考模型码本。2.对待识别话者的语音的每一帧和码字之间进行匹配SNR(db)=6.02B-7.2SNR(db)=10lg(sigmax^2/sigmae^2)=6.02B+4.77-20lg(Xmax/sigmax)线性预测分析的基本思想:由于语音样点之间存在相关性,所以可以用过去的样点值来预测现在或未来的样点值。即一个语音的抽样能够用过去若干个语音抽样或他们的线性组合来逼近。隐马尔可夫模型的特点:按一定周期转移到另一个状态,每次转移时,输出一个符号。转移到哪一个状态,输出哪一个符号都是由转移概率和输出概率决定的,只能观测到输出符号序列,不能观测到状态转移序列最佳码本设计:从大量信号样本中训练出好的样本;从实际效果出发找到最好的失真测度定义公式;用最少的搜索和计算失真的运算量,来实现最大可能的平均信噪比。复倒谱和倒谱的特点和关系:复倒谱要进行复对数运算,倒谱只进行实对数运算;在倒谱情况下一个序列经过正逆两个特征系统变换后,不能还原自身,计算中将序列的相位信息丢失;卷积的倒谱等于倒谱的和;已知复倒谱,可以求出倒谱;已知倒谱,满足一定条件,可以求出复倒谱。预加重和去加重的思想和作用:预加重:提升高频部分,使信号的频谱变得平坦,便于频谱分析或声道参数分析。去加重:恢复原信号,从做过预加重的信号频谱求实际的频谱。