数字语音处理及MATLAB仿真张雪英编著1第二章语音信号的数字模型2.1概述12.2语音的发音机理2.3语音的语音听觉机理32.4语音的感知42.5语音信号模型52.6语音信号数字模型62数字语音处理及MATLAB仿真张雪英编著22.1概述本章重点介绍语音信号产生的数字模型,对语音信号的特性和听觉特性做一般介绍。数字语音处理及MATLAB仿真张雪英编著32.2语音的发音机理2.2.1人的发音器官1.组成⑴肺和气管组成声源;⑵喉和声带称为声门;⑶由咽腔、口腔、鼻腔组成声道;图2.1发音器官机理模型数字语音处理及MATLAB仿真张雪英编著42.功能肺:产生压缩气体,通过气管传送到声音生成系统。喉:控制声带运动的复杂系统。主要包括:环状软骨、甲状软骨、杓状软骨、声带。数字语音处理及MATLAB仿真张雪英编著5图2.1喉的平面解剖示意图前面甲状软骨声带环状软骨杓状软骨数字语音处理及MATLAB仿真张雪英编著6声门:声带之间的间隙称为声门。主要功能:产生激励。声道:声道指声门至嘴唇的所有发音器官。包括:咽喉、口腔和鼻腔。主要功能:传输调制声波。声道的形状变化由舌、软腭、唇、牙决定。数字语音处理及MATLAB仿真张雪英编著7口腔包括:上下唇、上下齿、上下齿龈、上下腭、舌和小舌等部分。上腭又分为:硬腭和软腭两部分;舌又分为:舌尖、舌面和舌根三部分。鼻腔在口腔上面,靠软腭和小舌将其与口腔隔开。当小舌下垂时,鼻腔和口腔便耦合起来,当小舌上抬时,口腔与鼻腔是不相通的。口腔和鼻腔都是发音时的共鸣器。数字语音处理及MATLAB仿真张雪英编著8图2.3声道纵剖面图数字语音处理及MATLAB仿真张雪英编著92.2.2语音生成图2.1为语音生成其机理模型。空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,这就形成了语音。在声门(声带)以左,称为“声门子系统”,它负责产生激励振动;右边是“声道系统”和“辐射系统”。当发不同性质的语音时,激励和声道的情况是不同的,它们对应的模型也是不同的。数字语音处理及MATLAB仿真张雪英编著10图2.1发音器官机理模型数字语音处理及MATLAB仿真张雪英编著11语音生成动作可分为两种功能:(1)激励(2)调制激励(声门)调制(声道)幅射语音(嘴唇)图语音生成模型数字语音处理及MATLAB仿真张雪英编著122.2.2语音生成-浊音空气流经过声带时,如果声带是崩紧的,则声带将产生张弛振动,即声带将周期性地启开和闭合。声带启开时,空气流从声门喷射出来,形成一个脉冲,声带闭合时相应于脉冲序列的间隙期。因此,这种情况下在声门处产生出一个准周期脉冲状的空气流。该空气流经过声道后最终从嘴唇辐射出声波,这便是浊音语音。这个准周期脉冲的周期即为基音周期。数字语音处理及MATLAB仿真张雪英编著13基音频率是由声带张开闭合的周期所决定的:男性的基音频率一般为50~250Hz;女性基音频率为100~500Hz。数字语音处理及MATLAB仿真张雪英编著14数字语音处理及MATLAB仿真张雪英编著152.2.2语音生成-清音空气流经过声带时,如果声带是完全舒展开来的,则肺部发出的空气流将不受影响地通过声门。空气流通过声门后,会遇到两种不同情况。一种情况是,如果声道的某个部位发生收缩形成了一个狭窄的通道,当空气流到达此处时被迫以高速冲过收缩区,并在附近产生出空气湍流,这种湍流空气通过声道后便形成所谓摩擦音或清音。数字语音处理及MATLAB仿真张雪英编著162.2.2语音生成-爆破音另一种情况是,如果声道的某个部位完全闭合在一起,当空气流到达时便在此处建立起空气压力,闭合点突然开启便会让气压快速释放,经过声道后便形成所谓爆破音。数字语音处理及MATLAB仿真张雪英编著17共振峰频率或共振峰声音产生后,便沿着声道进行传播。声道可以看成是一根具有非均匀截面的声管,在发音时起着共鸣器的作用。声音进入声道后,其频谱必定会受到声道的共振特性的影响,声道具有一组共振频率,称为共振峰频率或共振峰。声道的频谱特性便主要地反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。数字语音处理及MATLAB仿真张雪英编著18数字语音处理及MATLAB仿真张雪英编著19数字语音处理及MATLAB仿真张雪英编著202.3语音的听觉机理2.3.1听觉器官人的听觉器官包括:外耳、中耳和内耳图2.3人耳结构示意图数字语音处理及MATLAB仿真张雪英编著211.外耳外耳由耳廓(耳翼)、外耳道和耳鼓(鼓膜)组成。2.中耳组成:包括三块听小骨:锤骨,砧骨和镫骨。作用:阻抗匹配和限幅外耳和中耳的综合作用相当于一个介于500Hz到6kHz之间的平滑的带通滤波器,可以用有限冲激响应(FIR---FiniteImpulseResponse)滤波器来模拟。数字语音处理及MATLAB仿真张雪英编著223.内耳内耳是一个充满液体的骨质结构,由前庭、圆形窗、卵形窗及耳蜗组成。数字语音处理及MATLAB仿真张雪英编著232.3.2耳蜗的信号处理机制数字语音处理及MATLAB仿真张雪英编著24当声音经外耳传入中耳时,镫骨的运动引起耳蜗内流体压强的变化,从而引起行波沿基底膜的传播。图2.6是流体波的简单表示。在耳蜗的底部基底膜的硬度很高,流体波传播的很快。随着波的传播,膜的硬度变得越来越小,波的传播也逐渐变缓。不同频率的声音产生不同的行波,而峰值出现在基底膜的不同位置上。数字语音处理及MATLAB仿真张雪英编著25图2.7基底膜上六个不同点的频率响应1基底膜2内毛细胞3外毛细胞4听传导通路数字语音处理及MATLAB仿真张雪英编著262.3.3语音信号听觉模型听觉系统的研究主要集中在三个方面:听觉系统的实验研究、听觉系统的建模和听觉模型的应用。听觉系统的实验研究主要是指听觉系统在医学、生理学及心理学方面的研究。由于耳蜗深植于颅骨中,尺寸极小(如蜗管的直径只有1mm),所以耳蜗的实验研究是一项非常艰巨和复杂的工作。耳蜗建模主要集中在基底膜的振动上,然而,建立基底膜的振动模型是耳蜗建模的首要任务,它又被称为耳蜗的宏观力学模型。数字语音处理及MATLAB仿真张雪英编著27图2.10语音信号听觉模型一般原理框图输入语音外耳中耳带通滤波器半波整流低通滤波听神经发放听觉语谱图语音信号首先通过一串带通滤波器(BPF)阵列,其中心频率跟随着图2.7所示的基底膜频率响应按照对数尺度分布。每一个带通滤波器都被独立的设定为有限冲激响应滤波器(FIR)或无限冲激响应滤波器(IIR),但是频率响应的波形并不是严格精确的。数字语音处理及MATLAB仿真张雪英编著28被滤波的信号在通过内毛细胞/突触模型之后,到达听传导通路模型。虽然各种听觉模型的带通滤波器的性能特征是基本相同的,但是在接下来几级的信号处理过程却有很大差异。事实上,不同的听觉模型都各自拥有不同的IHC模型,突触模型和听传导通路模型。一些模型为每一个滤波后的信号都设有独立的频道,而另一些模型则认为在基底膜上相邻位置处滤波得到的信号之间存在耦合性。数字语音处理及MATLAB仿真张雪英编著29根据人耳的听觉特性得出的模型作为语音识别的特征提取部分,可获得具有鲁棒性的特征参数,它们对真实世界中的噪音环境下的语音识别都表现出很好的性能。数字语音处理及MATLAB仿真张雪英编著302.4语音的感知2.4.1几个概念1.人耳听觉界限的频率范围大约为20Hz-20kHz。2.语音感知的强度范围是0-130dB声压级。3.响度这是频率和强度级的函数。通常用响度(单位为宋)和响度级(单位为方)来表示。此时响度级定为零方。测量表明听阈值是随频率变化的。通常,人们把1kHz纯音听阈值定为零方。数字语音处理及MATLAB仿真张雪英编著314.人耳刚刚可以听到的声音强度,称为“听阈”。加大声音的强度,使听起来令耳朵感到疼痛,这个阈值称为“痛阈”。5.音高(音调)音高也叫基音。物理单位为Hz,主观感觉的音高单位是美(Mel)。当声强级为40dB频率为1kHz时,设定的音高为1000美。数字语音处理及MATLAB仿真张雪英编著322.4.2掩蔽效应掩蔽效应:两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,即:一个声音的听觉感受性受同时存在的另外一个声音的影响,这个现象称为人耳的“掩蔽效应”。此时前者称为被掩蔽音,后者称为掩蔽音。在掩蔽情况下,被隐蔽音的听阈会提高,即加大被掩蔽音的强度才能听到。此时听阈称为掩蔽听阈。数字语音处理及MATLAB仿真张雪英编著33低频的纯音可以有效地掩蔽高频的纯音。利用人耳的掩蔽效应,在进行语音压缩时,让量化噪音的频谱跟随语言信号频谱包络变化。则共振峰的频率成分就会掩蔽掉量化噪声。这个技术称为噪声整形或听觉加权处理。低音容易掩蔽高音,而高音掩蔽低音较难。基于此,可以将真实的声音频率映射到“感知”频率尺度,即Bark尺度对应的临界带宽。数字语音处理及MATLAB仿真张雪英编著342.4.3临界带宽与频率群用一中心频率为f,带宽为Δf的白噪声来掩蔽一频率为f的纯音,先将这个白噪声的强度调节到使被掩蔽纯音恰好听不见为止。然后将Δf由大到小逐渐变化,而保持单位频率的噪声强度(即噪声谱密度)不变,起初这个纯音一直是听不见的,但当Δf小到某个临界值时,这个纯音就突然可以听见了。如果再进一步减小Δf,被掩蔽音f就会越来越清晰。这里刚刚开始能听到被掩蔽声时的Δf宽的频带,叫做频率f处的临界带。数字语音处理及MATLAB仿真张雪英编著35当掩蔽噪声的带宽窄于临界带的带宽时,能掩蔽住纯音f的强度是随噪声的带宽的增加而增加的,但当掩蔽噪声的带宽达到临界带后,继续增加噪声带宽就不再引起掩蔽量的提高了。临界带宽是随中心频率而变的,被掩蔽纯音的频率(即临界带的中心频率)越高,临界带宽也越宽。临界频带也可定义为:一个给定的正弦纯音在基底膜上能够产生谐振反应的那一部分。一个频率群的划分相应于基底膜分成许多很小的部分,每一部分对应一个频率群。一个临界带的单位用巴克(Bark)表示。数字语音处理及MATLAB仿真张雪英编著362.5语音信号模型有三部分作用施加在语音的声波上:声门产生的激励模型G(z);声道产生的调制函数V(z);嘴唇产生的辐射函数R(z)。语音信号的传递函数由这三个函数级联而成,即:H(z)=G(z)V(z)R(z)数字语音处理及MATLAB仿真张雪英编著372.5.1激励模型发浊音时,产生的脉冲类似于斜三角形的脉冲。激励波是一个以基音周期为周期的斜三角脉冲串。0510152025-0.4-0.200.20.40.60.811.2时间(ms)N1N1+N20200400600051015202530频率f/Hz频率/Hz时间/ms幅度幅度/dB图2.9三角波及其频谱图数字语音处理及MATLAB仿真张雪英编著3810nN单个三角波的数学表达式为0π2cosπcos121)(211其它NNnNnng112NnNN其中:N1为斜三角波的上升时间N2为其下降时间数字语音处理及MATLAB仿真张雪英编著39单个斜三角波的频谱G(ejω)表现出一个低通滤波器的特性。其z变换的全极点形式为:21e11)(ZzGcT作为激励的斜三角波串可以用一串加了权的单位脉冲序列去激励单位斜三角波模型实现。这个单位脉冲串和幅值因子可以表示成下面的z变换形式11)(zAzEv数字语音处理及MATLAB仿真张雪英编著40浊音激励模型可表示为清音可以模拟成随机白噪声。211111)()()(zeZAzGzEzUcTv数字语音处理及MATLAB仿真张雪英编著412.5.2声道模型-(1)共振峰模型典型的声道模型有两种:无损声管模型和共振峰模型。(1)共振峰模型当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,一般把