第二章语音信号处理基础.语音信号的产生1语音信号的特性2语音信号产生的数字模型3语音感知4语音的产生声音是一种波形:振动频率在20-20KHz,如乐器声、雷声、风声、雨声等;语音是声音的一种,由人发音器官发出,具有一定的语法和语义,语音的最高频率可达15KHz,一般可听的语音频率为80Hz~3.5KHz;音乐(音频)也是声音的一种,由人发音器官及乐器混合发出,具有一定的语法和语义,一般可听的音频频率为20Hz~22KHz;语音的产生人的说话过程分为5个阶段:1)想说阶段:客观现实→大脑反映→说话动机→神经中枢→想表达内容和情感;2)说出阶段:神经中枢→发出指令→各器官协调→发音(机能效果)→反馈→修正;3)传送阶段(物理过程):语音(声波)→媒介(空气)→听者(可能会产生失真或损耗)语音的产生人的说话过程分为5个阶段:4)接受阶段:外耳→中耳放大→内耳(基底膜振动)→神经元(产生脉冲)→大脑;5)理解阶段:神经中枢→脉冲信息→辨认信息(如何辨认,尚未知)。5个阶段有心理、生理、物理以及人和社会的因素。语音的产生发音器官模型语音的产生人类的发音器官语音的产生语音信号的产生过程语音的产生语音:由若干个音节(syllable)组成。音节:可以由一个或若干个音素(phoneme)组成;音素:是发音的最小单位,有两种音素,即辅音和元音。如一个音节dan(但)就包括dan三个音素,也有的音节是由一个音素构成的,如a“啊”。元音:声带振动发音时,气流从喉腔、咽腔进入口腔从唇腔出去时,声腔完全开发,气流顺利通过。半元音:声道基本畅通,但某处声道比较狭窄,引起轻微的摩擦声。辅音:是呼出的声音,气流被阻不能畅通。语音的产生汉语语音知识汉语音节:一个音节(syllable)就是一个字的音,字是独立的发音单位,由声母和韵母构成。词:由音节构成。句子:由词构成。音素:声母是一个音素,而韵母则较复杂。声调:音调在发一个音节中的变化。汉语特点:音素少、音节少,64个音素、400多个音节语音信号的特性语音信号的特性声学特性语音信号的时域波形和频谱特性语音信号的统计特性语音信号的特性语音按其激励形式的不同可以分为三类:浊音:当气流通过声门时,如果声带的张力刚好使声带发生张弛振荡,产生一股准周期的气流,这一气流激励声道就产生浊音。清音:当气流通过声门时,如果声带不振动,而在某处收缩,迫使气流以高速通过这一收缩部分而产生清音。爆破音:如果使声道完全闭合,在闭合后建立起气压,然后释放,就得到爆破音。语音信号的特性浊音的特性:基音频率浊音的声带振动频率称为基本频率又称基音频率,用F0表示,发音时,各个元音段的F0都随时间而变,F0的变化产生了音调,F0随的变化轨迹称为声调轨迹,声调反映了语音的韵律。基音频率(简称基频)的范围为:男性偏低一般为50Hz≤F0≤200Hz;女性、小孩偏高一般为200Hz≤F0≤450Hz;基音频率的倒数称为基音周期(pitchperiod)。语音信号的特性浊音的特性:共振峰共振峰(Formant):指谐振频率。声道可看成是一根具有非均匀截面的声管,发音时起共鸣作用,当激励进入声道时会引起共振特性,产生一组共振频率。共振峰与声道的形状和大小有关共振峰有多个,从低频到高频排列F1,F2,F3,…,一般的浊音中可以辨别的共振峰有5个,其中前面3个对于区别不同语音至关重要;语音信号的特性浊音的特性:共振峰频谱最大值与共振蜂相对应F1F2F4F3语音信号的特性浊音和清音的区别由于发浊音时,声带振动,产生准周期气流,声道有多个共振峰。同时由于声门波引起了频谱的高频衰落,因此浊音能量集中在3KHz以下。对于清音由于声带不振动,由声道的某些部位阻塞气流产生类白噪声,多数能量集中在较高的频率上。这就是语音激励模型和识别清音和浊音的理论基础。语音信号的特性语音波形语音:人的发声器官发出的一种声波,语音一定具有音色、音高、音强和音长四要素;音色,就是声音的个性、特色。它是一个音区别于另一个音的基本特征;音高指声音的高低,取决于频率;音强(音量,又称响度)决定声音的强弱,由声波的振动决定;音长指发音时间的长短。语音信号的特性声音波形及其频谱频谱最大值与共振蜂相对应F1F2F4F3语音信号产生的数字模型语音信号的数学模型是如何得到的?建立数学模型又有什么意义呢?语音信号产生的数字模型在李约瑟博士《中国科学技术史》一书数学卷中作者提出科学理论的建立必然经过下面五个过程。(1)从所要讨论的全部现象中,选择出那些看来是所有现象所共有的特性(分析,“简化”),这时,逐一点查被认为是不必要的,因为可以相信,大自然是均匀的,而抽样是有代表性的。(2)通过对这些特性的主要内容进行推理,归纳出一个特定的原则(同样是“简化”)。(原则可以是一个定理也可以是一个模型或者公式)(3)从这个假设的原则出发,推导出各种可能的后果(思想中的综合)。(4)观察同样的或类似的现象,并根据经验判明真伪。(5)接受或摒弃第(2)步所提出的假设的原则。语音信号产生的数字模型语音信号产生的数字模型语音信号产生的数字模型语音信号产生的数字模型激励模型声道模型辐射模型语音信号产生的数字模型激励模型一般分为浊音激励和清音激励来讨论。浊音:浊音时,激励信号由一个周期脉冲发生器产生,产生的序列是一个频率等于基音频率的冲激序列。为了使浊音的激励信号具有声门脉冲的实际波形,还需要使冲激序列通过一个声门脉冲模型滤波器G(z)。对声门波形的频谱分析表明,其幅度谱按12dB/倍频程的速度衰减。语音信号产生的数字模型得全极点模型形式:整个激励模型可表示为U(z)=G(z)E(z)G(z)声门模型,E(z)单位脉冲串及幅值因子的Z变换。清音:因声道被阻塞,故可模拟成随机噪声。语音信号产生的数字模型声道模型声音在声道的传播涉及到许多物理定律(能量守恒、流体力学),需简化。有不同的模型。关于声道的数学建模有两种观点:1)将其视为多个不同的管子串联,由此导出声管模型;2)视为谐振腔,由此导出共振蜂模型。语音信号产生的数字模型声道模型(1)声管模型“短时”间声道是一个形状稳定的级联管道语音信号产生的数字模型(2)共振峰模型根据声道近似为谐振腔的特性,有另外模型-模拟其共振峰。在大多数情况下声道是一个全极点模型,共振蜂模型,其传输函数p为极点个数即模型阶数,ai为模型系数。若p值取得越大,模型的传输函数与声道实际传输函数的吻合程度就越高。在大多数实际应用中,p值取8~12.piiziazV01)(语音信号产生的数字模型辐射模型:用R(z)表示与嘴型有关,一般可表示为1),11()(rrzzR语音信号产生的数字模型完整模型:可用三个模型的级联表示V(z)=AE(z)H(z)在浊音情况下,E(z)是一个周期冲激序列,且A=Av,H(z)=G(z)V(z)R(z)在清音情况下,E(z)是一个随机噪声,且A=Au,H(z)=V(z)R(z)语音信号产生的数字模型在这个模型中,除了G(z)和R(z)保持不变以外,基音频率、Av、Au、清/浊开关的位置以及声道模型中的参数都是随时间变化而变化的。由于发声器官的惯性使这些参数的变化速度受到限制。对于声道参数而言,在10~30ms的时间间隔内可以认为它们保持不变,因此语音的短时分析帧长一般取为10~30ms。需注意的是:把激励简单分为周期脉冲激励和噪声激励是与实际情况不完全符合。如果将模型的激励源改为上述两种激励按任何比例相叠加,这更加接近于实际情况。这个模型的传输函数不包含有限传输零点,而像鼻音、擦音这样一些音的声道传输函数中包含有限零点的。解决方法就是适当提高阶数p,使得全极点模型更好得逼近具有零点的传输函数。语音感知语音感知-声音三要素任何声音可用声强(或声压)的三个物理量表示:即幅度、频率、相位。对应人的感知,可用另外三要素描述:即响度、音调和音色。音色:亦称音质,反映声音属性。每个人声音具有特殊的音色,人根据音色在主观感觉上区别具有相同响度和音调的两个声音。响度:测量声音强弱的物理量为声强,单位为W/m2(瓦/米2);主观感受声音强弱的单位是宋:sone。语音感知响度当声音的强度小到人耳刚刚能够听见时,称为听阈。听阈是随频率变化而变化的。如果加大声音的强度,使它大到人耳感到疼痛,这个阈值称为痛阈。听阈和痛阈之间是人耳的范围,为0~120dB声强级(1012倍以上)。人耳对2k~4kHz声音的音强的感觉最灵敏。语音感知音调:亦称音高,与频率有关,单位为美尔(Mel)。频率低的声音听起来感觉它的音调低,频率高的音调高。但是音调与频率不成正比,它还与声音的强度及波形有关。音调与频率的关系近似为:)001.01lg(23.3323HzmelfT语音感知掩蔽效应掩蔽效应是一种常见的心理声学现象。当两个响度不同的声音作用与人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。1)同时掩蔽和异时掩蔽同时掩蔽:发生在掩蔽者和被掩蔽者同时存在时,亦称频率掩蔽,声音能否听到取决于频率和强度。语音感知异时掩蔽:发生在掩蔽者和被掩蔽者不同时存在时,亦称时域掩蔽。有两类:前掩蔽(pre-masking):发生在掩蔽者开始之前的一段时间,一般可持续20ms。后掩蔽(post-masking):发生在掩蔽者结束之后的一段时间,一般可持续100ms。掩蔽阈值取决于掩蔽者的音调、频率、声压级和持续时间。语音感知各种不同的掩蔽效果掩蔽者有三种类型:纯音调、宽带噪声和窄带噪声,掩蔽者和被掩蔽者组合后产生不同的掩蔽效果。纯音调信号间的掩蔽宽带噪声对纯音调的掩蔽:掩蔽者为宽带噪声,被掩蔽者为纯音调信号。窄带噪声对纯音调的掩蔽:掩蔽者为窄带噪声,被掩蔽者为纯音调信号。是一种比较复杂的掩蔽效应。语音感知临界带宽:为了描述窄带噪声对纯音调信号的掩蔽效应,引入临界带宽概念。一个纯音可被以它为中心频率,且具有一定宽带的连续噪声所掩蔽,若在这一频带内噪声功率等于纯音的功率,则该纯音处于刚好能被听到的临界状态,即称带宽为临界带宽。临界频带的位置不固定,以任何频率为中心都有一个临界频带。连续的临界带序号记为临界带频域,或称为Bark域。常将20Hz~16KHz间的频率用24个频率群来划分,或者说共有24个Bark域。语音感知临界带宽表语音感知上述的掩蔽效应可从听觉生理上找到依据,人耳的基底膜具有与频谱分析仪相似的作用,频率群的划分相应地将基底膜分成许多小部分,每一小部分对应一个频率群。掩蔽效应就在频率群内发生。