1第2章语音信号处理的基础知识§2.1语音和语言§2.2汉语语音学§2.3语音生成系统和语音感知系统§2.4语音信号生成的数学模型§2.5语音信号的特性分析2§2.1语音和语言一、语音与语言的关系二、语音的产生三、语音的基本声学特性四、音节与音素五、英语和汉语的音节构成3语音(Speech)=声音(Acoustic)+语言(Language)1.语音:人们讲话时发出的声音叫语音。是一种有意义的声音,是人们进行信息交流的声音.--是组成语言的声音/带有语言信息的声音。一、语音与语言的关系4(1)语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究称为语言学(linguistics)。(2)语音中各个音的物理特性和分类的研究称为语音学(phonetics)。它考虑的是语音产生、语音感知等过程和各个音的特征和分类。2.对语音的研究包括两个方面5•发音语音学:生理语音学,研究语音产生机理•声学语音学:研究语音传递阶段的声学特性•听觉语音学:研究语音感知阶段的生理和心理特性6GunnarFrant,Acoustictheoryofspeechproduction,Mouton,196073.人类的说话过程分五个阶段想说说出传送接收理解人类的说话交流是通过联结说话人和听话人的一连串心理、生理和物理的转换过程实现的。心理物理生理生理心理8语音:人与人的沟通介面94.语言(Language)人与人之间的沟通工具,是从人们的话语中概括总结出来的规律性的符号系统。包括构成语言的语素、词、短语和句子等的不同层次的单位,以及词法、句法和文脉等语法和语义内容。这些构成语言学的研究内容。Phoneme(音素)WordformationGrammarText(Option)105.语言学和语音信号处理的关系语言学是语音信号处理的基础。例如:可以利用句法和语义信息减少语音识别中搜索匹配范围,提高正确识别率。116.语音学和语音信号处理的关系语音学和语音信号处理联系更加紧密。如:实验语音学研究的结果应用于语音识别系统中,提高语音识别系统的性能.12二语音的产生●肺:能源;●喉:振动源,包括声带和声门;●声道(声门到嘴唇的呼气通道):谐振腔;●其他发音器官:包括唇、齿、舌等,使谐振腔改变形状。13•肺14喉喉的生理结构甲状软骨声门声带环形软骨人的前方15TensedVocalCordsReadytoVibrateLaxVocalCordsOpenforBreathing1617说话时,肺的收缩----声门气压降低----声带闭合----气压增大----声带被冲开声带靠拢声带的运动过程在水平方向上18Tp基音周期基音周期:声门开启闭合一次的时长成为基音周期.19女声汉语拼音a的时域波形20在垂直方向上21☆F0=1/Tp,由声带的质量来决定。☆F0的大小决定了声音的高低,称为音高。☆男性的F0大致分布在:60~200Hz☆女性和儿童的F0大致分布在:200~450Hz基音频率(FundamentalFrequency)基音频率:基音周期的倒数.常记作F022声道气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射,期间的传输通道称为声道。讲话时,由于舌和唇的连续运动,使声道形状改变,随即改变共振频率,使得发不同的音。声道的不同的形状,对应不同的谐振频率。声带振动频率输出气流的频率声道的共振特性23鼻端嘴唇17cm8.5cm13cm声道的无损模型谐振频率的计算谐振频率发生在:Fn=(声道的横截面是均匀的,发元音e时,声道近似是均匀的。)L=17cm,声道的长度n=1,2,3…称为第一共振峰F1=500Hz、第二共振峰F2=1500Hz、第三共振峰F3=2500Hz,…c=340m/s2n-14Lc24一种声道形状对应一套共振峰不同人的声道大小不同,共振峰不同同一人,发不同音,共振峰也不同总结前三个共振峰的大致范围(Hz)共振峰成年男子成年女子带宽f1200~800250~100040~70f2600~2800700~330050~90f31300~34001500~400060~18025鼻腔的作用在软腭的帮助下,可使空气经过鼻腔排除人体外,由此产生的语音称为鼻音。如[n]、[ng]为鼻音韵母,[m]、[n]为鼻音声母。鼻腔是一个谐振腔,由于形状固定,故其共振峰频率是确定的。26语音是发声器官发出的一种声波,具有一定的音色、音调和音强和音长。●音色:又称为音质,是一种声音区别于另一种声音的基本特性,取决于声音的共振频率F1。●音调:声音的高低,取决于声波的基本频率F0●音强:声音的强弱,它由声波的振动幅度A所决定●音长:发音时间的长短t三、语音的基本声学特性27句子的最小单位为单词,单词的最小单位为音节。音节:发音时,被明显感觉到的语音片段为音节,一个音节由一个音素或几个音素构成。音素:是发音的最小单位。分为元音和辅音。元音是构成音节的主干,从长度和能量来看,在音节中占主要位置,如[ma];辅音只是出现在音节的前端或后端或前后两端,如:bee,desk.它们的时长和能量较小。四、音节与音素281.音素的分类元音、辅音和浊音、清音的关系元音辅音清音浊音29人在说话时,空气由肺部压入,由嘴唇呼出,声门由此开启和闭合,构成声带振动,然后通过声道(喉腔、咽腔和口腔)响应(引起共振特性)变成语音,由于发不同音时,声带的振动情况(基频)和声道的形状不同(共振峰频率),所以构成不同的声音。元音的一个重要的声学特性基频和共振峰2.元音30(1)声带振动(2)声道不发生极端的狭窄,维持稳定的形状(3)和鼻腔不发生耦合,声音只是从口腔中辐射出去。发元音的三个条件31语音信号的共振峰特性32语音信号的基频曲线33发元音的三个条件中,缺少任何一个时,发出的音就是辅音。分为塞音[b]、[p]、[d]、[t]、[g]、[k]摩檫音[f]、[s]、[sh]塞擦音[zh]、[z]鼻音[m]、[n]边音[l]颤音等。3.辅音344清音声门完全封闭,声道不受声门周期脉冲气流的激励,而是利用口腔内存有的空气释放出来而发声。由于该气流通过一个狭窄通道时在口腔中形成湍流,因而具有随机噪声的特点。发出的音称为清音。如声母[s]、[sh]、[h]、[x]和[f]等为清音。35男声汉语拼音声母s的时域波形利用MATLAB产生的高斯噪声364浊音发音时声带振动,如[a]、[e]、[d]、[g]37四、英语和汉语的音节构成英语中:由元音和辅音(这些都是音素)构成音节,由几个音节构成一个词。汉语中:汉语中由元音和辅音构成声母和韵母,结合声调构成一个音节,一个音节就是一个字。38§2.2汉语语音学一、汉语语音的特点二、语音的拼音方法三、汉语音节的一般结构39(1)音系简单,音素少,音节少。(2)清辅音多,在听感上有清亮、高扬和舒服、柔和的感觉。(3)有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准确而丰富。一、汉语语音的特点40在汉语中,由音素构成声母和韵母。二、语音的拼音方法声母:一个音节开始的辅音。b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、z、c、s、r41韵母:在音节中占主要部分,音节中除了头上的声母以外的部分,由单、双元音、元音带上辅音等几种不同的形式组成。所有元音都是浊音。a、o、e、i、u、ü单韵母(元音)ai、ei、ao、ou、ia、ie、iao、iou、ua、uo、uai、uei、üe复韵母an、en、ang、eng、ong、ian、in、iang、ing、iong、uan、uen、uang、ueng、üan、ün鼻韵母i表示3个韵母,即韵母、舌尖前韵母和舌尖后韵母。42韵母是由单、双元音、元音带上辅音等几种不同的形式组成。不同的元音有不同的基音频率和共振峰模式,它们是区别不同韵母的重要参数。区别不同韵母的重要参数43声母、韵母和声调是汉语语音的三要素。汉语语音最大的特点是它具有声调(音调)。声调是1个音节在念法上的高低升降的变化,汉语中有4个声调,即阴平(-)、阳平(′)、上声()、和去声(‵)。三、汉语音节的一般结构44声调的变化就是浊音基音周期的变化,为了将调值描写地具体一些,一般采用“五度标记法”,用一条竖线表示声音的高低,从上而下用1、2、3、4、5依次表示低、半低、中、半高、高。5高4半高3中2半低1低阴平阳平上声去声调类阴平阳平上声去声调值55352145145阴平阳平上声去声归一化时长归一化基频46•汉语音节结构的特点•(1)音节以可延长的浊音结尾,不仅适于说话呼喊,还适于歌唱•(2)音节的轻重音表达非常方便•(3)音节的清晰度很高–声、韵、调组成的三维空间–声、韵、调的统一体–声韵互调–声调具有抗干扰能力47人类接收语音由人耳来完成,空气振动由耳廓收集,经外耳道而抵达鼓膜,鼓膜随之振动,使鼓室中的空气和听骨链也发生振动,听骨链的振动经前庭窗(卵圆窗)激励前庭淋巴,变为液波,液波使位于基底膜上的螺旋器受到刺激,将神经冲动经听神经传到中枢而产生听觉。§2.3语音感知系统481.耳的结构(外耳、中耳和内耳)和功能49☆外耳结构:由耳翼、外耳道和鼓膜组成。☆耳翼作用:保护耳孔,收集声音,定向。☆外耳道作用:放大声音。外耳50中耳★结构:听小骨(锤骨、砧骨、镫骨)和咽鼓管组成。★作用:进行阻抗变换,保护内耳。在一定声强范围内,听小骨实现声音的线性传递,而在特强声时,实现非线性传递。51内耳★结构:半规管、前庭窗、耳蜗组成。★作用:将振动转换成神经冲动.52人工耳蜗是一种电子装置,能帮助重度及极重度耳聋患者重新恢复听觉。人工耳蜗人工耳蜗的工作原理麦克风----言语处理器----传输线圈----皮下接收器----刺激听神经纤维53542.声音传入内耳的途径由空气传导,称为气导,其过程为:声波耳廓鼓膜听骨内耳基底膜上毛细胞电位改变神经冲动由骨传导,称为骨导,其过程为:声波颅骨外淋巴振动内耳基底膜上毛细胞电位改变神经冲动553.人耳的两个重要特性(1)耳蜗对声信号的时频分析特性(2)人耳的掩蔽效应56•正常人耳能感知的频率范围为16Hz~16KHz;强度范围为0dB~120dB,直接损伤160db。•音调是人耳对不同频率声音的一种主观感觉。单位为Mel,与频率近似的满足方程:响度用来描述人耳对不同频率的纯音的辨别灵敏度。单位为Phon。1Phon等于1kHz纯音的声强级。而零方对应人耳的听阈。人耳感知的声音响度是频率和声压级的函数。通过比较不同频率和幅度的语音可以得到主观等响度曲线。)700/1log(2595HzMelfT57•等响度曲线58•响度级:1KHZ纯单的声压级为0dB,响度级定为0PHON,声压级40dB定为40PHON。•声压级:声压与参考声压的比值取常用对数再乘以20的值,但是为分贝,符号为db.•参考声压为2*10^-5Pa•例:飞机附近的声压为200Pa,声压级是多少?•20*log10(200/2*10^(-5))=140db59声源声压/Pa声压级/dB飞机附近200140织布车间20100地铁0.6390繁华街道0.06370普通谈话0.0260安静房间0.00240耳语0.0006330树叶沙沙声0.000220农村静夜0.0000631060时频分析特性•耳蜗像频谱分析仪,将复杂的信号分解成各种频率分量61掩蔽效应人耳的掩蔽(maskingphenomenon)效应:在一个强信号附近弱信号将变得不可闻。掩蔽阈值被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限和掩蔽阈值(maskingthreshold),在这个掩蔽阈值以下的声音将被掩蔽掉。621kHz的听阈1dB20dB4dB可闻声3dB不可闻声图形描述631kHz60dB音调信号的掩蔽阈值曲线安静时人耳的听阈曲线频率(kHz)声强电平(dB)频率为1kHz声压级为60dB的音调信号的掩蔽阈值曲线64同时出现的A声和B声,若原来A声的阈值为50dB,由于另一个频率不同的B声的存在使得A声的阈值提高了68dB,则B声称为掩蔽声,A声称为被掩蔽声。掩蔽量为6