语音信号处理SpeechSignalProcessing——基本知识数字媒体技术系张岳主楼216zhang_yue@cuc.edu.cn复习语音与语言语音的基本声学特性汉语语音学总结实验.复习语音(Speech)的概念:声音(Voice)+语言(Language)语音信号处理的发展:国际:贝尔实验室、CMU、IBM…国内:中科院声学所、清华、科大讯飞…语音识别语音编码波形语音信号处理的研究方向语音合成参数语音情感信息分析抗噪声技术特定人识别非特定人识别孤立词识别内容识别连接词识别连续语音识别语音理解和会话系统语音识别说话人识别技术小词汇量中等词汇量语种识别大词汇量2.语音编码(SpeechCoding)即语音压缩,属于信源编码。通信应用:存储波形编码(WaveformCoding)主要技术:参数编码(ParametricCoding)混合编码(HybridCoding)3.说话人识别和语种识别说话人识别:找出说话人的个性因素,强调不同人之间的特征差异;.科大讯飞:美国国家标准技术研究院(NIST)国际说话人识别大赛(“2008NISTSpeakerRecognitionEvaluation”),综合指标第一名。语种识别:找出不同语种的差别特征,能够从一个语音片断中判别它是哪一个语种。4.语音合成(SpeechSynthesis)由人工制作出语音。通过存储较小的语音单位(如音素、双音素、半音节和音节)的声学参数或波形,利用各种规则,自动地将文字转换为语音。5.语音情感信息分析6.抗噪声技术7.语音特效.人为改变语速;.改变嗓音。一.语音和语言对语音的研究有两方面:☆语言学.自然语言处理。语言:从话语中概括总结出来的规律性的符号系统。☆语音学.研究语音的产生、感知等过程以及各个音的特征和分类等。☆说话过程(5个阶段):(1)想说阶段经大脑决策产生说话的动机;接着语言神经中枢选择恰当的单词、短语以及按语法规则的组合,以表达他想说的内容和情感。(2)说出阶段由大脑中枢决策后,以脉冲形式向发音器官发出指令,使舌、唇、颚、声带、肺等部分的肌肉协调工作,发出声音。(3)传送阶段说出的话语是一连串声波,以空气为媒介传送到听者耳朵里。当然这个过程会遇到某些干扰,使声音产生损耗和失真。主要是一个传送信息的物理过程。(4)接收阶段从外耳收集到的声波信息,经中耳的放大到达内耳,再经神经元产生脉冲,将信息以脉冲形式传送给大脑,这个阶段主要与听觉系统的活动有关。(5)理解阶段听觉神经中枢收集到脉冲信息后,经过尚未完全了解的方式,辨认说话的人及其所说的信息,从而听懂讲话者的话语音学的三个分支:☆发音语音学:研究语音产生机理。借助仪器观察发音器官,确定发音部位和发音方法。☆声学语音学:研究语音传递阶段的声学特性,用声学和非平稳信号分析理论解释各种语音现象。☆听觉语音学:亦称感知语音学,研究语音感知阶段的生理和心理特性。耳朵如何听音?大脑如何理解语音?如何存储语音信息(形式和部位)?国际语音学协会(TheInternationalPhoneticAssociation,IPA):1886年成立于巴黎,历史最长、最主要的语音学研究机构。二.语音的基本声学特性音强(客观):声波的振幅决定;响度(主观):与音强和频率相关,由人耳听觉特性决定。音长:声音的长短;音调(pitch)/声调(tone):(音高的高低),主要由基音频率决定。音调随频率的变化基本上呈对数关系;基音频率(fundamentalfrequency):发音体的最低振动频率。音色(音质):不同声音相互区别的基本特征。体现了人对不同特性声音的主观感觉。主要由谐波/泛音(数量及强度)决定。谐波/泛音:频率为基频的整数倍。.乐器中,基频范围最宽的是钢琴:27.5~4136Hz;.管弦乐、交响乐的基频范围:30~6000Hz;.我国民族乐器的基音范围:50~4500Hz;.语音基频:150~3500Hz;.乐器的泛音频率已超出20~20kHz的可听范围;.语音泛音:可达7~8kHz。☆音节(Syllable):说话时一次发出的,具有响亮中心的,并被明显感觉到的语音片断。☆音素(Phoneme):构成音节的元素。音素是语音发音的最小单位。☆任何语言都有元音(Vowel)和辅音(Consonant)两种音素。☆元音:音节的主干,从时长和能量的角度,在音节中都占主要部分。☆辅音:只出现在音节的前后两端,时长和能量都很小。根据声带的震动与否分清辅音和浊辅音。元音产生条件:1.声道受到声带振动的激励引起共振;2.在语音流的持续过程中,声道不发生极端的狭窄,并维持较稳定的形状;3.和鼻腔不发生耦合,声音从口腔辐射出去。上述3个条件中,缺少任意一个,该语音就是辅音。☆决定元音音色的主要因素是舌头的形状及其在口腔中的位置、嘴唇的形状;☆舌位高度:高、中、低;☆舌位前后:前、中、后;则有9种基本组合,加之上口唇开放程度,咽宽度,就可以发出10多种不同的单元音;元音O的频谱清辅音k的频谱共振峰(Formant):元音的重要声学特性,是区分不同元音、不同说话人性别/年龄的重要特征。☆概念:在语音的频谱中能量相对集中的一些区域。☆成因:声音在经过声道(共振腔)时,受到腔体的滤波作用,使得频域中不同频率的能量重新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减。☆区别元音的重要参数:不同元音对应一组不同的共振峰。☆完整信息:共振峰频率位置+频带宽度。在实际中,使用前三个共振峰F1、F2、F3就够了。“毕业”语谱图彩色语谱图发“ah.”时的单元音/a/发“eye”时的双元音/ai/发音“real”发音“mean”元音的共振峰特性与发音机制☆第一共振峰F1与舌位高低有关:舌位高,F1低;舌位低,F1高。☆第二共振峰F2与舌位前后有关:舌位靠后,F2小;舌位靠前,F2大。前元音[i]的F2高达2000Hz,后元音[u]的F2只有500Hz。☆第三共振峰F3受舌尖活动的影响。舌尖抬高卷起,F3明显下降。汉语元音的三角形图辅音把呼气流在声道的某一位置用适当的方法进行阻碍而产生。没有明确的共振峰结构。1.塞音又称爆破音或破裂音.把口腔和鼻腔完全闭合,然后急快解除口腔封闭.如:[p][b][t][d][k][g]。2.摩擦音,持阻阶段阻碍处并不完全闭塞,但将声道变窄到气流产生摩擦噪音的程度.即声门打开,但声道的某处收紧而形成湍流,这种高速湍流导致发出摩擦音.如:[f][s][sh][x][h].摩擦音可以任意延长。3.塞擦音,成阻阶段阻碍处闭塞,气流无法通过,除阻阶段阻碍略微放松,让气流挤出去产生摩擦,形成先塞后擦音。如:[z][zh]4.鼻音,封闭口腔,同时软额下降,开放鼻腔通路,让气流从鼻腔出去而形成的音.如[m][n].鼻音可以任意延长。5.边音,舌尖形成阻碍不让气流通过,但舌尖两边有空隙让气流通过,即封闭口腔中央部分开放两侧通路而形成的音.如[l]。6.颤音,发音器官中双唇、舌尖和小舌的肌肉有一定的弹性,当声道中的气流通过时,使这些部位发音器官受气流冲击而产生颤动,而发出颤音。7.通音(半元音或半辅音):使声道稍微变窄,但是窄到不至于发出摩擦音的程度,然后向后续元音的过渡调音而产生的;或者从先行元音逐渐变窄,但是窄到气流通过时只产生轻微的摩擦,甚至没有摩擦.通音一般是浊音,其性质已经接近元音.如:[w][y],也称半元音和半辅音。☆根据发辅音时候声带是否振动,可以把辅音分成轻辅音和浊辅音;☆根据辅音除阻后是否紧跟着送出一股气来,可以把辅音分成送气辅音和不送气辅音,如:[p][t][k]—送气辅音[b][d][g]—不送气辅音重音:☆从词和句子考虑分为词重音和语句重音;☆词重音以词为考察对象,音位学把词重音划分为正常重音、对比重音、弱重音;☆语句重音,由句子语法结构、逻辑语义、心理情感表达的需要而产生的句子重读音。分为:语法重音、逻辑重音、心理重音;☆重音的声学特征表现在时长,音高,音强三方面;超音段特征——语调、重音。表示一句话中重要的单词作用:表示疑问句表示说话人的感情三.汉语语音学汉语语音的特点1.音系简单:音素少,音节少(60个音素,407个左右音节),音节结构简单;2.清辅音多,多是弱清音;3.有鲜明的轻重音和儿化韵,字词分隔清楚。汉语的拼音方法声母、韵母/调母。音素声母、韵母音节词句。表示方法:音标(声母表、韵母表、声调符号等)。汉语的声母结构1摩擦音:[f][h][s][sh][x].在频谱图上,最明显的特点是持续时间较长的噪声频谱。不同的摩擦音有不同的摩擦频谱。2塞音:[b][d][g],[p][t][k]前三个是不送气塞音,后三个是送气塞音.送气塞音的长度比不送气塞音长得多。3塞擦音:[zh][z][J],[ch][c][q]。前三个是不送气塞擦音,后三个是送气塞擦音,送气的长度比不送气塞音长,对于时长来说,塞音的摩擦段最长,塞擦音的摩擦段居中。4边音:[l]。主要由噪音段和过渡段构成.由于声道形状的突变,造成共振峰模型突变,在频谱图上表现为共振峰“断层”.边音也有音渡.起点是断层右端的共振峰起点,终点是后边的第一个元音的目标值。5鼻音[m][n(ng)]无论是声母还是韵母,F1都很强。鼻音较强的F1以及分布较均匀的低中频能量还有元音的鼻化作用,是区别于其它浊辅音的重要特点。6零声母,指的是那些直接以元音开始的音节里的声母,即:没有声母只有韵母。分为两类:一类是非开口呼的零声母,指那些以[i][u][y]起首的音节里的声母,又称半元音,一类是开口呼的零声母。他们有两个特点:汉语韵母的结构共38个韵母,分3类:☆8个单韵母,如[a][i][u]☆14个复韵母,如[ai][ao]☆16个鼻韵母,如[an][uang]3个特殊韵母:(-iere)。☆-i有两种发音,即[I]资韵,[i]知韵例如在[I]前只能有zcs,而在[i]前只能有zhchshr☆er是儿化音☆e的发音为[E],在ie这个韵母的韵尾用到汉语音节的构成音征互载声母和韵母的相互作用。例:辅音音渡。汉语的声调☆汉语是一种声调语言。☆阴平、阳平、上声、去声、轻声。☆各个韵母段中基音周期随时间的变化产生了声调,变化的轨迹称为声调曲线。声调曲线从一个韵母的起始端开始,到韵母的终止端结束。☆开始段称为弯头段,呈共同上升走向;末尾一段呈共同下降走向,称为降尾段;而中间段具有不同特点,称为调型段。基音频率(FundamentalFrequency):发浊音时声带振动的基本频率。一般用表示。声调(tone):各个音节元音段的基音频率变化。反映了语音的韵律,汉语中有辨意作用。0F男声四种声调的典型曲线汉语八大语系(八大方言).北方方言(70%以上);.吴方言(上海、苏州。。);.湘方言;.赣方言;.客家方言;.闽北方言(福州话);.闽南方言(厦门话、潮州话);.粤方言。四.总结重要概念:.音素音节;元音.音素辅音区别元音.共振峰:元音的重要特性.性别/年龄.基音频率:浊音的重要特性.声调汉语语音.三个特点;声母.汉语音节(可严格分为9个部分)韵母.汉语的声调五.关于Matlab在课程中的应用Matlab适合语音信号处理的特点:(1)非常方便和强大的向量、矩阵处理能力;(2)便捷且较强大的绘图能力;(3)非常丰富的各种工具箱;(4)解释执行。可在MATLAB中用wavread函数将*.wav的文件打开,将所有数据读入一个数组中。例如:Wavread(’c:\example.wav’);运行结果:fs=12000Nbits=16y=[…..,0.0002,-0.0009,0.0081,…..]可以用wavplay函数播放出读入的语音数据(向量)。例如:wavplay(y,12000);用wavwrite函数将程序中的语音数据写入.wav文件。例如:wavwrite(y,’newexample.wav’);简单的绘图函数:figure—开新窗口;plot—画点;例如:figure;