语音信号处理与现代语音通信杨震博士教授、博导2003.8授课内容【1】绪论【2】声音信号的分类与数字化【3】语音的发声模型和人的听觉特性【4】语音信号的时域和频域分析方法【5】语音信号的线性预测编码(LPC)技术【6】演示实验【7】各种语音处理和通信系统的质量评价体系【8】语音信号的数字压缩标准【9】语音波形编码技术-partone(ADPCM系统)【10】语音波形编码技术-parttwo(VQ、SBC、APC系统)【11】语音参数及混合编码技术-partone授课内容【12】语音参数及混合编码技术-parttwo移动通信GSM系统中的语音压缩编码技术-RPE/LTP移动通信CDMA系统和多媒体通信系统中的语音编码技术-G.723.1MP-MLQ/ACELP和G.729CS-ACELP【13】语音信号VBR编码技术【14】人机通信-partone语音识别原理【15】人机通信-parttwo语音合成原理【16】实用系统中的语音增强与消噪技术【17】语音压缩编码、消噪、识别与合成演示实验【18】语音在IP和ATM网络中的通信技术-partone【19】语音在IP和ATM网络中的通信技术-parttwo【20】语音技术研究热点参考文献中文1、王柄锡“语音编码”,西安电子科技大学初步社,20022、杨行峻,迟惠生“语音信号数字处理”电子工业出版社,19953、易克初,田斌,付强“语音信号处理”,国防工业出版社,20004、胡航“语音信号处理”,哈尔滨工业大学出版社,20005、拉宾纳,谢佛“语音信号数字处理”科学出版社,19786、姚天任“数字语音处理”华中理工大学出版社,19927、谢依兰“语音信号数字处理技术”学苑出版社,19938、朱民雄“计算机语音技术”北京航空航天大学出版社,19929、胡光锐“语音处理与识别”上海科学技术出版社,199410、J.D.Markar,A.H.Gray“语音信号线性预测”中国铁道出版社,198711、陈尚勤等“语言信号数字处理”电子科技大学出版社,199112、陈永彬,王仁华“语言信号数字处理”中国科技大学出版社,1990参考文献外文1、R.P.Ramachandran,R.Mammane“ModernMethodsofSpeechProcessing”,KluwerAcademicPublishers,19952、GordonE.Pelton“VoiceProcessing”Mc-Graw-Hill,Inc.,19933、D.P.Morgen,C.L.Scofield“NeuralNetworksandSpeechProcessing”KluwerAcademicPublishers,19914、ClaudioBecchetti&LucioPrinaRicotti“SpeechRecognition-TheoryandC++Implementation”5、M.R.Schroeder“ComputerSpeech-Recognition,Compression,Synthesis”,Springer,19996、RobertD.Rodman“ComputerSpeechTechnology”,ArtechHouse,INC,19997、JoelMambretti,AndrewSchmidt“NextGenerationInternet:CreatingAdvancedNetworksandServices”,Wiley,19998、RenatoDeMori“SpokenDialogueswithComputers”,AcademicPress,1998参考文献外文9、FrederickJelinek“statisticalmethodsforspeechrecognition”,MITPress,199710、RandyGoldberg,LanceRiek“APracticalHandbookofSpeechCoders”,CRCPress,200011、JohnR.Deller,JR.JohnG.Proakis,JohnH.L.Hansen“DiscreteTimeProcessingofSpeechSignals”,199312、ProceedingsofICASSP(声学、语音、信号处理国际会议录)13、IEEETransactionsonSpeechandAudioProcessing14、RickBeasley,MikeFarley,JohnO’reilly,LeonSquire“VoiceApplicationDevelopmentwithVoiceXML”SAMSPublishing,USA,2001绪论☆当今世界正处于工业时代向信息时代的飞速转变时刻,在这个过程中,计算机技术、通信技术和电子信息技术的高速发展,是推动人类社会向信息社会不断进步的基础。因特网络的普及、电子购物的兴起、多媒体通信及其应用的蓬勃发展,无一不是人类社会走向信息社会的标志☆信息的获取、处理、传输和存储,是信息社会技术发展的一个主要任务☆人类作为社会的主人,一直是接收和发送信息的主体☆语音,始终是人类互相交流、互相通信的最主要、最方便、最快捷的信息载体☆语音信号处理是一门涉及面很广的交叉学科☆研究内容包括1、语音特性分析和建模2、语音数字压缩编码3、语音识别4、语音合成5、语音增强6、现代语音通信第一章声音信号的分类与数字化§1.1声音信号的分类语音自然语音窄带语音,又叫电话频带语音宽带语音非语声音频信号广播电视质量声音CD质量声音③高保真HiFi(HighFidelity)和环绕(SurroundedEffect)声音左环绕听众主声道和低音增强左声道右声道右环绕听音室30012005.1声道音响位置第一章声音信号的分类与数字化§1.2声音信号的特征参数§1.2.1声音的传播速度、频率、周期和波长§1.2.2声压、声功率、声强和声级§1.2.3声音三要素音高与频率间关系Fletcher-Munson人耳听觉等响度级曲线第一章声音信号的分类与数字化§1.3声音信号的数字化常见采样频率电话通信领域的8千赫兹和16千赫兹。计算机声音处理系统中的11.025千赫兹,22.05千赫兹和44.1千赫兹。广播,影视,娱乐领域的32千赫兹,44.1千赫兹和48千赫兹。存储一分钟声音信号所需要的存储容量第一章声音信号的分类与数字化§1.4声音信号的数字存储格式WAV:数字音频波形格式,微软公司开发VOC和DAT:多用于声霸卡等一些声音采集程序的DOS软件环境,新加坡创新公司开发AU:工作站的UNIX环境下使用MIDI:数字乐器合成器,多用于合成音乐目前我们遇到的多数为.wav和.mid文件第一章声音信号的分类与数字化微软公司与IBM公司共同制定的WAV格式文件的第一个四字节是RIFF,它用来指明文件属于多媒体资源交换文件RIFF(ResourceInteractiveFileFormat)的一种.RIFF文件的基本结构是块,第一个块为WAVE类型,指定文件为波形数字音频文件,第二个块为fmt块,定义文件中其它数据的格式。第一章声音信号的分类与数字化typedefstruct_WaveFmt{WORDwFormatTag;//编码方式的标记;PCM时为1WORDnChnnels;//信道数;单声道等于0,立体声等于2WORDnSamplesPerSec;//每秒采样数WORDnAvgBytesPerSec;//每秒平均字节数WORDnBlockAlign;//数据块的偏移量}fmt第二章语音信号的产生、特征与人耳的听觉特性§2.1语音信号的产生鼻腔口腔气管嘴巴鼻子声带软腭人类发音器官示意图第二章语音信号的产生、特征与人耳的听觉特性发音器官:1)肺和气管2)咽喉3)声道(包括口腔、鼻腔等)4)嘴唇男声发音“我的语音”的时域波形和语谱图第二章语音信号的产生、特征与人耳的听觉特性第二章语音信号的产生、特征与人耳的听觉特性§2.2语音信号的分类主要的两大类浊音(voicedspeech),又称为有声语音基音(pitch)清音(unvoicedspeech),又称为无声语音第二章语音信号的产生、特征与人耳的听觉特性§2.3语音信号产生的模型语音生成模型常用的有:声管模型:波动方程描述LPC模型:数学模型描述共振峰模型:谐振腔描述周期脉冲序列声门脉冲模型G(Z)×白噪声序列×声道模型H(Z)辐射模型R(Z)开关GvGu语音信号产生的简化数字模型-LPC模型激励模型辐射模型1H2H3H4H5H语音级联型共振峰模型激励模型辐射模型1H2H3H4H5H语音混合G1A3A2A4A5A并联型共振峰模型随机噪声激励模型辐射模型1H2H3H4H5H语音混合1A3A2A4A5A周期脉冲激励模型5HvG2H1H3H4HuG基音周期T浊音增益清音增益混合型共振峰模型第二章语音信号的产生、特征与人耳的听觉特性§2.4临界频带和Bark谱人耳的掩蔽(mask)作用指的是耳朵对一个声音的听觉感受,受到另一个声音影响的现象,Fletcher和Munson1937年发现,一个音调(tone)可被一个以音调频率为中心频率的宽带噪声掩盖而听不见。并且,如果该宽带噪声能量不变而改变其带宽的话,这种掩盖现象不受噪声带宽变化的影响,除非噪声带宽超过一个临界值,这个临界值即称为临界频带。换言之,人耳对一个临界频带里的音不易分清。第二章语音信号的产生、特征与人耳的听觉特性☆临界频带这个参数提出的意义是可将人耳当作一个并联的滤波器组,各个滤波器有不同的带宽,分别对听觉作出不同的贡献☆临界频带的单位一般用Bark来表示以纪念科学家Barkhauseu。1Bark用来指明一个临界频带的频率宽度☆若记Bark域的频率变量为b,赫兹(Hertz)域频率变量为f,则有:fb6006sinh(/)第二章语音信号的产生、特征与人耳的听觉特性§2.5人耳的各种听觉效应掩蔽效应1000200030004000020406080声压级SPL(dB)频率(赫兹)主音(掩蔽音)掩蔽曲线同时掩蔽(频率掩蔽):纯音的同时掩蔽现象第二章语音信号的产生、特征与人耳的听觉特性非同时掩蔽(时间掩蔽):纯音的非同时掩蔽现象-100-500501001502000102030405060强度SPL(dB)时间(ms)前向屏蔽区后向屏蔽区第二章语音信号的产生、特征与人耳的听觉特性§2.5人耳的各种听觉效应哈斯(Hass)效应双耳效应鸡尾酒会效应第三章语音信号的分析方法§3.1语音信号的统计特性一、概率密度函数:近似Gamma分布,可用Laplace或Gauss分布近似二、零均三、非平稳时变信号;短时平稳:10~30ms第三章语音信号的分析方法§3.2语音信号的短时分析方法短时能量短时平均幅度短时平均过零率短时自相关函数短时傅立叶变换第三章语音信号的分析方法一、短时能量En和短时平均幅度浊音:大清音:较小静默:最小第三章语音信号的分析方法二、短时过零率Zn浊音:较小清音:大静默:最小(如果没有背景噪声),较大(如果存在背景噪声)一般的经验数据是,对于清音语音,在采样频率为8千赫兹条件下,其过零率为每10ms内Zn≥49,而对于浊音语音,其过零率为每10ms内Zn≤14第三章语音信号的分析方法三、短时自相关函数Rn浊音:呈现‘准’周期性、逐渐衰减-求基音周期清音:Rn(0)较大,衰减很快静默:Rn(0)小,衰减很快第三章语音信号的分析方法四、短时傅立叶变换分析1、反映了短时间内激励和声道的频谱特性,声道特性主要由频谱的包络特性来描述2、浊音:频谱能量集中在低频率区,衰减较快,呈现锯齿状清音:频谱能量分布在整个频率段内,无明显衰减静默:频谱能量很小3、基于可以求基音频率浊音谱清音谱第三章语音信号的分析方法§3.3语音信号的分类和词的分割方法某帧分类:浊音、清音、静默分类技术:一、基于能量或过零率硬判决二、基于自相关函数或傅氏变换硬判决三、基于模式分类技术第三章语音信号的分析方法用于语音信号