第一章绪论1.语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性的学科。p1d32.语音信号处理的应用技术列举:语音编码、语音识别、语音合成、说话人识别和语种辨识、语音转换和语音隐藏(语音信息伪装、语音数字水印技术)、语音增强等p4d33.当前语音信号处理应用的3个主流技术:矢量量化技术、隐马尔可夫模型技术、人工神经网络技术。p4d3第二章语音信号处理基础知识1.语音是组成语言的声音,是声音(Acoustic)和语言(Language)的组合体。p5d22.语音的基本声学特性包括音色,音调,音强、音长。p7d2音色:也叫音质,是一种声音区别于另一种声音的基本特征。音调:是指声音的高低,它取决于声波的频率。音强:声音的强弱,它由声波的振动幅度决定。音长:声音的长短,它取决于发音时间的长短。3.说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。p7d34.任何语言都有语音的元音(Vowel)和辅音(Consonant)两种音素。p7d38.当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为元音。p7d39.呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。p7d37.发辅音时由声带是否振动引起浊音和清音的区别,声带振动的是浊音,声带不振动的是清音。p7d38.元音构成音节的主干(因为无论从长度还是能量看,元音在音节中都占主要部分。)p7d39.元音的一个重要声学特性是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(FormantFrequency)的位置和频带宽度(FormantBandwidth)。p7d516.人类的声道和鼻道可以看作是非均匀截面的声道管,声道管的谐振频率称为共振峰频率(共振峰)。p7d510.汉语音节一般由声母、韵母和声调三部分组成。汉语普通话中有6000多个常用字,每个汉字是一个音节。p10d610.发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期就称为基音周期(pitch),其倒数成为基音频率。11.汉语是一种声调语言,声调的变化就是浊音基音周期(或基音频率)的变化。p14d513.无论是单音节语音还是连续语音,其中浊音段的基因频率是随时间而变化的,基因频率的不同轨迹成为声调。p9d1114.当两个响度不同的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象成为掩蔽效应。15.语音信号的生成模型可由激励模型、声道模型和辐射模型三个子模型构成,三者是串联(串联/并联)的关系。p21-2616.语音信号激励模型一般分为浊音激励和清音激励,发浊音时激励模型为脉冲波。p21d617.语音信号激励模型一般分为浊音激励和清音激励,发清音时激励信号通常被模拟为随机白噪声。p22d216.语音信号生成模型的辐射模型是一阶类高通滤波器。p25d217.设截取的一段语音共有160个样本,而采样频率为8kHz,则该段语音持续时间为20ms。18.设采样频率为8kHz,则25ms长的语音共有200个采样值。18.研究语音的时频分析特性所采用的与时序相关的傅立叶分析的显示图形称为语谱图(Sonogram,或者Spectrogram)p29d119.语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。p29d120.传输函数形式为121()1MiiiiaVzbzcz的共振峰模型为(2)数学模型;1.全零点;2.全极点;3.极零点;4.以上都不是;21.传输函数形式为121()1MiiiiaVzbzcz的共振峰模型在结构上为(1)模型;1.级联型2.并联型;3.混合型;4.以上都不是;22.传输函数形式为121()1MiiiiAVzBzCz的共振峰模型为(3)数学模型;1.全零点;2.全极点;3.极零点;4.以上都不是;23.传输函数形式为121()1MiiiiAVzBzCz的共振峰模型在结构上为(2)模型;1.级联型2.并联型;3.混合型;4.以上都不是;24.简述语音产生过程的三个模型:25.基音频率、共振峰、语谱图的概念,会从语音波形中识别基音周期与共振峰频率。发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期就称为基音周期(pitch),其倒数成为基音频率。一般来说,男性说话的基音频率大致分布在50-200Hz范围内,女性和小孩的基因频率在200-450Hz之间。人类的声道和鼻道可以看作是非均匀截面的声道管,声道管的谐振频率成为共振峰频率,简称共振峰。共振峰由低到高依次为第一共振峰、第二共振峰、第三共振峰、。。。,相应的频率用F1、F2、F3。。。。表示。一般浊音中可以辨识的共振峰有5个,其中前三个对于区别不同语音至关重要。语谱图描述了语音信号随时间而变化的频谱特性。纵轴对应于频率、横轴对应于时间,图像的黑白度对应于信号的能量。26.汉语中的四种声调与基音频率的关系是什么?无论是单音节语音还是连续语音,其中浊音段的基因频率是随时间而变化的,基因频率的不同轨迹成为声调。29.音调:音调是听觉分辨声音高低时,用于描述这种感受的一种特性。音调与声音的频率并不成正比,还与声音的强度及波形有关。描述音调的单位是美(mel)。一个高于听阈40dB、频率为1KHz的纯音所产生的音调定位1000mel,如果一个纯音听起来比1000mel的声音调子高一倍,则其音调为2000mel。音调与频率的关系近似表示为:3323.23lg(10.001)melHzTf27.掩蔽效应:当两个响度不同的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象成为掩蔽效应。第三章语音信号分析21.语音信号分析采用短时分析技术。p32d220.语音信号分析,根据所分析出的参数的性质的不同可以分为:时域分析、频域分析、倒频域分析、线性预测分析等。根据分析方法的不同,分为模型分析方法和非模型分析方法两种。p32d322.由于辐射模型的影响,语音信号高频部分衰减较大,所以在预处理中需采用预加重技术,即提升高频部分,使信号的频谱变得平坦。23.不论是分析怎么样的参数以及采用什么分析方法,在按帧进行语音分析,提取语音参数之前,有一些经常使用的、共同的短时分析技术必须预先进行,如语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧等23.语音信号加窗、分帧常用的窗函数有矩形窗、汉明窗等(列举两个)。25.对于频率分布为0~3400Hz的语音信号,最低无失真采样频率应为6800Hz25.若信号波形的变化足够大,或量化间隔Δ足够小时,以下有关量化噪声描述错误的是(4)p33d21.是平稳的白噪声过程2.量化噪声与输入信号不相关3.量化噪声在量化间隔内均匀分布,即具有等概率密度分布4.是服从高斯分布的随机过程26.以下那种分析不属于语音信号时域分析?(4)1.短时过零率分析;2.短时相关分析;3.短时平均幅度差函数;4.同态分析;短时能量的主要用途不包括以下那一项(4)p38d51.可以区分浊音段和清音段;2.可以用来查找声母和韵母的分界;3.可以用来查找无声和有声的分界;4.可以区分高频和低频分量;24.采用自相关函数法对基音周期进行估计时,先用60~900Hz的带通滤波器对语音信号进行滤波,以下描述错误的是(4)p71d21.可减少共振峰的影响;2.可抑制50Hz的电源干扰;3.可保留基音频率的一、二次谐波;4.为了防止8kHz采样时发生混叠干扰;定义语音信号()nxm的短时自相关函数()nRk为:10()()(),0NknnnmRkxmxmkkK,则以下表述错误的是(2):p40d3(1)如果()nxm是周期的,则()nRk是同周期的周期函数;(2)()nRk是奇函数;(3)(0)()nnRRk7.设序列x(n)的短时能量定义为:2()().nmExmwnm其中窗函数表示为:,0()0,0mamwmm试求En的一个递推公式,用En-1和输入x(n)表示En8.设序列x(n)的短时能量定义为:2()().nmExmwnm其中窗函数表示为:,()0,mamNwmothers试求En的一个递推公式9.设短时平均过零率的定义为:11sgn()sgn(1)2nnnNZxmxmN证明11sgn[()]sgn[(1)]sgn[()sgn[(1)]2nnZZxnxnxnNxnNN1.语音的时变性与短时平稳性(p32d2):语音信号的波形有些波形段有较强的周期性,有的波形段有较强的噪声性,并且周期性语音和噪声性语音的特征也在不断变化中,从而具有时变性。但在较短时间内(10-30ms)语音信号的特征可以认为基本保持不变,这就是语音信号的短时平稳性。11.常用的时域基音检测算法有哪些(任选两种作答)?它们的基本原理是什么?自相关函数法:浊音信号的自相关函数在基音周期的整数倍位置上出现峰值;而清音的自相关函数没有明显的峰值出现。因此检测是否有峰值就可判断是清音或浊音,检测峰值的位置就可提取基音周期值。短时平均幅度差函数法:对周期性的浊音语音,短时平均幅度差函数也呈现与浊音语音周期相一致的周期特性,短时平均幅度差函数在周期的各个整数倍点上具有谷值特性而不是峰值特性,可确定基音周期;而对于清音语音信号,短时平均幅度差函数却没有这种周期特性。利用短时平均幅度差函数的这种特性,可以判定一段语音是浊音还是清音,并估计出浊音语音的基音周期。12.浊音与清音的短时能量、短时平均过零率、短时自相关函数和短时平均幅度差函数有什么差异?导致这些差异的根本原因是什么?相对来说浊音的短时能量大、短时平均过零率低、短时自相关函数的峰值位置具有周期性,短时平均幅度差函数的谷值位置具有周期性。这是因为浊音是由声带振动引起的脉冲波激励声道产生的,能量较大,频率较低,具有与激励波相同的周期性结构,而清音是由白噪声激励而产生,能量较低,频率较高,不具有周期性。13.若用信号的短时傅立叶变换来定义其短时能量谱密度:2jjnnSeXe同时定义信号的短时自相关函数为:()()()()()nmRkwnmxmwnkmxmk证明当()()()jjmnmXexmwnme时,()nRk与()jnSe互为傅立叶变换对。15.设p阶线性预测器表达式为1ˆ()()piisnasni,证明在最小均方预测误差准则下,预测系数1,,paa满足方程组:1(0,)(,),1,2,,piijaijjp,其中(,){()()}ijEsmismj。解:预测误差为1ˆ()()()()()piinsnsnsnasni,均方误差为221()[()()]piiEnEsnasni,为使E{ε2(n)}最小,对aj求偏导,并令其为零,有:1[()()]()0,1,...,piiEsnasnisnjjp,即1{()()}()(),1,,piiEsnsnjEasnisnjjp又因为(,){()()}ijEsnisnj,代入上式有1.(0,)(,),1,2,,piijaijjp设语音信号的线性预测模型为()0.9(1)0.4(2)0.1(3)snsnsnsn,模型增益1G,求该语音信号的线性预测谱表达式。p59