短时过零率和短时能量

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

帧和加窗的概念1.短时分析将语音流分为一段一段来处理,每一段称为一“帧”;2.帧长:10~30ms,20ms常见;(帧率)帧移:0~1/2帧长,帧与帧之间的平滑过度;3.为了减少语音帧的截断效应,需要加窗处理;将具有不连续点的周期函数(如矩形脉冲)进行傅立叶级数展开后,选取有限项进行合成。当选取的项数越多,在所合成的波形中出现的峰起越靠近原信号的不连续点。当选取的项数很大时,该峰起值趋于一个常数,大约等于总跳变值的9%。这种现象称为截断效应,又叫吉布斯效应。矩形窗、Hamming、Hann等窗函数及其比较三种窗函数都有低通特性,通过分析三种窗的频率响应幅度特性可以发现:矩形窗的主瓣宽度最小,旁瓣高度最高,会导致泄露现象,汉明窗的主瓣最宽,旁瓣高度最低,可以有效的克服泄露现象,具有更平滑的低通特性,应用更广泛。短时平均能量的主要用途(1)可以从语音中区别浊音来,因为浊音时短时平均能量的值要比清音时短时平均能量的值大很多;(2)可以用来区别声母和韵母的分界、无声和有声的分界等。短时过零率短时过零率可以看作信号频率的简单度量(1)过零就是指信号通过零值。过零率就是每秒内信号值通过零值得次数。(2)对于离散时间序列,过零则是指序列取样值改变符号,过零率则是每个样本的改变符号的次数。对于语音信号,则是指在一帧语音中语音信号波形穿过横轴(零电平)的次数。可以用相邻两个取样改变符号的次数来计算。应用于语音信号分析中(1)发浊音时,声带振动,因而声门激励是以此音调频率为基频来使声道共振;尽管有若干个共振峰,但其能量的分布集中于低于3KHz的频率范围内。(2)发清音时声带不振动,声道某部分阻塞产生类白噪声激励,通过声道后其能量集中在比浊音时更高的频率范围内。(3)浊音时能量集中于较低频率段内,具有较低的过零率,而清音时能量集中于较高频率段内,具有较高的过零率。(4)短时平均能量和短时平均过零率两个参数,也都可以用于语音识别中。主要用于识别无声段和语音段的起点和终点的位置。(5)在背景噪声比较小的时候用平均能量来识别比较有效,在背景噪声比较大的时候用平均过零率来识别比较有效,但是通常情况是两个参数联合进行识别。浊音、清音、无声的短时特性S(无声)U(清音)V(浊音)三种情况下短时平均幅度条件概率密度的示意图。可以看出,浊音的短时平均幅度最大,无声的短时平均幅度最小。清音的短时过零率最大,无声居中,浊音的短时过零率最小。语音信号短时能量和过零率的特征语音一般分为无声段,清音段和浊音段。一般把浊音认为是一个以基音周期为周期的斜三角脉冲串,把清音模拟成随机白噪声。由于语音信号是一个非平稳态过程,不能用处理平稳信号的信号处理技术对其进行分析处理。但由于语音信号本身的特点,在10~30ms的短时间范围内,其特性可以看作是一个准稳态过程,即具有短时性,因此采用短时能量和过零率来对语音进行端点检测是可行的。语音和噪声的区别可以体现在他们的能量上,语音段的能量比噪声段的能量大,如果环境噪声和系统输入的噪声比较小,只要计算输入信号的短时能量就能够把语音段和噪声背景区分开,除此之外,用基于能量的算法来检测浊音通常效果也是比较理想的,因为浊音的能量值比清音大得多,可以判断浊音和清音之间过渡的时刻[3],但对清音来说,效果不是很好,因此还需要借助短时过零率来表征。短时能量可以近似为互补的情况,短时能量大的地方过零率小,短时能量小的地方过零率较大。基于短时能量和过零率的检测方法尽管基于短时能量和过零率的检测方法各有其优缺点,但是若将这两种基本方法相结合起来使用也可以实现对语音信号可靠的端点检测。无声段的短时能量为零,清音段的短时能量又比浊音段的短时能量大,而在过零率方面,理想的情况是无声段的过零率为零,浊音段的过零率比清音段的过零率要大的多,因此,假设有一段语音,如果某部分短时能量和过零率都为零或者为很小的值,就可以认为这部分为无声段,如果该部分语音短时能量很大但是过零率很小,则认为该部分语音为浊音段,如果该部分短时能量很小但是过零率很大,则认为该部分语音为清音段。正如前面提到,语音信号具有短时性,因此在对语音信号进行分析时,需要将语音信号以30ms为一段分为若干帧来进行分析,则两帧起始点之间的间隔为10ms。为防止误判以及无声段过零率太大,设tmp1和tmp2为相邻两个采样点,则同时满足tmp1*tmp20和tmp1-tmp2的绝对值大于delta时才算一次过零,除此之外,为短时能量和过零率分别确定两个门限,一个是较低的门限ELT和ZLT,其数值较小,对信号的变化比较敏感,很容易就会被超过。另一个是较高的门限EHT和ZHT,数值较大,信号必须达到一定的强度,该门限才可能被超过。低门限被超过有可能是时间很短的噪声引起的,高门限被超过则可以基本确定是由语音信号引起的,如图3所示。短时能量分析是通过能量的高低来区分清音和浊音,不容易确定语音信号片段的起始点;而过零率分析仅仅是表明清音的过零率高于浊音,对噪声的存在比较敏感,如果背景中有反复穿越坐标轴的随机噪声,会产生大量的虚假过零率,影响检测结果。对于背景噪声和清音的区分则显得无能为力。将这两种方法结合起来,通过短时能量分析去除高频环境噪声的干扰,用过零率分析去除低频的干扰,检测效果较好。但综合考虑后,由于这两种方法本身的局限性以及过零率门限值和短时能量门限值的选取,使得检测的范围和精度仅限于单个单词,而对整个句子的检测还达不到令人满意的效果。

1 / 3
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功