语音信号

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1.由下面的WAV文件读出语音的编码信息:52494646A49A7B0157415645666D7420RIFFSIZE:17B9AA4TYPE:WAVEfmt100000000100020044AC000010B10200SIZE:1=16声道数目2采样频率音频数据传送率0400100064617461809A7B0142FF35FC数据块对其单位datasizeLRLR每个采样需要的bit数E2FE0700E7FEAF035FFF6501.....................LRLRLRLRLRLR1)格式详解①RIFFWAVEChunk||所占字节数|具体内容========================|ID|4Bytes|'RIFF'----------------------------------|Size|4Bytes|----------------------------------|Type|4Bytes|'WAVE'----------------------------------②FormatChunk========================================================||字节数|具体内容========================================================|ID|4Bytes|‘fmt’----------------------------------------------------------------------------------------|Size|4Bytes|数值为16或18,18则最后又附加信息--------------------------------------------------------------------------------------|FormatTag|2Bytes|编码方式,一般为0x0001---------------------------------------------------------------------------------------|Channels|2Bytes|声道数目,1--单声道;2--双声道--------------------------------------------------------------------------------------|SamplesPerSec|4Bytes|采样频率----------------------------------------------------------------------------------------|AvgBytesPerSec|4Bytes|音频数据传送速率其值为声道数×每秒数据位数(采样频率)×每样本的数据位数/8。------------------------------------------------------------------------------------------|BlockAlign|2Bytes|数据块对齐单位(每个采样需要的字节数)其值为声道数×每样本的数据位值/8------------------------------------------------------------------------------------------|BitsPerSample|2Bytes|每个采样需要的bit数-------------------------------------------------------------------------------------------||2Bytes|附加信息(可选,通过Size来判断有无)------------------------------------------------------------------------------------------③DataChunk||所占字节数|具体内容=========================|ID|4Bytes|'data'----------------------------------|Size|4Bytes|----------------------------------|data||----------------------------------单声道|取样1|取样2|取样3|取样4|----------------------------------------------------------------------------------------------------|8bit量化|声道0|声道0|声道0|声道0-----------------------------------------------------------------------------------------------------------------------|双声道|取样1|取样2|----------------------------------------------------------------------------------------------------|8bit量化|声道0(左)|声道1(右)|声道0(左)|声道1(右)-----------------------------------------------------------------------------------------------------------------------||取样1|取样2|单声道---------------------------------------------------------------------------------------------------|16bit量化|声道0|声道0|声道0|声道0||(低位字节)|(高位字节)|(低位字节)|(高位字节)------------------------------------------------------------------------------------------------------------------------||取样1|双声道-----------------------------------------------------------------------------------------------------|16bit量化声道0(左)|声道0(左)|声道1(右)|声道1(右)|(低位字节)|(高位字节)|(低位字节)|(高位字节)------------------------------------------------------------------------------------------------------------------------2.画出语音信号的产生模型,简述语音的产生过程。:语音产生过程——空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。3.为生么语音信号要进行“短时”分析。语音信号的特点—短时平稳性4.语音信号的时域分析方法有那些?短时时域处理方法—短时能量、短时平均过零率以及短时自相关函数计算5.语音信号频率范围是多少?20hz——20khz6.什么是浊音的基音频率(F0)?男性、女性和儿童的F0大致分布在什么范围。浊音的基音频率(F0):声带张开和闭合一次的时间的倒数。由声带的尺寸、特性和声带所受张力决定。F0的大小决定了声音的高低,称为音高。男性的F0大致分布在:60~200Hz,女性和儿童的F0大致分布在:200~450Hz7.可以认为多长的时间范围内,语音信号是平稳信号。语音信号是一个非平稳信号,激励和声道的谐振特性随时间变化。但在10-30ms内语音信号是平稳的,即激励和声道的特性几乎不变,因此认为在此时间段内系统是线性的。8.电话语音的采样率为8kHz;纯语音在进行计算机录入时,一般采样率在15kHz~20kHz左右;音乐的采样率可以高达44kHz。9.9.如何利用语音信号的时域分析方法进行清、浊判断。能量分析的依据:是基于语音信号幅度随时间变化。清音段幅度小,其能量集中于高频段;浊音段幅度较大,其能量集中于低频段。平均幅度分析的依据:清音段幅度小;浊音段幅度较大短时平均过零的作用:浊音平均过零率低,集中在低频端;清音平均过零率高,集中在高频端。短时自相关函数:浊音语音的自相关函数具有一定的周期性。清音语音的自相关函数不具有周期性,类似噪声10通过对语音信号进行分析,可以提取到那些特征参数(列举出三个以上)。短时平均能量、短时过零率、短时自相关函数、频谱、三个共振峰频率、线性预测系数、LPC倒谱和Mel倒谱、短时平均幅度11人的发音器官包括那些。肺、气管、喉(包括声带)和声道。12傅立叶分析在信号处理中有什么意义?可以使信号的某些特征变得很明显,语音信号的频谱具有非常明显的语言学习意义。可以获得重要的语音特征(共振峰频率和带宽等)13文语转换系统(TTS)属于那种语音合成系统。规则语音合成系统14语音的共振峰是如何形成的?气流流过通道犹如通过了一个具有某种谐振特性的腔体,放大某些频率,在频谱上形成相应位置的峰起,称为共振峰。15同态信号处理也称为同态滤波,画出同态滤波中特征系统框图卷积关系和乘积关系变换为求和关系的分离处理常见的同态信号处理系统16语音合成的分类及特点,举出一个语音信号参数合成的例子。1、波形合成法特点:简单/小词汇(报站器)实现过程:录音、编辑、合成,优点:合成音质好;缺点:存储空间大2、参数合成法特点:可以合成大词汇(字典)实现过程:保存LPC、共振峰等参数。缺点:合成音质较差。3、规则合成法特点:实现难度较大,如TTS系统(文语转换系统)实现过程:保存存音素的参数,根据语音学规则产生语音。句子组成:音素-音节-词,根据句子(规则)确定发音。优点:可以合成无限词汇,存储量小缺点:合成音质效果较差17画出实现语音信号时频语音增强功能的框图。18什么是语音信号的“短时”处理方法。语音信号是一种随时间而变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音参数,都是随时间变化的,但这种变化是缓慢的,在一段时间内10——30ms,语音信号近似不变,所以,我们把变化的语音信号分成一些相继的短时间段来处理。而每一段时间具有固定的特性,这种方法称为短时处理方法。19语音信号短时能量分析的用途1区分清音段和浊音段2区分声母和韵母3区分无声和有声的分界(信噪比较高的信号)4区分连字的边界5用于语音识别20短时自相关函数的物理意义,性质,作用。序列经过一个冲激响应为的数字滤波器滤波即得到短时自相关函数。意义:自相关函数用于研究信号本身,如波形的同步性和周期性。性质:(1)对称性R(k)=R(-k)(2)在k=0处为最大值,即对于所有k来说,|R(k)|≤R(0)(3)对于确定信号,值R(0)对应于能量,而对于随机信号,R(0)对应于平均功率作用:1.区分清/浊音2.估计浊音语音信号的周期,即估计基音周期。21利用短时自相关函数进行语音分析时要注意的问题对短时自相关函数来说,使用矩形窗比使用哈明窗具有更明显的周期性。为了反映语音信号特性的变化,N必须足够小,而另一方面,为了得到周期性的自相关函数,窗的宽度N必须大于最长的基音周期的两倍。22语音信号傅里叶分析的作用(p41)可以使信号的某些特征变得很明显,语音信号的频谱具有非常明显的语言学习意义。可以获得重要的语音特征(共振峰频率和带宽等)23短时傅里叶变换的滤波器的解释。)(jneX的另一种解释(带限信号-时域卷积)1()()

1 / 16
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功