《数字语音处理实验》指导书——中国地质大学机械与电子工程学院电信教研室编制2005年1《数字语音处理》实验指导书学校:中国地质大学院系:机械与电子工程学院专业:电子信息工程编制:电信教研室版本:2005《数字语音处理实验》指导书——中国地质大学机械与电子工程学院电信教研室编制2005年2目录前言单元1MATLAB练习单元2综合分析实验附录1MATLAB软件简介附录2MATLAB基本使用方法附录3wavread函数附录4specgram函数参考文献《数字语音处理实验》指导书——中国地质大学机械与电子工程学院电信教研室编制2005年3单元1MATLAB练习实验目的了解信号谱分析特点,掌握各种窗函数功率谱的异同及其对短时信号谱分析的作用。明确短时傅立叶变换与声谱图的关系,理解其对语音信号的时频分析作用。学习音频文件的基本操作方法。学习用MATLAB实现基本的语音信号处理,提高自学和动手能力,培养学习兴趣。实验原理1、离散频谱、幅度谱和功率谱离散频谱是信号序列的离散傅立叶变换,常用快速傅立叶变换(FFT)计算。离散频谱描述的是信号在频率采样点上的幅度和相位值,包括幅度-频率关系和相位—频率关系,幅度谱就是前者。功率谱是幅度平方—频率关系。由于语音的对数听觉效应,幅度谱和功率谱常用对数形式表达,单位为分贝。对数幅度谱=10lg幅度谱,对数功率谱=10lg幅度谱2=20lg幅度谱。由此可见,对数幅度谱与对数功率谱在谱形上是相似的,只不过谱的幅度方向相差一倍。对于窗序列的离散频谱、幅度谱和功率谱,结论也是类似的。2、短时傅立叶变换和声谱图短时傅立叶变换的实质,是在时间和频率上同时对信号序列进行分解,使得信号被分解成若干个时段和频段上的分量(即分信号)。根据微分原理,若每个时段和频段都很小,对具体某个时段和频段上的分信号进行抽样,无论具体的抽样时点和频点如何选取,抽样值都不会有大的差异,因而一个分信号可以仅用一个该分信号的抽样值来表示。短时傅立叶变换的值X(n,k)实际上就是n时段和k频段上信号分量的幅度和相位抽样,这个抽样值大体代表了n时段和k频段上信号分量的幅度范围和相位范围。n和k的含义见下表。表1数字参数与模拟参数的对应关系数字时间模拟时间(s)数字频率模拟频率(HZ)nt=n/fsKf=k·fs/L注:L—窗序列长度fs—信号采样频率应用在语音处理方面,声谱图就是语音信号的短时傅立叶变换,其图形化显示往往只表示各个时段和频段上的分信号幅度抽样值。3、WAVE文件的基本操作WAVE是Windows操作系统支持的一种标准的数字波形音频文件格式。通常我们用麦克风和Windows录音机采集到计算中的声音就是WAVE格式的,WAVE文件后缀为.wav,多采用PCM格式或ADPCM格式,支持单声道或多声道数字音频数据采集和回放。与MP3等其它格式相比,WAVE格式尽管压缩比不好,却非常直观(除文件头外,实际上就是所有通道的采样数据按时间顺序交错排列),适合于数据量不大的音频录放(例如Windows提示音)。因此,对WAVE文件进行读取、保存、剪辑、播放等基本操作相对容易些。软件基础较好,有志于开发自己的音频应用的读者可到网上下载WAVE等文件的存储格式。《数字语音处理实验》指导书——中国地质大学机械与电子工程学院电信教研室编制2005年4实验器材多媒体计算机预装Windows98/2000/XP操作系统预装MATLAB6.5软件预装“数字语言处理实验”软件包自带移动存储实验内容1、输入并运行以下MATLAB代码:%(1)信号波形和对数功率谱示例%波形:100样点,抽样频率Fs=8kHz,信号频率f=2kHzx=sin(2*pi*(0:99)*2000/8000);%频谱:是波形的快速傅立叶变换X=fft(x);%对数功率谱:功率谱取10lg或幅度谱取20lgP=20*log10(abs(X));%绘制波形和对数功率谱(注意观察25和75处的尖峰)figure(1);plot(x);title('信号的波形');figure(2);plot(P);title('信号的对数功率谱');%(2)窗函数的对数幅度谱示例%避免对0取对数floor=0.1;%图1:矩形窗W_rec=10*log10(abs(fft(boxcar(512),1024))+floor);figure(1);plot(W_rec(1:end/2));title('矩形窗的对数幅度谱');%图2:海明窗W_hamming=10*log10(abs(fft(hamming(512),1024))+floor);figure(2);plot(W_hamming(1:end/2));title('海明窗的对数幅度谱');%图3:汉宁窗W_hanning=10*log10(abs(fft(hanning(512),1024))+floor);figure(3);plot(W_hanning(1:end/2));title('汉宁窗的对数幅度谱');2、编程绘制以下窗序列的对数幅度谱:(1)指数窗(2)矩形窗《数字语音处理实验》指导书——中国地质大学机械与电子工程学院电信教研室编制2005年5(3)海明窗(4)汉宁窗选N=512,用MATLAB编程绘制以上窗序列的幅度谱。3、编程读取WAVE文件并显示声谱图(取1024点汉宁窗)提示:主要涉及的M函数有figure、plot、wavread、specgram等,理解如何使用它们。4、编程实现对WAVE文件的剪辑、保存和播放提示:主要涉及的M函数wavread、wavwrite、wavplay等,使用MATLAB帮助系统了解其用法。报告要求1、包括实验名称、实验目的、实验内容标题。2、在相应内容标题下:(1)拷贝内容1的各个图形,标出谱零点。(2)写出内容2的程序清单,说明几种窗函数谱的不同特点和对短时谱分析性能的影响。(3)写出内容3的程序清单,拷贝声谱图图形,说明此声谱图形的物理意义。(4)写出内容4的程序清单,说明你的程序是如何使用M函数实现WAVE文件的剪辑、保存和播放的。《数字语音处理实验》指导书——中国地质大学机械与电子工程学院电信教研室编制2005年6单元2综合分析实验实验目的1、掌握利用短时自相关检测基音周期的原理,了解基音检测在清音段、谐音段、纯音段及其混杂信号段的适用情况。2、掌握短时傅立叶变换的实现原理,理解并掌握数字频率与模拟频率间的对应关系,理解SFT对语音信号的时频分析作用。3、初步了解线性预测的特点。实验原理1、短时自相关基音检测设信号采样序列长度为M:{x(m)|0≤m≤M},采样周期为fs矩形窗序列长度为N:{w(m)|0≤m≤n},NM则短时自相关为:其有效计算区间为:因此,对于矩形窗而言,短时自相关Rn(k)相当于取序列段{x(m)|n-N≤m≤n}作自相关计算,最大值为Rn(0)。若所取序列段具有周期性,则Rn(k)将在k为序列段周期Tn时取得次大值Rnmax,因而取得Rnmax时的k值即为所取序列段周期:当Rn(k)=Rnmax时,Tn=kTs=k/fs。若Rnmax与Rn(0)相比相差太大,则表明所取序列段没有相关性,为清音帧。2、短时傅立叶变换(1)SFT的傅立叶解释X(m)w(n-m)w(m)x(m)0n-N窗选时间段nm注:SFT是窗选信号段的离散傅立叶变换,它反映窗选信号段的离散频谱;SFT系数Xn(ejωk)是n-N~n时段信号在数字角频率ωk处的频谱抽样,含有该单频分量的幅度和相位信息,该单频分量用以反映所在频段的频谱特征。图1SFT的傅立叶解释mmnkmxmxkmnwkmxmnwmxkR)()()()()()()(knNnmnMnNkmxmxkRNnknmNnNkmnNmnMkmMm),()()(0000)()()()()()(mnwmxDFTemnwmxmxSFTeXmmjjnkk《数字语音处理实验》指导书——中国地质大学机械与电子工程学院电信教研室编制2005年7(2)SFT的滤波器解释(3)数字信号与模拟信号的参数对应关系对于矩形窗而言,数字参数与模拟参数存在以下对应关系:表1数字参数与模拟参数的对应关系数字时间模拟时间(s)数字频率模拟频率(HZ)数字角频率模拟角频率(rad/s)nt=n/fskf=k·fs/Lωk=2Π·k/Lω=2Π·k·fs/L注:L—窗序列长度fs—信号采样频率(4)时频分辨率关系对于矩形窗,时间窗宽度τ=L/fs;频率窗宽度B=fs/L;时频窗面积常数K=τ·B=1。Xn(ejωk)是(n-L)/fs~n/fs时段的信号在kB~(k+1)B频段的频谱抽样,抽样频率为kB。Xn(ejωk)反映了在上述模拟时段和频段內的信号分量特征,若时间窗宽度越小,则时间分辨率越高,频率分辨率越低;反之,若时间窗宽度越大,则时间分辨率越低,频率分辨率越高。SFT系数的集合{Xn(ejωk)}是关于数字时间n和数字频率k的二维阵列,n、k的取值为:{Xn(ejωk)|n=N,3N/2,2N…..M-1;k=0,1,2,……N-1}。其中M是语音信号的序列长度。3、线性预测(1)线性预测定义用短时窗选取一段信号序列{x(m)|0≤m≤N},利用如下线性预测方程进行预测:其中N是窗序列长度,权系数{ak|1≤k≤p}是预测器参数X(n)Xn(ejωk)e-jωkn窗选信号频谱频率窗移频-f0Bff+B注:Xn(ejωk)是数字信号X(n)被载波e-jωkn调制移频后经过数字低通滤波器W(n)的输出。设ωk对应的模拟频率为f(HZ),低通滤波器通频带为0~B(HZ)则只有频率范围在f~f+B(HZ)的信号分量能通过低通滤波器。因此Xn(ejωk)是频率范围在f~f+B(HZ)內的信号频谱抽样。图2SFT的傅立叶解释)(*)()()()()(nwenxmnwemxmxSFTeXnjmmjjnkkkpkkkmxamx1)()(ˆW(n)《数字语音处理实验》指导书——中国地质大学机械与电子工程学院电信教研室编制2005年8(2)预测系数选取原则满足信号序列与其预测值序列间的均方预测误差最小准则。(3)窗长和预测阶数N过大,预测时段超出了语音信号的短时平稳区间,将使预测精度降低;而N过小,则不能由过少的信号样点得到其变化规律,同样将使预测精度降低。类似地预测阶数P的选取也应恰当。实验器材多媒体计算机预装Windows98/2000/XP操作系统预装VisualBasic6.0软件预装VisualC++6.0软件预装“2005数字语言处理实验”软件包自带移动存储实验内容1、短时自相关基音检测(1)打开“2005数字语音处理实验\单元2:综合分析实验”文件夹,运行其中的VoiceProcess.exe实验程序,打开Sample.raw采样序列数据文件。(2)点击“基音检测”菜单项,拷贝基音检测结果;根据基音检测结果并对比波形,指出哪些语段是浊音,哪些语段是清音,哪些语段两者都有,说明理由。2、短时傅立叶变换(1)点击“短时傅立叶变换”菜单项,观察SFT系数Xn(ejωk)和各时段|Xn(ejωk)|短时幅度谱。(2)选取较短的窗长,在SFT谱值表中记录完整的一帧数据,同时拷贝下相对应的短时幅度谱图形。分析说明:短时谱的横、纵坐标分别代表什么。短时频谱与短时幅度谱的异同。根据所选时段、窗型和窗长,在SFT谱值表中任取一个短时谱谱值,确定其所分析的信号时段(秒)和频段(赫兹)。(3)选取信号的单频正弦区间,改变窗长,观察并拷贝所显示的2-3个不同短时幅度谱图;注意窗长改变时,短时幅度谱对该单频波的频率分析区间宽度和幅度谱分布规律有何变化,从而理解频率分辨率概念,就此说明窗长改变对频率分辨率的影响。3、线性预测(1)点击“线性预测”菜单项,改变