语音处理与语音识别简介

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1语音处理与语音识别简介2014年9月2主要内容•数字音频基础知识•音频处理基础知识•语音识别技术简介3主要内容•数字音频基础知识•音频处理基础知识•语音识别技术简介4●是指自然声●是机械振动在弹性介质中传播的机械波●是随时间连续变化的物理量●声音概念●振幅—波的高低幅度,表示声音的强弱●周期—两个相邻波之间的时间长度●频率—每秒钟波振动的次数,单位是Hz●声音特性5声音的强度(响度或音量),与声波振幅成正比;唱盘、CD盘等声音载体中的音强不变,通过播放设备的音量控制可改变聆听时强度;音频处理软件可提高声源音强声音的特色,主要影响因素是复音;复音指具有不同频率和不同振幅的混合声音,其中最低频率是“基音”,是声音的基调,其他频率的声音为“谐音(泛音)”代表声音的高低,与频率有关;使用音频处理软件对声音的频率进行调整时,其音调也会随之发生变化●声音的三要素●音调——(高低)●音强——(强弱)●音色——(特质)6●声音的频率范围7数字音频声音是振动的机械波,话筒把机械振动转换成电信号,用随时间连续变化的物理量表示,称之为模拟音频。在计算机内部,所有的信息均以数字表示,代表声音信号的物理量也用一系列数字表示,称之为数字音频。模拟音频在时间上是连续的,而数字音频则是一个数据序列,在时间上不具备连续性,因此只能是断续的。当把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音波形上取一个电压幅度值,称之为采样。采样得到的表示声音强弱的模拟电压幅值是连续的,把无穷多个电压幅值用有限个数字表示,称之为量化。8●采样采样过程按固定间隔采样声音波形采样声音波形之后的结果声波是连续信号,或称连续时间函数x(t)。用计算机处理这些信号时应先离散化,即按一定的时间间隔(T)取值,得到x(nT)(n为整数),T称采样周期,1/T称采样频率(每秒钟采样次数),x(nT)称采样值(或离散信号)采样概念9设连续信号x(t)的频谱为x(f),以采样间隔T采样得到离散信号x(nT)如果满足:当|f|≥fc(fc是信号高端截止频率)时,有T≤1/(2fc)或fc≤1/(2T)则可由x(nT)完全确定x(t)。当fN=1/(2T)时,称fN为奈奎斯特频率采样定理奈奎斯特(Nyqust)采样定理:只要采样频率大于或者等于信号中所包含的最高频率的两倍;即当信号是最高频率时,每个周期至少采样两个点,则理论上就可以完全恢复原来的信号。●采样采样方法语音信号频谱在高频处迅速下降,但非限带。应用时只对一定频率范围内的信号感兴趣,就可以对经滤波限带的音频信号采样。这样,在采样前,用一个锐截止模拟低通滤波器对音频信号进行滤波。10●量化通过采样得到的表示声音强弱的函数x(nT)是连续的,为把x(nT)存入计算机,就必须将采样值离散化,即量化成一个有限个幅度值的集合x(nT)量化概念量化原理先将整个幅度划分成为有限个小幅度(量化阶距)的集合,把落入某个阶距内的样值归为一类,并赋予相同的量化值。如果量化值是均匀分布的,称为均匀量化。设为量化阶距,量化器最大范围是Xmax,则:=2Xmax/2B量化电压幅值之后的结果11●编码音频模拟信号经过采样与量化之后,为把数字化音频存入计算机,需对其编码,即用二进制数表示每个采样的量化值,完成整个模数转换过程编码概念PCM编码一种最方便简单的编码方法是脉冲编码调制,常称为PCM(PulseCodeModulation)编码。是一种未经压缩的数字音频信号,常作为一种参考信号,以便其他编码方法与之比较,或者在此基础上作进一步压缩编码处理12衡量一种编码方法的性能有两个主要指标:码流速率和量化噪声码流速率指的是音频信号编码后每秒钟产生的数据流量,以kbit/s为单位表示,也可以表示为kbps。例如对普通模拟话音用8kHz的频率采样并以8位量化和编码,所形成的音频数字信号的码率便是64kbps。量化噪声是由量化失真引起的噪声,通常表示为量化后的音频信号噪声比,简称信噪比。每增加1位量化精度,信噪比即提高6db。例如在高保真音响系统中,要求信噪比大于90db,则量化精度必须在16位以上。●编码13声道(SoundChannel)是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。单声道(mono):只有一个声道。普通的单声道录放系统使用一只话筒录音,信号录在一条轨迹上,放音时使用一路放大器和一只扬声器,所以重放出来的声音是一个点声源。●声道立体声(stereo):有两个声道。在录制声音时,在不同的位置用两只话筒进行录音,而在重放时则使用两路独立的放大器和两个扬声器,从而使听者可以较准确地判断出录音中不同音源的准确位置。1415WAV为微软公司(Microsoft)开发的一种声音文件格式非压缩,直接存储(采样、量化、PCM编码后的)原始数据;如果采样率高,其音质极佳;数据量大,与采样频率、量化位数、声道数成正比。●波形音频文件(WAV)数字音频文件格式1617●WindowsPCMWAV文件头格式偏移地址大小字节数据块类型内容00H~03H44字符资源交换文件标志(RIFF)04H~07H4长整数从下个地址开始到文件尾的总字节数08H~0BH44字符WAV文件标志(WAVE)0CH~0FH44字符波形格式标志(fmt),最后一位空格。10H~13H4整数过滤字节(一般为00000010H)14H~15H2整数格式种类(值为1时,表示数据为线性PCM编码)16H~17H2整数通道数,单声道为1,双声道为218H~1BH4长整数采样频率1CH~1FH4长整数波形数据传输速率(每秒平均字节数)20H~21H2整数DATA数据块长度,字节。22H~23H2整数PCM位宽24H~27H44字符数据标志符(data)28H~2BH4长整型DATA总数据长度字节18●WindowsPCMWAV文件头格式19主要内容•数字音频基础知识•音频处理基础知识•语音识别技术简介20在音频信息处理领域,特征提取是一个非常重要的问题。特征提取的任务:从原始输入的原始音频信号中提取既能表征不同音频内容的声学差异,又能表征相同音频内容不同样本之间的声学相似性的信息,同时减少原始信号的信息冗余。●音频特征提取21时域音频信号是非平稳信号,难以处理。但它在一个很小的时段内具有相对的稳定性。因此在对其进行分析时,可以假定语音信号在一个时间帧(frame)内是平稳的。通常一帧在10~30ms之间,视实际情况而定,而且分帧可连续,也可采用交叠分段的方法。●分帧10ms25ms10ms25ms22短时能量(STE:ShortTimeEnergy)是一帧的总能量短时能量说明了音频信号的强度,可用于静音的检测。例如,对于一个音频信号,如果这个音频信号中的某一个短时帧的平均能量值低于一个事先设定的阈值,则可判定该短时帧为静音。对于一段音频,以时间或帧为横坐标,短时能量值为纵坐标,可以画出一条曲线,我们将该曲线称为能量包络(EnergyEnvelop)曲线。●短时能量020log(())wSTEFwdw21niiSTEd1||niiSTEd23MFCC全称为美尔频标倒谱系统(Mel-FrequencyCepstralCoefficients),是语音处理中常用的特征。MFCC正是利用三角滤波器组对傅立叶变换能量系数滤波而得,并且对其频域进行Mel尺度变换,以更符合人类的听觉特征。●MFCC24主要内容•数字音频基础知识•音频处理基础知识•语音识别技术简介9/25/202025根据处理的语音数据和识别结果分类›连续语音识别(ContinuousSpeechRecognition)›孤立词识别(IsolateWordRecognition)›关键词检测(KeyWordRecognition,KeyWordSpotting)根据针对的发音人分类›特定人语音识别(SD:SpeakerDependent)›非特定人语音识别(SI:SpeakerIndependent)9/25/202026特征提取语言模型自适应第一遍识别声学模型前端处理第n遍识别语音识别结果识别结果系统框架9/25/202027前端处理›消除个体的影响声道长度归一(VTN:VocalTractLengthNormalization)›端点检测短时能量高阶谱算法子带能量›语音增强(去噪)维纳滤波9/25/202028FFT频谱LogDCT39维声学特征向量美标度三角滤波器组倒谱均值减9/25/202029声学模型›确定发音串›P(O|A)主流方法›CHMM›HMM的单元:三音子(Tri-Phone)注:Phone(Phoneme):音子,b,t,aSyllable:音节,ba,ti,taoBi-Phone:二音子,b-a-t-a,b-a-t-aTri-Phone:三音子w-o-sh-i-sh-u-i,w-o-sh-i-sh-u-i9/25/202030语言模型›已知发音串写出词串›P(S|LP)P(P|L)P(L|W)P(W|A)P(A)›其中,W是字串,A是读音串,L是词串,P是词性串,S是词义串主流方法›三元语法:n-gram9/25/202031搜索(解码)›识别的主要过程›通过搜索找到某一概率(P(W))最大化的字串W主流方法›Viterbi搜索:HMM内部›词网格搜索:HMM之间9/25/202032说话人自适应›根据新的语音重新调整模型参数›特定人和非特定人之间的一种折衷主流方法›MLLR(最大似然线性回归)对模型参数寻找一个最优线性变换y=Ax+b›MAP(最大后验概率)求使得后验概率最大的参数θ=maxθP(θ|x)9/25/202033声学模型›调整HMM参数›带噪声训练›方言库训练语言模型›计算N-gram概率›数据稀疏问题34谢谢!

1 / 34
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功