语音声纹识别技术及应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

语音声纹识别技术及应用语音声纹识别技术及应用主要内容声音处理技术语音识别技术声纹识别技术技术演示2语音声纹识别技术及应用声音处理●声音的三要素●音质声音的三要素是音调、音色和音强音调代表声音的高低,与频率有关。频率越高,音调越高,反之亦然。音色是声音的特色。影响声音特色的主要因素是复音,即具有不同频率和不同振幅的混合声音。音强是声音的强度,也被称为声音的强度。音强与声波的振幅成正比,振幅越大,强度越大。对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。音质与声音还原设备有关。音质与信号噪声比(SNR)有关。语音声纹识别技术及应用●文件数字化的音频文件主要分为4类:波形音频文件。一种最直接的表达声波的数字形式,文件扩展名是“.wav”。MIDI音频文件。一种计算机数字音乐接口生成的数字描述音频文件,扩展名是“.mid”。CD-DA音频文件。标准激光盘文件,扩展名是“.cda”。压缩音频文件。在数字音频领域,一种MP3格式的压缩音频文件很流行,该格式的文件简称MP3文件。声音处理语音声纹识别技术及应用声音处理获取声音●获得CD中的声音●录音●声音转换如果希望把音乐CD中的歌曲或乐曲作为素材,需要把这些歌曲或乐曲转换成计算机能够处理的数字化声音,这就是“采样”。可以使用EasyCD-DAExtractor、CoolEdit等音频处理软件对音频进行编辑和处理。要录制音质好的声音,有两个途径:使用性能优良的录音设备;采用较高的采样频率。可以使用Windows系统自带的“录音机”进行录音。声音的转换只能从高质量向低质量进行,声音的转换不需要专门的软件,使用Windows的“录音机”转换即可,并且转换功能很强。如果要进一步处理,可采用CoolEdit(AdobeAudition)工具软件。语音声纹识别技术及应用短时能量和过零率语音分帧每帧10-30ms,帧间隔10ms短时能量•对数•平方和•绝对值过零率(ZCR)6NiixE12)(logNiixE12)(NiixE1)(11)1(sgn)(sgn21NnwwnsnsZ语音声纹识别技术及应用参数提取的预处理预加重:—减少尖锐噪声影响,提升高频部分加窗:Hamming—减少Gibbs效应710.91.0ynxnxn20.540.46cos01nwnnNN语音声纹识别技术及应用各种参数的比较LinearPredictionCepstrumCoefficients(LPCC)•假定所处理信号为自回归信号(不适用辅音);•计算简单,但抗噪性差。Mel-FrequencyCepstrumCoefficients(MFCC)•模拟人的听觉模型;•强调低频部分,屏蔽噪声影响;•识别率高,但计算量大。能量•辅助作用,需归一化。音调•对算法要求高,适于二次判别。8语音声纹识别技术及应用Mel-频率目的:模拟人耳对不同频率语音的感知人类对不同频率语音有不同的感知能力•1kHz以下,与频率成线性关系•1kHz以上,与频率成对数关系Mel频率定义•1Mel—1kHz音调感知程度的1/10009语音声纹识别技术及应用Mel-频率公式:频率-Mel-频率:1125ln1/700Bfff--频率B--Mel-频率Mel-频率频率(Hz)10语音声纹识别技术及应用MFCC计算流程:11DFT时域信号线性谱域Mel滤波器组LogDCTMel谱域对数谱域MFCC语音声纹识别技术及应用主要内容声音处理技术语音识别技术声纹识别技术技术演示12语音声纹识别技术及应用语音识别AutomaticSpeechRecognition(ASR)的中文含意是自动语音识别。语音识别技术的目标是让机器能够“听懂”不同人说的话,实现从声音到文字的转换。13语音声纹识别技术及应用语音识别—基本术语特定人和非特定人(话者相关或话者无关)词汇量(大,小)孤立词,连接词,关键词和连续语音自然发音和朗读发音口音(方言)背景噪音(环境噪音)信道差异(固定电话,麦克,手机等)声学模型(HMM,mono-phone,bi-phone,tri-phone)声学特征(MFCC)解码(Viterbi)14语音声纹识别技术及应用语音识别—基本术语识别指标:•SER(SentenceErrorRate,句子错误率)•WER(WordErrorRate,词错误率)•CER(CharacterErrorRate,字错误率)•PER(PhoneErrorRate,音节错误率)采样率,8kHz(电话或手机),16kHz(麦克风)时域,频域端点检测,静音检测或有效音检测(VAD)15语音声纹识别技术及应用语音识别—分类孤立词识别识别单元是有限的,单个的词;优点:速度快,识别正确率高缺点:应用范围窄,不能识别词表外的词应用案例:语音命令,手机语音拨号连续语音识别识别单元可以是字,词或者句子优点:应用范围广缺点:速度慢,识别率不高,尤其是词表较大的时候应用案例:语音翻译,语音短信,听写机,语音邮件关键词识别识别单元是词,判断输入语音中是否含有词表中的词优点:能够处理连续语音,词表可定制缺点:速度较慢,词表越大,错误率越多应用案例:电话呼叫服务,电话安全监听16语音声纹识别技术及应用语音识别发展历史50年代-AT&TBellLab,可识别10个英文数字60年代-LP较好地解决了语音信号产生模型,DP则有效解决了不等长语音的匹配问题。70年代-DTW(DynamicTimeWarp)技术基本成熟,实现了基于LPC和DTW技术相结合的特定人孤立词语音识别系统。80年代-HMM模型和人工神经元网络(ANN)在语音识别中成功应用。1988年美国CMU大学基于VQ/HMM开发SI-CSR系统SPHINX。90年代-大规模应用,工业标准,理论进展缓慢。17语音声纹识别技术及应用语音识别—潜在应用语音监听语音拨号语音命令语音导航语音搜索语音听写语音翻译18语音声纹识别技术及应用语音识别系统框架19特征提取训练模式匹配拒识语法模型结果语音说话人自适应语音声纹识别技术及应用语音识别过程20语音声纹识别技术及应用HMM基础(1)隐含Markov模型观测可见,状态隐含基本要素N---模型状态数π={πi}---初始概率分布A={aij}---状态转移矩阵B={bj(k)}---输出概率矩阵21o1o2o3o4…………toTS1S2S3S4a11a22a33a44a12a23a34语音声纹识别技术及应用HMM基础(2)转移概率矩阵aij-状态i到状态j发生跳转的概率2211122223333444000000000aaaaAaaa语音声纹识别技术及应用HMM基础(3)输出概率bi(x)x属于状态i的概率23S1S2S3S4a11a22a33a44a12a23a34b1(.)b2(.)b3(.)b4(.)语音声纹识别技术及应用HMM基础(4)HMM的三个基本问题-模型评估问题(如何求:P(O|λ))-最佳路径问题(如何求:Q=q1q2…qT)-模型训练问题(如何求:A、B、π)24语音声纹识别技术及应用模型评估问题(如何求:P(O|λ))前向概率给定HMM参数,在t时刻处于状态i,部分观察序列为{o1o2…ot}的概率后向概率给定HMM参数,在t时刻处于状态i,部分观察序列为{ot+1ot+2…oT}的概率25|,21iqoooPittt|,21iqoooPitTttt语音声纹识别技术及应用模型评估问题(如何求:P(O|λ))前向和后向递推的示意图26语音声纹识别技术及应用最佳路径问题(如何求:Q=q1q2…qT)前向-后向算法的缺点•计算量的浪费•状态路径不能明确判定Viterbi算法•不完全的状态空间搜索•保留状态转移路径的信息27语音声纹识别技术及应用最佳路径问题(如何求:Q=q1q2…qT)Viterbi算法的搜索空间28―时间――状态―语音声纹识别技术及应用Viterbi识别算法和路径回溯29语音声纹识别技术及应用模型训练问题(如何求:A、B、π)优化问题优化目标:P(O|λ)最大Lagrange数乘法,辅助函数:30语音声纹识别技术及应用Baum-Welch参数重估算法:31模型训练问题(如何求:A、B、π)语音声纹识别技术及应用连续HMM算法连续的含义参数重估识别算法32语音声纹识别技术及应用“连续”的含义连续混合高斯概率密度函数(pdf):•每个状态表示为若干函数fn(x)的线性组合•fn(x)是连续高斯概率密度函数33S1S2S3S4a11a22a33a44a12a23a34b1(.)b2(.)b3(.)b4(.)MljljljljUoNcob1,,语音声纹识别技术及应用连续HMM参数重估(1)需要重估的参数:•起始概率•转移概率•各状态中不同pdf的权•各状态中不同pdf的均值和方差34语音声纹识别技术及应用连续HMM参数重估(2)t时刻序列处于状态j、混合高斯密度l的概率35语音声纹识别技术及应用连续HMM参数重估(3)pdf的无溢出参数重估公式36语音声纹识别技术及应用识别算法概率计算:P(O|λ)Viterbi算法•对数形式•与离散HMM相似,只需替换bjl(x)37语音声纹识别技术及应用实际HMM系统的具体问题起始概率的问题转移概率的问题模型的自适应区别性训练38语音声纹识别技术及应用起始概率的问题自左向右结构的HMM,起始概率为:[1,0,0,…0]即:只能从第一个状态开始39语音声纹识别技术及应用转移概率的问题大量实验证明:转移概率对识别性能的影响是微不足道的训练过程中,常常将其设定为常数:aij=0.5识别过程中,不进行log(aij)的累加仅考虑bi(.)的作用40语音声纹识别技术及应用模型的自适应(1)自适应的必要性•口音•感冒...MAP自适应算法•MAP:最大后验概率准则•本质上是重新训练一次,对原B矩阵进行微调•特点:简单,对每个HMM单独自适应,只需一次发音41语音声纹识别技术及应用模型的自适应(2)MLLR算法•MLLR:最大似然线性回归•本质:将原模型的参数进行线性变换后再进行识别•特点:少量语音可以对所有模型进行自适应,只要得到线性变换矩阵即可42语音声纹识别技术及应用区别性训练传统HMM训练算法的缺陷MCE算法•MCE:最小分类误差准则•使用场合:小词表识别系统•需要细致调整算法参数,才能保证收敛43语音声纹识别技术及应用中文语音识别的特点相对于西方语言来说,中文有自己的独特之处。中文是有调语言,发音的基本单元是声母和韵母并且以音节为自然单位,一个音节就是一个字甚至词,以至字词的时长很短,混淆度更大。另外,中文用415个基本的无调音节来构成7000多个基本汉字的发音,多音字很多。特别是,中文的发音和字是独立的,仅仅是中国大陆地区就有很多的方言,口音问题非常严重。特别是在做中文孤立词和短语命令识别的时候,由于没有上下文的信息并且语音的长度很短,口音会严重地降低识别率。44语音声纹识别技术及应用中文语音建模基元比较45建模基元模型数目可训练性稳定性应用情况音节约400个一般好较普遍声韵母约60个较好较好很普遍音素约40个好一般较少语音声纹识别技术及应用语音识别应用举例嵌入式语音识别:智能玩具:语音对话娃娃、语音声控机器人智能家电:语音识别台灯、语音识别插座智能手机:语音拨号电话语音识别:语音电话簿:电信增值智能语音总机:企业应用46语音声纹识别技术及应用嵌入式语音识别语音样本特征提取(14LPCC)训练(矢量聚类)N模板(M码字/码本)矢量量化(VQ)HMM识别预处理47语音声纹识别技术及应用智能玩具—语音对话娃娃序号问句应答句1你好3条2你叫什么名字?3条3你从哪里来

1 / 75
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功