北邮郭军web搜索第四章

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

Web搜索郭军北京邮电大学第4章音频检索声学特征提取HMM模型连续语音识别系统语音关键词发现技术语音词汇检测技术非语音音频检索音乐检索音频检索的策略音频检索起步较晚,但目前已经成为一个新热点语音类音频检索的一个自然策略是语音识别文本检索全文的转换或关键词的转换直接基于声学特征进行检索的策略越来越受到重视音频检索也有两种基本模式基于示例/基于查询词音频检索的困难音频信号种类繁多,环境噪声差异性大声学特征提取音频信号常具有高度的时变性,只有在一个较短的时间段内才可视为平稳的分帧操作:语音信号,一般以20ms左右为一帧为去除边界效应,相邻帧要相互重叠,常用的比例是1/2时域特征第n帧信号的短时能量第n帧信号的短时平均幅度第n帧信号的短时过零率211NnniESiN11NnniMSiN11sgn[]sgn[1]2NnnniZSiSiN频域特征—LPC参数频域上的语音谱S(z)是激励谱E(z)通过传递函数为V(z)的线性系统后产生的输出语音信号产生模型把实际声道近似为P段不同截面积的短声管的串联,采用全极点模型1()()/()/(1)PiiiVzSzEzGaz将上式右侧第二项看作s(n)的线性预测值s‘(n),将Ge(n)看作误差项,则声道参数ai可以通过求解线性预测参数的最小均方误差准则求得1()()()PiisnGenasni转换到时域,语音信号s(n)和激励信号e(n)之间的关系为预加重分帧、加窗DFT/FFTMel频率滤波器组Log对数能量DCT求倒谱x(n)X(k)S(m)c(n)s(n)Mel倒谱系数MFCC人耳对临界带宽内的音调具有掩蔽效应当两个频率相近的音调同时发出时只能听到一个音调MFCC的提取过程通过Mel频率滤波器组得到信号的Mel频率120()ln(|()|())NmkSmXkHkˆ()()(1)snsnsn20.540.46cos01()10HnnNwnNotherwiseHMM模型Markov模型可用离散时域有限状态机FSM描述FSM有N种状态,用1~N表示,在时刻t所处的状态用qt表示每个状态下可能的输出值的为O={o1,…,oM}FSM初始化时可位于N个状态中的任何一个,其初始状态分布为πi=P(q1=i),i=1,…,NFSM在当前状态以某种概率向任意的状态跳转,状态转移概率矩阵用A表示,A={aij}如果在任意时刻t,外界都看不到FSM的内部状态qt,只能得到一个观测值ot,而ot与qt之间的关系可用条件概率P(ot|qt=j)来描述,则称此Markov模型HMMHMM的描述HMM可用符号λ={A,B,π}来描述A为状态转移概率矩阵A={aij}N×NB为观测值概率矩阵B={bj(ot)}N×Tπ为初始状态分布π={πi}前向HMM的示意图HMM的三个基本问题识别问题对于给定的观测序列O=(o1,…,oT)和模型λ={A,B,π},计算由λ产生O的概率P(O|λ),常用前向和后向算法译码问题对于给定的O和λ,求λ对应于O的最佳状态序列Q*,即寻找使P(O|λ)达到最大时,O所对应的状态序列,一般采用Viterbi算法求解训练问题对于给定的O,如何获得产生O的概率最大的模型λ,一般采用Baum-Welch算法求解HMM的基本问题的经典算法识别问题前向、后向算法:从入口状态或出口状态开始递推的方法。两种算法可以单独使用,也可结合使用译码问题Viterbi算法:基于动态规划的方法搜索HMM模型中对应观测序列O的可能性最大的状态序列X*训练问题Baum-Welch算法是一种广义的EM算法,利用R个观测序列迭代估计HMM的参数λ基于HMM的语音识别统一框架大词汇量连续语音识别系统声学模型声学模型基于HMM建立,有DHMM和CHMMDHMM的观测值是离散的,基于一套码本来表示离散概率分布,优点为存储量、计算量、所需训练语音都较少CHMM的观测值是连续的,采用连续概率密度函数来刻画观测值的概率分布,有利于提高系统的识别性能建立声学模型的目的是提供根据声学单元模型计算观测特征向量似然值的方法声学单元大小对系统复杂度和识别率会产生很大的影响制约声学单元选择的因素:词汇量、计算及存储复杂度、所需的训练数据量、单元在语音流中的稳定性等大词汇量连续语音识别一般选择音子作为声学单元汉语往往采用扩展声韵母语言模型通过引入语言内在的规律可以对候选词序列进行有效的决策,并且可以减少搜索空间,提高搜索效率语言规律通过语言模型描述基于规则和基于统计两类模型语音识别系统常采用N-gram统计语言模型1111|nnkkkNkPWPWW最常用的是1-gram、2-gram和3-gram模型的精度与训练数据的稀疏度之间有矛盾解码器在状态图中搜索最佳路径是一个运算量很大的工作设词汇表容量为V,句子的最大长度为R,则系统状态图的分支数为VR量级最佳的词序列搜索利用解码器完成深度优先搜索,如A*搜索广度优先搜索,如Viterbi搜索为了提高效率和精度,可采用多遍搜索策略声学模型和语言模型由简到繁语音关键词发现(SKS)技术最初用在人机口语对话系统,现开始在音频检索中应用自底向上法:先将语音识别为一串串音素,然后再检测音素串中是否包含关键词自顶向下法:以关键词的声学模型为基础进行检测基于垃圾(fillerorgarbage)模型的关键词发现垃圾模型的建立理想的垃圾模型应有足够的能力匹配所有非关键词的语音特征,同时与关键词模型之间有足够远的距离垃圾模型的实现有显式和在线两种方法显式垃圾模型有子词垃圾和集外垃圾两种实现方法子词垃圾方法:Filler与Keyword共享一套子词模型,Keyword是子词的串接,Filler也是子词的串接集外垃圾方法为Filler建立专门的声学模型,与Keyword的声学模型相独立在线垃圾模型将每个语音帧与所有关键词模型匹配最佳的N个单元的平均分作为该帧的在线垃圾模型得分,来衡量该帧是否与某个关键词模型匹配一个侧重确认的SKS系统以基于HMM的连续语音识别技术为核心采用I型搜索网络高性能的检出关键词确认声学模型以扩展的声韵母单元为识别单元搜索网络权值的设定减小垃圾模型组的权重/加大关键词模型组的权重关键词KWi的权重设为()iiwClengthKW基于似然比的检出关键词确认假设检验:假定某段语音特征向量O被识别成某个词W原假设H0:O的识别结果为W备择假设H1:O的识别结果为非W则两个假设成立的概率对数似然比01(|)(|)lnln(|)(|)POHPOWLRPOHPOW当LR大于阈值t时选择H0,否则选择H1词是由子词串接而成时,可将LR的计算下移到子词层,子词层的似然比可以表示为(λ为目标子词对应的HMM)(|)ln(|)POLRPO反词概率密度的建模(1/2)训练显式反词模型把反词模型分为两部分(|)(|)(1)(|)bgimPOcPOcPO称为背景模型,用所有的训练样本生成称为冒充模型,用来对混淆音建模。利用与目标子词最容易混淆的前N个子词的样本训练得到。imbg采用最小确认错误MVE训练算法,利用广义概率下降原则求取使确认函数最优的参数值反词概率密度的建模(2/2)利用目标模型外的其它模型构造反词模型假定模型空间中除目标模型λ之外的其它模型为{λi}简单的方法是在{λi}中找一个得分最高的模型与目标模型比较,获得目标模型的得分0()ln(|)maxln(|)iiVOPOPO这相当于用1-Best竞争模型表示反词模型。如果取前M个竞争模型的平均,则:111()ln(|)ln(|)MiiVOPOPOM一个通用的计算公式是:21ln[(|)]1(1)ln[(|)]lniNPOiVOPOeN语音词汇检测STDSKS事先确定目标词的集合STD每次要检测的词是可变的STD系统一般由索引器和搜索器组成索引器利用语音识别事先对语音文档中包含的集内词及集外词音素串建立索引搜索器根据用户的查询词对索引进行访问索引词是语音识别系统的词汇集中的词加上集外词音素串所能生成的词查询词是用户所关心的任意词2006年NIST组织了第一次STD评测,引起了广泛的关注基于Lattice建立索引的方法被多家采用Lattice与混淆网络Lattice:用“网格”的形式保留统一HMM搜索空间中各种可能的路径,节点对应声学层、词层或句法层的HMM,弧对应前一个节点的概率得分混淆网络:将Lattice中不同长度的词序列进行时间对齐,将Lattice简化为一种线性结构混淆网络的生成算法及定义1:在Lattice上利用前向-后向算法计算弧的后验概率2:剪枝:剪去后验概率小于指定阈值的弧3:词内聚类:合并对应同一个词的弧,并对它们的后验概率求和4:词间聚类:将那些竞争相同时间段并且具有类似语音学特性的词组成一组,不同的时间段形成不同的组,形成一个个混淆集混淆网络的格式定义alignsliceIDword1posterior1word2posterior2...infosliceIDword1starttimedurationascoregscorephonesphonedurs基于音节混淆网络的STD系统STD的索引建立利用语音识别完成语音-文本转换STT,生成音节Lattice将Lattice转化为音节混淆网络基于音节混淆网络建立音节索引通过重叠的N-gram音节语法建立前向索引将前向索引倒排,获得反向索引前向索引例(1~3元模型)tianPr:1Starttime:0.40Endtime:0.52SliceID:4tiancanPr:0.7Starttime:0.40Endtime:0.63SliceID:45tiansanPr:0.8Starttime:0.40Endtime:0.63SliceID:45tiancanxiePr:0.85Starttime:0.40Endtime:0.74SliceID:456tiancanyePr:0.95Starttime:0.40Endtime:0.74SliceID:456tiancanbiePr:0.80Starttime:0.40Endtime:0.74SliceID:456canPr:0.4Starttime:0.52Endtime:0.63SliceID:5canxiePr:0.35Starttime:0.52Endtime:0.74SliceID:56……反向索引及检索将所有语音文件的前向索引按照音节串ID和置信度大小排序就可构成用于检索的音节串的反向索引两个反向索引I:WordIDPrStarttimeEndtimeSliceIDII:SliceIDWordID-Ptr索引I是词反向索引索引II是混淆集反向索引检索音节串时两个索引交替使用例如搜索“八达岭长城(badalingchangcheng)”时用“badaling”搜索索引I,根据返回结果得到结束SliceID序号将该SliceID加1后搜索索引II,得到一个指向的索引I的入口WordID-Ptr,看从中是否可查到“changcheng”非语音音频检索非语音音频,如音乐、鸟鸣、狗叫、虎啸、马达声等无法通过语音识别的方法进行文本标注其检索问题需要采取与语音检索不同的技术来解决,可用机器学习的方法建立声学模型与语义模型之间的联系相关的研究主要有音频分类、音频检索以及图像视频检索音频分类研究重点分类的性能主要取决于声学特征的选取MFCC比LPC更有效音频检索研究重点QBE:哼唱查询(QuerybyHummi

1 / 54
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功