7.1概述7.2语音识别原理和识别系统的组成7.3孤立字(词)识别系统7.4连续语音识别系统7.5连续语音识别系统的性能测评语音识别(SpeechRecognition):主要指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容。从而根据其信息,执行人的各种意图。语音识别的应用:语音识别技术根据其属性,基本功能可归为两大类:根据人本身的声纹特征来进行身份认证。另一类是根据人发出特定的语音指令来进行命令控制。由此引出的应用市场基本可以包括这几个方面:桌面应用、嵌入式应用、电话系统、Web应用以及特殊应用领域等。如:桌面应用——即语音识别技术集成在PC机上的应用,不仅可以用语音识别来进行身份认证和编辑文本,而且可以通过听取和响应用户讲述的命令来运行程序并与操作系统实现交互。跨国IT巨头如微软已介入该领域,且可以充分利用其成熟产品的协同性来进行市场渗透,如WindowsXP、Vista及Office2007等都内嵌了语音识别功能,具有垄断优势。Siri是苹果公司在其产品iphone4S上应用的一项语音控制功能。Siri可以令iPhone4S变身为一台智能化机器人。实现一种人机互动Symbian版:2011-10-28更新,讯飞口讯1.0.1121版本发布,一款Symbian平台的语音写短信软件,语音输入短信收件人及内容,并支持短信自动朗读。iPhone版:2011-10-27更新,讯飞口讯1.0.1037版本发布,新增语音输入发布微博功能。Android版:2011-10-28更新,讯飞语音输入法2.0.1094版本发布,增加拼音整句输入功能,并优化部分细节问题。按识别对象分类孤立词:单字、单词或短语为发音单位,独立词条。要求输入每个词后要停顿。如:利用语音进行家电控制语音识别系统,开、关,提高音量等。连接词:十个数字连接而成的多位数字或连接词条。要求对每个词都清楚发音,一些连音现象开始出现。在电话、数据库查询和控制系统中用途广泛。目前,连续语音识别技术已渐趋成熟,是研究和实用系统的主流。连续语音:最自然的说话方式,是自然流利的连续语音输入,大量连音和变音出现。比较复杂、成本也高。语音理解:在识别的基础上,用语言学知识来推断语音的含义。会话系统:会话语言,不仅利用语法信息、而且要利用谈话话题、上下文文脉等对话环境的信息.按词汇量大小分类词汇量:小大小词汇:1-20个词汇,如利用语音进行电话拨号中词汇:20-1000个词汇,自动订飞机票大词汇:1000个以上,把口述的一篇报告转换成文本按说话人的范围分类说话人范围:小大单个特定讲话人:简单、识别率高,商品化的多属此种。有限多讲话人:通用性好、应用广、难度大,不易得到讲话者无关:高的识别率。模板匹配法训练阶段:用户将词汇表中的每一个词依次说一遍,并且将其特征矢量作为模板存入模板库识别阶段:将输入语音的特征矢量序列与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。由于语音信号有较大的随机性,即使是同一个人在不同时刻的同一句话发同的一个音,也不可能具有完全相同的时间长度,因此时间伸缩处理必不可少——板仓将动态规划算法的概念用于解决孤立词识别是说话速度不均匀的难题,提出著名的动态时间伸缩算法——动态时间规整算法(DTW)用DTW算法进行模板匹配,保证两模板间存在最大声学相似性。随机模型法:是目前语音识别主流的研究途径代表:隐马尔可夫模型(HMM):使用HMM的概率参数来对似然函数进行估计与判决,从而得到结果。语音信号可以看成是一种信号过程,在足够短的时间段上的信号特性近似于稳定,而总的过程可看成是依次从相对稳定的某一特性过渡到另一特性。HMM则用概率统计的方法来描述这样一种实变的过程,在该模型中,Markov链中的一个状态转移到另一状态取决于该状态的转移概率(状态生成概率)概率语法分析法:用于大长度范围的连续语音识别将“区别性特征”和形式语法约束的知识来对似然函数进行估计与判决。语音识别技术面临的困难及挑战连续语音中因素、音节或单词之间的调音结合引起的音变,使得基元模型边界不明确;建立一个理解语法和语义的规则或专家系统语音信息的变化很大语音具有模糊性单个字母及单个词语发音时语音特性受上下文影响环境的噪声和干扰对语音识别影响严重语音识别系统是建立在一定的硬件平台和操作系统之上的一套应用软件系统。语音识别系统本质上是一种模式识别系统.包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如图所示:识别一般分为两个步骤:第一步:系统的“学习”或“训练”阶段。主要是建立识别基本单元的声学模型以及文法分析的语言模型。第二步:“识别”和“测试”阶段。根据识别系统的类型选择能够满足要求的识别方法,采用语音分析方法分析出该方法的特征参数,按照一定的准则和测度与系统模型进行比较,通过判决得出识别结果。声音波形信号转化为电信号模拟信号采样、量化为数字信号区分语音段和非语音段抽取语音特征语音模型的训练核心部分语音识别的最终目的语法约束,语言模型语音信号预处理部分包括:语音信号的电压放大、反混叠滤波、自动增益控制、模/数变换等。1.话筒自适应和输入电平的设定输入语音信号的品质对语音识别性能的影响很大,对话筒的耐噪声性能要求很高。为了保持高精度的语音分析,A/D变换的电平必需正确的设定。同时还要通过自增益控制调整输入电平放大的倍数或者通过对于输入数据进行规整处理来控制语音数据幅度的变化。2.抗噪性环境噪声大的时候必须对输入信号进行降噪处理。平稳噪声:指强度波动较小的连续性噪声或重复频率较大的连续性脉冲。利用谱相减(SS)降噪技术非平稳噪声:指强度波动较大的连续性噪声。两个话筒分别输入语音和噪声相互抵消降噪。3.语音区间的端点检测(VAD)端点检测的目的是从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能够减少处理时间,而且能排除无声段的噪声干扰,提高系统的识别率。端点检测的成功与否在某种程度上直接决定了整个语音识别系统的成败。一个优秀的端点检测算法应能满足:①门限值应该可以对背景噪声的变化有一定的适应。②将短时冲击噪声和人的咂嘴等瞬时超过门限值的信号纳入无声段而不是有声段。③对于爆破音的静音段,应该将其纳入语音的范围而不是无声段。④应该尽可能的避免在检测中丢失鼻音和弱摩擦音等与噪声特性相似、短时参数较少的语音。⑤应该避免使用过零率作为判决标准而带来的负面影响。4.语音参数分析特征参数提取是语音识别的关键问题,特征参数选择的好坏直接影响到语音识别的精度。目的:抽取语音特征参数,以使语音识别时类内距离尽量小,类间距离尽量大。参数:平均能量、过零数或平均过零数、频谱、共振峰、倒谱、线性预测系数、PARCOR系数(偏自相关系数)、声道形状的尺寸函数,随机模型(HMM)的概率函数以及矢量量化的矢量等。识别参数可以选择某一种或几种的组合经过FFT变换或者LPC得到功率谱以后再经过对数变换和傅立叶反变换得到的倒谱参数是目前常用的语音识别特征参数。语音识别是语音识别系统的核心部分。包括语音的声学模型、语言模型的建立、识别方法、搜索算法等。1.语音模型语音识别系统的模型通常由声学模型和语言模型两部分组成。语音模型:一般指用于参数匹配的声学模型。目前,比较好的语音声学模型是HMM模型。语言模型:一般是指在匹配搜索时用于字词和路径约束的语言规则;音素(半)音节(字)词短语句子语音流日语、英语汉语(“声母——韵母”识别基元)识别基元小则系统复杂度小,但相应的正确识别率也小。系统复杂度和识别正确率是矛盾的。一般基元选择可以感觉实际用途而定。语言模型:指匹配搜索时用于字词和路径约束的语言规则,完成候选字词概率的计算,从而选择合适的字、词。2.连续语音的自动分段①连续语音的自动分段是指从语音信号流中自动地分割出识别基元的问题。②把连续的语音分割成对应于各音的区间叫做分割,分割的结果产生的区间叫做分割区间,给分割区间赋予表示音种的符号叫做符号化。③汉语的自动分段是指根据汉语特点及其参数的统计规律,设置某些参数的阈值,用计算机程序自动地进行分段,从而找出字的两个端点。④参数:帧平均能量、帧平均过零率、线性预测的第一个反射系数或其残差序列、音调值等。帧平均能量与En帧平均过零率Zn相结合是比较简单、快速的汉语自动分段方法。3.语音识别方法基于参数模型的隐马尔可夫模型(HMM)的方法;基于非参数模型的矢量量化(VQ)的方法;HMM和VQ主要用于大词汇量的识别系统,VQ相比与HMM在训练数据、训练与识别时间、工作存储空间都很小但是识别性能不如HMM好基于人工神经网络(ANN)的语音识别方法传统的基于动态时间伸缩的算法(DTW),在连续语音识别中仍然是主流方法。同时,在小词汇量、孤立字(词)识别系统中,也已有许多改进的DTW算法被提出。距离测度:距离测度是用一个函数计算两个模式间距离的大小,从而衡量样本间的相似性,然后根据若干准则和专家知识,判决出最好的结果作为识别结果。用于语音识别的距离测度有多种,如欧氏距离及其变形的欧氏距离测度、似然比测度、加权的识别测度等。判决准则一般是K平均邻近准则(K-NN)。4.计算量和存储量的削减在有限的硬件和软件资源下动作的语音识别系统,为了减少计算量和存储量,利用代表语音特征的中心值进行匹配。两者相悖时,有系统硬件构成、使用目的和价格决定。5.拒识别处理在实际语音识别系统中,对信赖度低的识别结果的拒绝处理,有助于提高系统对含有未知词或文法外发音的处理能力。6.识别结果确认、候补选择为了避免由于误识别而产生的误动作,可以让用户对识别结果进行确定,或者给用户提供一个识别结果的候选,让用户选择正确的结果7.用户设定针对多用户的情况,系统具有记忆和选择每个用户特定模型的功能。孤立字(词)识别系统:识别孤立发音的字或词。输入的语音单词之间有停顿,这样单词之间的协同发音的影响较小,单词的端点检测也比较容易。所以可以得到很高的识别率,已达到95%以上。常用的识别方法包括:①采用判别函数或准则的方法(经典的是贝叶斯准则)②日本学者板仓(Itakura)将动态规划(DP)算法的概念用于解决孤立词识别时的说话速度不均匀的难题,提出了著名的动态时间规整算法(DTW,DynamicTimeWarping)③矢量量化技术④HMM技术⑤人工神经网络⑥采用混合技术的方法。语音分析:预处理和语音特征参数提取。模式识别:将输入语音特征参数信息与训练时预存的参考模型(或模板)进行比较匹配。后处理:运用语言学知识或超音段信息对识别出的候选的字或词进行最后的判决(如汉语的声调知识的应用等)。孤立字识别的主要目标:词汇量的扩大、识别精度的提高、计算复杂度的降低max𝐿𝑋,𝑀𝑖模板对应的字作为识别结果11122,ln||lntiiiiiiLXMXXpMvv22212()11,(1)[()]ln2ln()mtiikiikikmpmkiiihLXMXXhhpMrrr当X的维数增加时,协方差矩阵的计算误差将增大,从而降低判别的性能基于实验确定的本征值2h鉴于语音信号具有相当大的随机性(同一个人在不同时刻所讲的同一句话,发的同一个音,也不可能具有完全相同的时间长度),在进行模型匹配时,降低识别率.采用对未知语音信号线性地伸长或缩短到与参考模板匹配的时间长度可以解决上述问题,但在大部分识别系统中不能有效地提高辨识率板仓将动态规划(DP)算法的概念用于解决孤立词识别时的说话速度不均匀的难题,提出了著名的动态时间伸缩算法。DTW是把时间规整和距离测量结合起来的一种非线性规整技术。设测试语音参数共有I帧矢量,参考模板共有J帧矢量,且I≠J,动态时间规整就是要寻找一个时间规整函数𝑗=𝜔(𝑖),且函数𝜔满足:得到的是两矢量匹配是累积距离最小的规整函数,这就保证了它们之间存在最大的声学相似特性。R(𝜔(𝑖))=R(j)=(𝑏1𝑏2⋯𝑏𝑘