声纹识别11120374刘宣缇11120526石雪娜11120527唐子淑声纹识别1、概述2、声纹识别系统3、特征提取4、模式匹配5、应用和发展前景简介声纹识别(VPR),生物识别技术的一种,也称为说话人识别,是从说话人发出的语音信号中提取声纹信息。声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。原理:人在讲话时使用的发声器官在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。分类(按任务)(1)说话人辨认(SpeakerIdentification)(2)说话人确认(SpeakerVerification)。前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。缩小刑侦范围银行交易声纹识别分类分类(按类型)(1)文本相关的(Text-Dependent)(2)文本无关的(Text-Independent)文本有关的声纹识别系统要求用户按照规定的内容发音,每个人的声纹模型逐个被精确地建立,而识别时也必须按规定的内容发音,因此可以达到较好的识别效果,但系统需要用户配合。文本无关的声纹识别系统则不规定说话人的发音内容,模型建立相对困难,但用户使用方便,可应用范围较宽。声纹识别系统声纹识别系统的工作过程一般可以分为两个过程:训练过程和识别过程。无论训练还是识别,都需要首先对输入的原始语音信号进行预处理。声纹识别系统框图识别结果训练识别训练还是识别建立模型声学模型模式匹配特征提取语音信号预处理采样、量化、预加重和加窗等处理声纹识别——特征提取特征提取是把一帧原始语音信号转化为N维的特征矢量,运算步骤如下:语音信号加窗(如海明窗)计算频谱(FFT)MEL分段(三角滤波)对数变换log()余弦反变换cos()特征提取过程(Processoffeatureextraction)语音信号加窗(如海明窗)计算频谱(FFT)MEL分段(三角滤波)对数变换log()余弦反变换cos()语音信号加窗(如海明窗)计算频谱(FFT)MEL分段(三角滤波)对数变换log()余弦反变换cos()语音信号加窗(如海明窗)计算频谱(FFT)MEL分段(三角滤波)对数变换log()余弦反变换cos()语音信号加窗(如海明窗)计算频谱(FFT)MEL分段(三角滤波)对数变换log()离散余弦变换DCT声纹识别——建立声学模型VQ矢量量化矢量量化是把所有矢量(设为M个)进行归类,设矢量Xi(i=0~M-1)到距离最近的矢量中心Yj(j=0~N-1)的量化误差为则量化M个矢量的平均量化误差为通过LBG聚类算法找出能使D达到最小的矢量中心集合。这个集合构成了一套码本,它是M个矢量在N维空间最佳分布的体现,即说话人发音的声学特征的体现。所有说话人码本的集合构成声学模型。10id Nkjkikyx1-M0iM1Did声纹识别——模式匹配模式匹配识别判断的目的:获取表现说话人个性的特征参数的基础上,将待识别的特征参数模板或模型与训练学习时得到的模板或模型库作相似性匹配,得到特征模式之间的相似性距离度量,并选取适当的距离度量作为门限值,从而识别判断出可能结果中最好的结果。声纹识别——模式匹配在模式匹配中常用的方法有:(1)模板匹配方法:主要用于固定词组的应用(通常为文本相关任务);(2)最近邻方法:训练时保留所有特征矢量,识别时对每个矢量都找到训练矢量中最近的K个,据此进行识别,通常模型存储和相似计算的量都很大;(3)神经网络方法;(4)隐式马尔可夫模型(HMM)方法:通常使用单状态的HMM,或高斯混合模型(GMM),是比较流行的方法,效果比较好;(5)VQ聚类方法(如LBG):效果比较好,算法复杂度也不高;(6)多项式分类器方法:有较高的精度,但模型存储和计算量都比较大;语音识别与声纹识别(1)前者考虑的是语言的内容,而后者则更注重声音特征;(2)前者目的是让机器听懂人说的话并能将其转换成文本,后者目的则是让机器自动识别说话人身份。语音识别的特征提取是从语音波形中提取重要的反映语音特征的相关信息,但一定要去掉说话人的特征。而声纹识别则是要提取语音信号中表征人的基本特征。生物识别技术比较错误接受率错误拒绝率容易实用性处理速度/人指纹识别很低较低好2s-5s掌纹识别低5%使用困难5s-10s人脸识别低0.2%非常好≤5s虹膜识别很低约10%需要培训才能使用,手工操作对虹膜有困难仪器自动对准虹膜需要3s-5s,手工操作需要5s-25s视网膜识别未知未知不好15s-30s声纹识别低低可以1s-3s签名识别低10%一般5s-10s声纹识别特性:声纹识别除具有不会遗失和忘记、不需记忆、使用方便等优点外,还具有以下特性:第一,声纹识别是一种非接触的识别技术,用户接受程度高,由于不涉及隐私问题,用户无任何心理障碍。第二。用语音进行身份识别可能是最自然和最经济的方法之一,一个麦克风即可,而其他生物识别技术的输入设备往往造价昂贵。第三,适合远程身份确认,通过网路(通讯网络或互联网络)实现远程登录;第四,声纹辨认和确认的算法复杂度低;第五,在基于电信网络的身份识别应用中,具有独特的优势。声纹识别当然,声纹识别有一些缺点:同一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响;不同的麦克风和信道对识别性能有影响;比如环境噪音对识别有干扰;混合说话人的情形下人的声纹特征不易提取;声纹识别应用声纹识别产品的市场占有率为15.8%,仅次于指纹识别和掌形识别。(1)信息领域(2)电话交易(3)在保安系统以及证件防伪中的应用(4)公安司法声纹识别—应用产品USBVoiceKey声纹证件公安系统银行系统电话网络无线互联网互联网电话网络无线互联网互联网信息中心及网络得意语音与语言技术服务器端系统得意语音与语言技术客户端系统(唐)3.wav(刘)4.wav文本=北京交通大学文本=模式识别(唐)1.wav(刘)2.wav实验结果展示