声音模型的识别与建立

danilf
2 ℃
2020-01-03

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

12016长沙理工大学第二届研究生数学建模竞赛参赛承诺书我们仔细阅读了长沙理工大学研究生数学建模竞赛的竞赛规则.我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。我们知道，抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺，严格遵守竞赛规则，以保证竞赛的公正、公平性。如有违反竞赛规则的行为，我们将受到严肃处理。我们授权长沙理工大学研究生数学建模竞赛组委会，可将我们的论文以任何形式进行公开展示（包括进行网上公示，在书籍、期刊和其他媒体进行正式或非正式发表等）。我们参赛选择的题号是（从组委会提供的试题中选择一项填写）：我们的参赛报名号为（如果组委会设置报名号的话）：所属学校（请填写完整的全名）：参赛队员(打印并签名)：1.2.3.指导教师或指导教师组负责人(打印并签名)：日期：年月日评阅编号（由组委会评阅前进行编号）：22016长沙理工大学研究生数学建模竞赛编号专用页评阅编号（由组委会评阅前进行编号）：评阅记录（可供评阅时使用）：评阅人评分备注3声音识别模型的建立与评价摘要本文通过使用MATLAB软件对声音的时域和频域特征进行了提取，研究特征向量提取方法及SVM核函数和参数选取对识别结果的影响，分析特征提取算法的优缺点，以及不同核函数以及惩罚参数对识别性能的影响。通过使用支持向量机法建模，基本达到了区分正常声音与非正常声音的目的。最后提出用低通滤波滤除白噪声。关键词：特征向量，支持向量机，核函数，低通滤波，白噪声4从物理上讲，声音是由物体振动产生的一种波，并通过空气作用于人的耳鼓，使人们能够感知。声音的具有四种性质：1）音高：振动发出的声波有不同的频率，称为“音高”；2）强弱：声音的强弱是由振幅决定的，振幅是代表物体振动强度的特定单位，一般用分贝(dB)来表示。3）长短：一般把声音的发展过程分为四个阶段，分别是触发、衰减、保持和消失。这四个阶段称为“包络”，包络的发生时间，也就是一个声音的长短。4)音质：音质好的声音听起来悦耳，相反则让人不适。问题一利用matlab中的sound函数，播放出声音信号，试听并比较正常和非正常开门声音的差别，利用plot函数绘制出具体的声音波形图，总结差别在哪些方面？试听：我们使用sound函数播放声音样本。在仔细听了正常开门及非正常开门的声音后，发现了他们之间的差别：正常开门声音很短促，即声音的长短度短，且其强弱度相对较低。相反非正常开门声音持续时间长，强弱度高。画图：我们选取了三组正常开门及三组非正常开门的声音，使用plot函数画出声音波形图，如下图1所示：由图1可以看出正常开门的声音波形比较疏松，所以音调就低。非正常开门的声音波形比较密集，所以声调就高。我们还可以看出前者声波比较集中，而后者则比较散，即跨度大。这一点很好理解，正常用钥匙开门所需时间肯定比盗贼撬锁所需时间短，所以就造成了这种现象。程序源代码见附录一。5图1正常与非正常开门声音波形图问题二利用合适的时域或（和）频域特征表达个声音信号，建立特征向量，写出提取特征向量的具体方法和程序代码。首先，我们对两种样本求其均值。由于正常开门的第一组数据有人声干扰，故舍去。然后用plot函数画出声音波形图，如下图2所示：根据所分析的参数类型，语音信号分析可以分成时域分析和变换域(频域、倒谱域)分析。其中时域分析方法是最简单、最直观的方法，因为它直接对语音信号的时域波形进行分析。接下来我们先进行时域分析。6图2正常开门声与非正常开门声均值短时平均能量：定义n时刻某语音信号的短时平均能量En为：22(1)[()()][()()]nnmmnNExmnmxmnm（1）式中，N为窗长，可见短时能量为一帧样点值的平方和。一般我们认为声音在10-30ms之内是稳定的，取帧长也在10-30ms之内，而帧移通常取5-15ms之间，所以取N=55、95、125、165。如下图3、4为正常开门及非正常开门N取不同值时短时能量函数随帧数的变化曲线，其中横坐标为帧数。由图3、图4可以看出，N=55,N=95时的曲线不够平滑，而N=165的曲线又过于平滑，故选取N=125时的曲线。7图3正常开门声音的短时能量曲线图4非正常开门声音的短时能量曲线8通过观察短时能量曲线，可以看出正常开门时的能量比较集中且数值小，非正常开门时的能量比较分散且数值大。容易想到，这些现象与前面问题一的结论是相吻合的。短时平均过零率：短时平均过零率是指每帧内信号通过零值的次数。对有时间横轴的连续声音信号，可以观察到声音的时域波形通过横轴的情况。在离散时间声音信号情况下，如果相邻的采样具有不同的代数符号就称为发生了过零，因此可以计算过零的次数。|sgn[()]sgn[(1)]|()=|sgn[()sgn[(1)]*()nmZxmxmnmxnxnn（2）上式为短时平均过零率的公式，其中，sgn[]为符号函数，即1,()0sgn[()]1,()0xnxnxn（3）短时平均过零率曲线如下图5、图6所示：图5正常开门声音的短时平均过零率9图6非正常开门声音的短时平均过零率由图5、图6可以看出前者比后者的过零率要高。短时自相关函数：自相关函数用于衡量信号自身时间波形的相似性。对于声音来说，采用短时分析方法，可以定义短时自相关函数为：()()()()()nmRkxmnmxmknkm（4）短时自相关函数曲线如下图7、图8所示：10图7正常开门声音的自相关函数曲线图8非正常开门声音的自相关函数11频域特征：频域分析主要是对声音波形进行傅里叶变换，如下图9所示：图9声音波形的傅里叶变换由图9可以看出正常开门的对数幅度要比非正常开门的对数幅度小的多。程序源代码见附录二。问题三建立声音识别模型（二分类模型），利用模型区分正常和非正常声音，评价模型的好坏。问题三利用支持向量机构建二分类器对正常与非正常敲门进行分类预测。支持向量机是Cortes和Vapnik于1995年提出的，与传统分类器比较，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷，以期获得最好的推广能力。12图10支持向量机分类器结构图采集样本共有80组音频信号，从中选择60组数据做为训练数据训练网络，20组数据作为测试数据测试网络分类能力。下面是准备数据步骤：Step1:根据给定的数据，选定训练集和测试集；Step2:为训练集与测试集选定标签集；Step3:利用训练集进行训练分类器得到model；Step4:根据model，对测试集进行测试集得到accuracyrate；训练集：trainset();分别取正常开门与非正常开门数据的一半作为训练集；测试集：testset();分别取正常开门与非正常开门数据的另一半作为测试集；标签集：label();取bedroom的数据为正类标签为1；forse的数据为负类标签为-1.下面为svm二分类器的分类结果：13图11基于支持向量机的分类器上图将展示了训练与测试的结果，结果等于1表示正常声音，结果为-1为非正常开门声，通过学习训练得到上图结果。程序源代码见附件三。通过仿真，验证了支持向量机在解决分类问题中的优势，今后可以将这方法用于更深层次的语音识别中。问题四试利用特征选择或变换，对特征向量进行优化，并利用参数优化技术优化模型的参数，使识别模型的准确率提高。问题四其中支持向量机的核函数主要有：线性核函数，多项式核函数，径向基核函数，两层感知器核函数。不同的核函数直接影响SVM的分类能力，使用不同的核函数SVM分类的效果不同，所需要的时间也不同，下图是使用短时能量值和均值为特征参数，选取RBF14为核函数的分类效果图：图12SVMRBF分类图图13分类模型错误率此模型相比于问题三中建立的SVM分类模型分类正确率明显提高，达到了85.65%，可见合适的核函数选取的重要意义。程序源代码见附录四。15问题五白噪声，是指功率谱密度在整个频域内均匀分布的噪声，即其功率谱密度为02npN(5)式中，0N为常数，。由于1和为一对傅里叶变换对，所以白噪声的自相关函数为02nNR(6)由式(1)、式(2)可知，白噪声的自相关函数仅在0时才不为零,而对于其他任意的，白噪声的自相关函数都为零，即在任意两个不同时刻上的随机变量都是不相关的。对于一个线性时不变系统(如滤波器)，该系统是由它的冲激响应()ht或等效地由它的频率响应()Hf表征，这里的()ht和()Hf是一对傅里叶变换对。如果令()xt为系统的输人信号，()yt是输出信号。系统的输出可以表示成如下形式：ythxtd(7)如果是平稳随机过程的样本函数，那么就是随机过程的样本函数。可以求出输出的自相关函数是yyxxhhddRR(8)由于我们知道自相关函数和功率谱密度函数是一对傅里叶变换对，所以可以得到输出过程的功率密度谱，即为相关函数的傅里叶变换：22jfyyyyxxfdfHfeR(9)由此可以看出，输出信号的功率谱密度就是输入信号的功率谱密度乘以系统的频率响应的模的平方。当输入随机过程是白噪声时，输出随机过程的自相关特性和功率密度谱将完全由系统的频率响应所决定。)(t)(tx)(tX)(ty)(tY16我们设计了一个低通滤波器，对加了白噪声的声音信号进行滤波，即可去除白噪声。低通滤波(Low-passfilter)是一种过滤方式，规则为低频信号能正常通过，而超过设定临界值的高频信号则被阻隔、减弱。但是阻隔、减弱的幅度则会依据不同的频率以及不同的滤波程序（目的）而改变。在数字图像处理领域，从频域看，低通滤波可以对图像进行平滑去噪处理。滤波器将这部分不需要的频率滤除，就实现了去噪的效果。滤波前与滤波后的声音波形对比如下图所示：图14滤波前后信号波形对比实验表明低通滤波具有良好的去噪能力，该方法对添加的噪声处理后，与原始信号效果几乎拟合。证明低通滤波对信号去噪是可行的。程序源代码见附录五17附录附录一：clc;clearfori=5:7j=2*(i-4)-1;a=['正'num2str(i)];load(a)subplot(3,2,j);plot(y)title(['正'num2str(i)])xlabel('Time');ylabel('Amplitude');a=['非'num2str(i)];load(a)subplot(3,2,j+1)plot(y)title(['非'num2str(i)])xlabel('Time');ylabel('Amplitude');endsaveas(gcf,'q1.jpg');附录二：均值functionfei=feipj()fei=zeros(55125,1);fori=1:40a=['非'num2str(i)];load(a)fei=fei+y;end18fei=fei/40;短时平均能量functionenergy=nengliang(y)s=fra(55,55,y);s2=s.^2;%一帧内各样点的能量energy=sum(s2,2);%求一帧能量subplot(2,2,1)%定义画图数量和布局plot(energy)%画N=55时的语音能量图xlabel('帧数')%横坐标ylabel('短时能量E')%纵坐标title('N=55')%曲线标识s=fra(95,95,y);s2=s.^2;energy=sum(s2,2);subplot(2,2,2)plot(energy)