数学建模声音识别模型的建立与评价

colinseth
2 ℃
2019-12-25

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1《数学建模》论文报告题目：A题声音识别模型的建立与评价参赛队员（数学与统计学院）：学号：姓名：联系电话：2声音识别模型的建立与评价【摘要】本文针对正常非正常开门（指盗窃开门等声音）的声音进行识别的问题，通过matlab的sound和plot采集到了正常和非正常开门的声音信号和声音波形图，附件中有正常开门声音（如正1.mat）,非正常开门声音（如非1.mat）,各40次开门，共80次开门声音数据。将这些数据利用matlab的load函数载入到计算机内存，内存中变量有Fs和y等变量，其中Fs为采用频率，y为采用数据，通过建立数学模型将函数关系表示出来，并利用合适的时域或（和）频域特征表达声音信号，建立出特征向量。针对问题一：利用matlab中的sound函数，播放出声音信号，试听并比较正常和非正常开门声音的差别，利用plot函数绘制出具体的声音波形图，总结出差别在哪些方面，正常开门声音（如正1.mat）较短暂，波形图上各点分布较为分散；而非正常开门声音（如非1.mat）连续，波形图上各点分布也相对集中。针对问题二：利用合适的时域或（和）频域特征表达声音信号，建立特征向量，写出提取特征向量的具体方法和程序代码。针对问题三：建立声音识别模型（二分类模型），利用模型区分正常和非正常声音，评价模型的好坏。针对问题四：利用特征选择或变换，对特征向量进行优化，并利用参数优化技术优化模型的参数，使识别模型的准确率提高。针对问题五：若原始声音信号中有环境噪声（如白噪声），设y中叠加了一定幅值的白噪声（利用y1=y+(-0.15+0.3*rand(size(y)))*max(y)叠加噪声），对声音进行前期处理。本文充分运用了高等代数、数理统计等知识，并通过MATLAB软件模拟的方法对理论数据进行了分析整合。最后对模型的优缺点进行了评价，并给出了改进方向。关键词：声音识别、特征向量、二分类模型、MATLAB软件、神经网络31问题重述A题声音识别模型的建立与评价随着家居智能化逐渐普及，智能冰箱、智能清洁机器人、智能电视等已步入平常老百姓家庭，但智能化的防盗门还处于研发阶段，未进入市场。随着人们对家居安全意识的不断增强，对防盗、防抢和防砸的门禁系统的智能性提出更高的要求。基于此，对正常和非正常开门（指盗窃开门等声音）的声音进行识别是智能防盗门的关键问题和技术，其具有广泛的应用前景和实用价值。为了进行声音识别模型的建立，我们采集到了正常和非正常开门的声音，附件中有正常开门声音（如正1.mat）,非正常开门声音（如非1.mat）,各40次开门，共80次开门声音数据。该数据可利用matlab的load函数载入到计算机内存，内存中变量有Fs和y等变量，其中Fs为采用频率，y为采用数据。利用这些数据要求完成以下工作：1.利用matlab中的sound函数，播放出声音信号，试听并比较正常和非正常开门声音的差别，利用plot函数绘制出具体的声音波形图，总结差别在哪些方面？2.利用合适的时域或（和）频域特征表达个声音信号，建立特征向量，写出提取特征向量的具体方法和程序代码。3.建立声音识别模型（二分类模型），利用模型区分正常和非正常声音，评价模型的好坏。4.试利用特征选择或变换，对特征向量进行优化，并利用参数优化技术优化模型的参数，使识别模型的准确率提高。5.若原始声音信号中有环境噪声（如白噪声），设y中叠加了一定幅值的白噪声（利用y1=y+(-0.15+0.3*rand(size(y)))*max(y)叠加噪声），如何对声音进行前期处理？42模型假设[1]假设原始声音信号中有环境噪声（白噪声）单一，无其他噪音干扰；[2]假设采用的频率都为11025Hz来利用合适的时域或（和）频域特征表达声音信号；[3]假设实验环境保持不变。3符号说明Fs采用频率y采用数据4问题的分析本文针对正常非正常开门（指盗窃开门等声音）的声音进行识别的问题，通过matlab的sound和plot采集到了正常和非正常开门的声音信号和声音波形图，附件中有正常开门声音（如正1.mat）,非正常开门声音（如非1.mat）,各40次开门，共80次开门声音数据。将这些数据利用matlab的load函数载入到计算机内存，内存中变量有Fs和y等变量，其中Fs为采用频率，y为采用数据，通过建立数学模型将函数关系表示出来，并利用合适的时域或（和）频域特征表达声音信号，建立出特征向量。若原始声音信号中有环境噪声（如白噪声），设y中叠加了一定幅值的白噪声（利用y1=y+(-0.15+0.3*rand(size(y)))*max(y)叠加噪声），对声音进行前期处理。55模型的建立与求解5.1利用matlab中的sound函数，播放出声音信号，试听并比较正常和非正常开门声音的差别，利用plot函数绘制出具体的波形图load('C:\Users\Administrator\Desktop\2014校级数模竞赛赛题\A题\开锁声音采集\正1.mat')sound(y,Fs)plot(y）图1正常开门声音（正1.mat）图load('C:\Users\Administrator\Desktop\2014校级数模竞赛赛题\A题\开锁声音采集\非1.mat')sound(y,Fs)plot(y）6图2非正常开门声音（非1.mat）图由图像可总结出差别在于：①正常开门声与非正常开门声的区别在于，正常开门声是连续的短暂的，而非正常开门声是持续的开锁声音，用人的听觉很容易就能判断是否为正常的开门声音。②当我们运用matlab来分析声音时刻看出在频域内，语音信号的频谱分量主要集中在300～3400Hz的范围内。如图1正常开门时域波形图等。在时域内，两种声音信号都具有“短时性”的特点，即在总体上，开门声的特征是随着时间而变化的，但在一段较短的时间间隔内，语音信号保持平稳。但从时域波形图的对比可看出两种开门声的区别，正常开门声有一组的峰值比其他的峰值明显要大很多，而非正常开门声有多组峰值相似。5.2利用合适的时域或（和）频域特征表达个声音信号，建立特征向量，写出提取特征向量的具体方法和程序代码。由于已假设采用的频率都为11025Hz所以需要利用合适的时域或（和）频域特征表达个声音信号。7在将开门声音进行数字化前，必须先进行防混叠预滤波，预滤波的目的有两个：①抑制输入信导各领域分量中频率超出fs/2的所有分量(fs为采样频率)，以防止混叠干扰。②抑制50Hz的电源工频干扰。这样，预滤波器必须是一个带通滤波器，设其上、下截止颜率分别是fH和fL，则对于绝人多数语音编译码器，fH=3400Hz、fL＝60~100Hz、采样率为fs＝8kHz；而对于开门声音的识别而言，当判断是否为正常开门声有重要意义。当使用要求较高或很高的场合时fH＝4500Hz或8000Hz、fL＝60Hz、fs＝10kHz或20kHz。为了建立和提取不同开门声音的特征向量，必须经过采样和量化两个步骤，从而得到时间和幅度上均为离散的数字语音信号。采样也称抽样，是信号在时间上的离散化，即按照一定时间间隔△t在模拟信号x(t)上逐点采取其瞬时值。采样时必须要注意满足奈奎斯特定理，即采样频率fs必须以高于受测信号的最高频率两倍以上的速度进行取样，才能正确地重建波它是通过采样脉冲和模拟信号相乘来实现的。下图时一段语音信号在采样频率11025Hz情况下的频谱图。%语音信号时域频域分析y=y(:,1);%我这里假设你的声音是双声道，我只取单声道作分析，如果你想分析另外一个声道，请改成y=y(:,2)sigLength=length(y);Y=fft(y,sigLength);Pyy=Y.*conj(Y)/sigLength;halflength=floor(sigLength/2);f=Fs*(0:halflength)/sigLength;figure;plot(f,Pyy(1:halflength+1));xlabel('Frequency(Hz)');t=(0:sigLength-1)/Fs;figure;plot(t,y);xlabel('Time(s)');y=y(:,1);lg=length(y);yx=(0:(lg-1))*Fs/lg;yx=yx(1:lg/2);%sound(y,fs);figure(1);subplot(211);8plot(y);title('原始图像');subplot(212);yf=abs(fft(y));yf=yf(1:lg/2);plot(yx,yf);ycq=zeros(1,lg);%先将抽取后的值全设为零fori=1:80:lg;%通过循环，每隔80个点将抽取后的值赋值为原函数的ycq(i)=y(i);%采样值endsound(ycq,Fs);figure(2);subplot(211);plot(ycq);title('提取特征向量后的图像');subplot(212);ycqf=abs(fft(ycq));ycqf=ycqf(1:lg/2);plot(yx,ycqf);024681012x104-0.200.20.40.6原始图像01000200030004000500060000102030024681012x104-0.1-0.0500.050.1提取特征向量后的图像010002000300040005000600000.20.40.60.8图3正常开门声提取的特征向量图0123456x104-0.1-0.0500.050.1原始图像010002000300040005000600001230123456x104-0.04-0.0200.020.04提取特征向量后的图像010002000300040005000600000.050.10.150.2图4非正常开门声提取的特征向量图95.3建立声音识别模型（二分类模型），利用模型区分正常和非正常声音，评价模型的好坏。对于分类资料的分析，当要考察的影响因素较少，且也为分类变量时，常用列联表(contingencyTable)的形式对这种资料进行整理，并使用2检验来进行分析，汉存在分类的混杂因素时，还可应用Mantel-Haenszel2检验进行统计学检验，这种方法可以很好地控制混杂因素的影响。但是这种经典分析方法也存在局限性，首先，它虽然可以控制若干个因素的作用，但无法描述其作用大小及方向，更不能考察各因素间是否存在交互任用；其次，该方法对样本含量的要求较大，当控制的分层因素较多时，单元格被划分的越来越细，列联表的格子中频数可能很小甚至为0，将导致检验结果的不可靠。最后，2检验无法对连续性自变量的影响进行分析，而这将大大限制其应用范围，无疑是其致使的缺陷。标准的线性回归模型：11mmYxx如果对分类变量直接拟合，则实质上拟合的是发生概率，参照前面线性回归方程，很自然地会想到是否可以建立下面形式的回归模型：11mmPxx显然，该模型可以描述当各自变量变化时，因变量的发生概率会怎样变化，可以满足分析的基本要求，对计算方法进行了改进，用加权最小二乘法来对该模型进行拟合。以Logit()为因变量，建立包含p个自变量的logistic回归模型如下：011logit()ppPxx以上即为logistic回归模型。由上式可推得：011011exp()1exp()ppppxxPxx011111exp()ppPxx上面三个方程式相互等价。通过大量的分析实践，发现logistic回归模型可以很好地满足对分类数据的建模需求，因此目前它已经成为了分类因变量的标准建模方法。优势比：如前所述，把出现某种结果的概率与不出现的概率之比称为比值（odds），即1PoddsP。两个比值之比称为优势比（oddsRatio，简称OR）。首先考察OR的特性：若12PP，则12121211PPoddsoddsPP10若12PP，则12121211PPoddsoddsPP若12PP，则1212