基于CNN和LightGBM的环境声音分类

mynameisxuyin
0 ℃
2020-12-24

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

ComputerScienceandApplication计算机科学与应用,2019,9(10),1892-1905PublishedOnlineOctober2019inHans.://doi.org/10.12677/csa.2019.910212文章引用:廖威平,陈平华,赵璁,赵亮,陈建兵,董梦琴.基于CNN和LightGBM的环境声音分类[J].计算机科学与应用,2019,9(10):1892-1905.DOI:10.12677/csa.2019.910212EnvironmentalSoundClassificationBaseonCNNandLightGBMWeipingLiao,PinghuaChen,CongZhao,LiangZhao,JianbingChen,MengqinDongDepartmentofComputer,GuangdongUniversityofTechnology,GuangzhouGuangdongReceived:Sep.25th,2019;accepted:Oct.10th,2019;published:Oct.17th,2019AbstractAimingattheproblemthatthetraditionalconvolutionalneuralnetworkhasinsufficientgenera-lizationabilityandlowaccuracyinenvironmentalsoundclassification,anewmodelmixingdeepCNNwithLightGBMisproposed.BasedonthepreprocessingoftheMelFrequencycepstralcoeffi-cientmatrixontheaudiofile,thenewmodelfirstlyusesthedeepconvolutionalneuralnetworktoextractfeatures.Then,combinedwiththeefficientandaccuratecharactersofLightGBMinclassi-ficationprediction,theextractedfeaturesareimportedintoLightGBMfortraining.Therebyitachievesthepurposeofimprovingclassificationaccuracy.Theresultsofthecomparativeexperi-mentsontheUrbanSound8Kpublicdatasetshowthatthenewmodelimprovestheaccuracyof7.7%comparedtotheusingasingle-useconvolutionalneuralnetworkmodel.KeywordsEnvironmentalSoundClassification,ConvolutionalNeuralNetwork,LightGBMModel,MelFrequencyCepstrumCoefficient基于CNN和LightGBM的环境声音分类廖威平，陈平华，赵璁，赵亮，陈建兵，董梦琴广东工业大学计算机学院，广东广州收稿日期：2019年9月25日；录用日期：2019年10月10日；发布日期：2019年10月17日摘要针对传统卷积神经网络在环境声音分类中泛化能力不足且准确率不高的问题，提出了一个新的将CNN和廖威平等DOI:10.12677/csa.2019.9102121893计算机科学与应用LightGBM融合的环境声音分类模型。新模型在对音频文件进行梅尔频率倒谱系数矩阵预处理基础上，首先应用深度CNN提取音频的高层次特征；然后，结合LightGBM在分类预测上高效准确的特点，将提取的高层次特征导入LightGBM进行训练预测，从而达到提升分类准确性的目的。UrbanSound8K公开数据集上的对比实验结果表明：与目前使用的单独使用卷积神经网络相比，新模型提高了近7.7%的分类准确率。关键词环境声音分类，卷积神经网络，LightGBM模型，梅尔频率倒谱系数Copyright©2019byauthor(s)andHansPublishersInc.ThisworkislicensedundertheCreativeCommonsAttributionInternationalLicense(CCBY).引言音频识别是模式识别领域一个前沿研究课题。作为音频识别的一个重要分支，环境声音分类(EnvironmentalSoundClassification,ESC)受到了业界许多专家学者的关注，成为了热门研究话题。ESC是用机器进行声学环境分析最重要的技术之一，广泛应用于监听[1]、智能家居[2]、场景分析[3]和机器视听[4]等领域，如监管系统通过检测监管区域异常声音自动报告紧急情况并启动应急方案[5]、机器人通过对环境声音的分类识别确定下一步行动计划[6]等。与语音和音乐不同，环境声音的音频具有多样性特点，拥有更广泛的频率范围。近年来，随着医疗保健、安全监控、生态环境变化预测等应用需求的涌现，环境声音分类识别研究已越来越受到学术界的重视。环境声音的准确分类识别已成为相关应用成功与否的关键。环境声音分类识别属于音频识别范围。传统的音频识别方法分为信号处理方法和机器学习方法。传统的信号处理方法直接使用音频数据[7][8][9]，如Mel滤波器组属性[10]、Gammatone属性[11]、基于小波的属性[12]和多频带谱减法[13]等；传统的机器学习方法如SVM[14][15]、GMM[16]和KNN[17]等。近年来，随着深度学习技术的发展，将深度神经网络(DeepNeuralNetwork,DNN)应用于自动语音识别(AutomaticSpeechRecognition,ASR)和音乐信息检索(MusicInformationRetrieval,MIR)[18][19]取得了巨大的成功。对于音频信号，DNN能够从原始数据中提取特征，一些基于DNN的模型被提出并且表现得比传统的机器学习模型效果更好[20]，如：PiczaK.J.将简单的卷积神经网络层结构应用于log梅尔频谱图，对环境声音进行分类处理[21]；MedhatF.等人通过嵌入类滤波器组的稀疏性来引导网络在频谱中的学习[22]；Takahashi等人通过使用log梅尔频谱图和增量及增量的增量信息作为类似于图像RGB输入的三通道输入[23]。然而，DNN的深度全连接架构对于转换特征并不具备强鲁棒性。一些新的研究发现卷积神经网络具有强大的通过大量训练数据探索潜在的关联信息能力，通过从环境声音中学习类似频谱图的特征[24]，将CNN应用于ESC的几次尝试已经获得了性能提升，如Zhang等人通过调整网络中各层的激活函数提高了模型的性能[25]；Zhang等人通过调整卷积网络层结构并且融合混合样本生成新样本训练网络，提升了模型效果[26]。但是网络结构的设计依然有待改进，模型的特征获取与分类预测功能没有很好地进行分离，这为进一步改进模型提供了新的思路。为了更好地利用音频数据信息，设计更好的网络结构模型，本文在此基础上调整网络层结构，同时由于卷积神经网络结构模型具有提取音频特征功能作用，本文将使用卷积神经网络模型对音频数据特征进行提取，而使用LightGBM模型对提取特征后的音频数据进行分类预测以加强模型效果，将模型提取OpenAccess廖威平等DOI:10.12677/csa.2019.9102121894计算机科学与应用特征功能和分类预测功能分离，以改善模型效果。本文将卷积神经网络模型和LightGBM模型融合，融合了卷积神经网络提取特征的功能和LightGBM分类预测的能力，各分模型对应不同的功能，使模型结构具有更好的分类预测效果。2.技术细节2.1.音频数据预处理音频数据存储着音频的信号，这种信号是一种一维的时域信号，由多段频谱信号按时间排列表示每个时间段的帧信息。通过直观上观察频谱的分布信息很难得出频率变化的规律，并且难以通过其它模型对该数据进行处理以进行分类预测，同时需要将每个音频数据进行规整化处理使其统一标准，因此需要将音频的频谱信息转换成其它易于理解的形式进行进一步处理。人的听觉系统是一个特殊的非线性感知系统，它对不同频率的信号有不同的听觉敏感度，通常使用梅尔频率表示人耳对于频率的感受度。梅尔频率是一种基于人耳对等距的音高变化的感官判断而定的非线性频率刻度，它与频率的关系如公式(1)所示。()10mel=2595log1+700ff*(1)在音频特征的提取上，人类听觉系统能够做得非常好，它不仅能提取出语义信息，而且能提取出声源特征。如果在音频识别系统中能模拟人类听觉感知处理特点，就有可能提高音频的识别率。梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)是通过梅尔频率和频率之间的关系计算得到的频率频谱特征，是一种在自动语音识别和声纹识别等音频识别中广泛使用的特征。梅尔频率倒谱系数考虑到了人类的听觉特征，通过对spectrogram声谱图进行描述的音频数据进行处理，对分帧后的音频频谱信息通过坐标表示出来，得到一个随时间变化的短时频谱图，即描述单帧信号中能量分布的情况。其峰值表示语音的主要频率成分，称为共振峰(formants)，携带声音的辨识属性，利用共振峰可以识别不同的声音。通过提取频谱的包络(SpectralEvnelope)和频谱细节，得到每帧频谱的相关信息。对于每帧频谱信息提取的一维频域特征，将每帧的结果沿另一个维度堆叠起来，得到类似于一幅图的二维信号形式，这样就可以像处理图像一样处理音频数据了。其具体特征提取过程如图1所示，先将语音预加重，使信号的频谱变得平坦，保持在低频到高频的整个频带中；再分为多个帧，每个帧对应于一个频谱；然后加窗，将每帧乘以汉明窗，以增加帧左段和右段的连续性；通过短时快速傅里叶变换(FastFourierTransformation,FFT)，计算频率与振幅的关系，使时域信号转换为频域上的能量分布来观察；因为频域信号有很多冗余信息，需要滤波器组对频域的能量幅值进行精简，每一个频段用一个值来表示。通过公式(1)将能量幅值转化为人耳对声音感知的梅尔频率，即Mel滤波操作，如图2的映射操作，并通过离散余弦变换将能量信号集种到低频部分。其输出结果值，即是能够描述音频数据的低阶特征MFCC值。梅尔频率倒谱系数将线性频谱映射到基于听觉感知的Mel非线性数据，即可进行倒谱分析。通过提取音频文件的MFCC物理特征，将音频文件信息转换为矩阵信息，为后续模型训练测试做准备。2.2.CNN提取特征数据通过对频谱分析，得到音频声谱图对应的特征数据，且格式符合使用卷积神经网络(ConvolutionNaturalNetwork,CNN)进行模型拟合过程，可以用CNN进行进一步的高层次特征提取。卷积神经网络是一种前馈神经网络，由多层卷积层及池化层以及有限数量的全连接层以及softmax输出层构成的神经网络结构。卷积层是通过一系列卷积核表征像素点之间的空间分布，将一个范围内的廖威平等DOI:10.12677/csa.2019.9102121895计算机科学与应用所有像素点进行加权求平均；卷积核用矩阵表示特征值，代表高层语义信息。卷积层的作用是过滤输入数据的特征，以提取输入所具有的特性空间，通过多个卷积核捕获不同视觉模式。池化层是通过对图像进行下采样将样本大小进行缩放或重构，为下一步更精细的特征做准备。常用的池化方法有最大池化和平均池化。全连接层对层间所有神经元节点进行权值连接，softmax输出层对应