基于ICA的语音信号盲分离

gager
0 ℃
2021-01-07

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

基于ICA的语音信号盲分离[摘要]语音信号盲分离处理的含义是指利用BSS技术对一段语音信号进行处理。混合语音信号的分离是盲分离的重要容，目前的混和语音分离大多是建立在无噪环境中的混叠情形下，主要以盲源分离(BlindSourceSeparation，BSS)，根据信号的统计特性从几个观测信号中恢复出未知的独立源成分。本文重点研究了以语音信号为背景的盲源分离，在语音和听觉信号处理领域中，如何从混有噪声的的混叠语音信号中分离出各个语音源信号，来模仿人类的语音分离能力，成为一个重要的研究问题。具体实现主要结合ICA技术，将语音去噪作为一个预处理过程，对带噪声的混叠语音盲分离进行了研究，本文详细了介绍了FastICA算法，将这种算法应用于实际的语音信号噪声分离中，并将分离出的语音信号与混合前的原信号进行了分析比较，验证了通过ICA实现语音信号的盲分离是切实可行的。[关键词]语音信号，盲源分离，独立成分[Abstract]BlindseparationofspeechsignalsprocessingmeansforprocessingreferstoasectionofthespeechsignalofmicrophonedetectedbyBSStechnique.Separatethemixedspeechsignalsisanimportantcontentofblindseparation,themixedspeechseparationismostlybasedonnoisefreeenvironmentintheoverlappingcase,mainlytotheblindsourceseparation(BlindSourceSeparation,BSS),accordingtothestatisticalcharacteristicsofthesignalfromtheobservedsignalsrecoverindependentsourcecomponentisunknown.Thispaperfocusesontheblindsourceseparationusingspeechsignalasthebackground,inspeechandaudiosignalprocessingfield,separatingeachvoicesourcesignalfromnoisymixedspeechsignals,tomimichumanspeechseparationability,hasbecomeanimportantresearchquestion.ConcreterealizationmainlywithICAtechnology,thespeechdenoisingasapretreatmentprocess,theoverlappingspeechblindseparationofmixedwithnoiseisstudied,thispaperpresentstheFastICAalgorithm,thespeechsignalnoiseseparationofthisalgorithmisappliedtothepractice,andtheoriginalvoicesignalmixedwithisolatedanteriorareanalyzedandcompared,verifiedbyICAtorealizetheblindseparationofspeechsignalsisfeasible.[Keywords]speechsignal,blindsourceseparation,independentcomponentanalysis目录1前言..................................................................11.1盲语音信号分离技术的背景及意义........................................11.2语音的特性............................................................12语音信号特性及分析......................................................22.1语音的基本特征.......................................................22.2语音处理的理论基础....................................................32.3语音信号的MATLAB应用程序.............................................32.3.1输入语言的MATLBA时域和频谱图程序分析.............................32.3.2混合语音信号的MATLBA时域和频谱图程序分析.........................73盲信号处理.............................................................103.1盲信号处理的基本概念................................................103.2盲信号处理的方法和分类...............................................103.3盲信号处理技术的研究应用.............................................103.4独立成分分析分析.....................................................113.4.1独立成分分析的定义...............................................113.4.2ICA的基本原理....................................................124FASTICA算法............................................................144.1数据的预处理.........................................................144.2FASTICA算法..........................................................144.3ICA分离的步骤.......................................................154.4混合语音信号的波形图.................................................164.5分离后的信号的波形图.................................................174.6对比分析.............................................................205小结体会...............................................................226参考文献................................................................237致.....................................................................248附件....................................................................241前言1.1盲语音信号分离技术的背景及意义近年来，混合语音信号的分离成为语音信号处理领域的一个研究热点。我们经常在信号处理中遇到这样的问题，如何将这些原始信号从一组随机信号经过一组混合系统得到的观测信号种恢复出，如果在重构过程中没有原始信号和混合系统的先验知识，就将该过程称为盲分离。其理论也不断运用到医学、图像、通讯等领域在语音方面的应用包括有多个人说话构成的声音环境下，从多个话筒接收到的声音信号就是所谓的鸡尾酒会问题，它是指人们在嘈杂环境中或者是在许多人同时说话的情况下有辨识自己感兴趣的声音的能力引起研究者的兴趣。而我们所研究的混合语音信号分离急速虽然不能失信是计算机具有和人类一样的听觉，但是通过该技术却能使原本相互混叠的语音信号相互剥离，来作为语音识别的预处理，从而使得噪声环境下结合多说话人情形下的语音识别的实现成为可能。1.2语音的特性(1)短时平稳性通过对语音信号的研究，语音信号是一种非平稳的、时变的随机过程，另一方面，人类声音系统的结构的变化是有一定限制的，在短时间(10～30ms)人的声道和声带形状基本不变，而且大部分情行下，原激励参数也是如此，由此可认为在较短的时间语音的特征是不变的，语音的这一短时性特点是对语音信号分析和处理的前提。(2)清音和浊音语音可以分为清音和浊音两大类，他们从语音产生的基础上有明显的分别，前者由随机性噪声产生，后者由周期性脉冲产生，因此在特点上也有本质的区别。在时域上，浊音表现出显而易见的周期性，在频域上，浊音有共振峰构造且能量比较集中在低频段。清音则不同，清音没有较明显特征，和白噪声差不多。浊音在频域上有共振峰结构，能量大量集中在低频区(1000Hz)，清音则没有共振峰结构，能量大量在高频段且较小(1000Hz)。2语音信号特性及分析2.1语音的基本特征（1）语音的时域特征由于讲话人不同时间说话容不同，且没有规律性，因此语音的信号是时变的。但是，人类发出声音器官的变化率有限，在较短时间(5．500ms)，声道在平稳状态，因此语音的信号有短时平稳性。并且这种短时平稳性，是语音处理中许多算法和理论的前提。由于人在讲话话时，不同音节、单词之间总存在着一些时间上的间隔，由此在时域上，语音信号存在着两种音段：有音段、无音段。经过有音和无音的检测，可用于去除语音中较平稳的噪声。而且，无音段越占较大比例，语音在稀疏性越好，基于这一特点，产生了很多增强语音稀疏性的算法。（2）语音的频域特征语音的主要频谱能量集中在300-3400Hz。语音由清音音和浊音构成，浊音信号含有语音信号的大量能量，其频谱集中于低频段中的基因频率及其各次谐波上，表现出周期性；清音则表现出随机性，在频谱与白噪声差不多。（3）语音的统计特征可以将语音信号看作是一个遍历性随机过程的样本函数，可用幅度的概率密度函数来描述统计特性。通过对语音信号统计特性的研究，其幅度分布的概率密度函数可以用两种近似的表达式来较好的描述，一种是伽马(Gamma)分布()2kxkepxxx(2.1)式中k是一个常数，与标准差，有下列关系32xk(2.2)另一种是拉普拉斯分布(Laplacian)分布()0.5xpxe(2.3)式中，是一个由标准差决定的常数，即2x(2.4)相对说来，伽马分布在幅度分布上对语音信号的描述更精确，而拉普拉斯分布函数更加简洁。2.2语音处理的理论基础频谱分析时，在对时域数据进行短时FFT处理之前都要进行加窗处理。在FFT处理之后，普通频谱分析可以进行频域上的滤波处理，从而使频谱更加平滑。为了得到各种音频信号的特技效果，也需要对各种变声算法进行研究。（1）窗的选择一般来讲，一个较好窗函数具有一定标准：在时域上，因为是语音的波形与窗函数相乘，因此窗两端的坡度要减小，将窗口两端在不引起急剧性变化的同时过渡到零，这样可将截出的语音信号的波形慢慢的降到零，减少语音帧的阶段效应；在频域上必须有较宽的带宽和较小的边带最