课题:关于男女声信号的采集与分析谈谈我们对课题的思考?教材P2中有提到,语音信号是一种与自然相关的声音信号,可以被高精度表示为不同幅值、频率和相位的和。我们知道,这就是对声音信号的处理。通常的,处理的工具就是傅里叶变换,我们有效的实用的软件就是Matlab。再看看课题。课题的内容是:关于男女声信号的采集与分析。我们可以很容易的联想到时域、频域、滤波方面的处理。通过对声音信号的认识,我们可以大概的判断,男声的基频应该普遍低一些,并且信号的成分在低频段也应该更集中。另外,我们想,对语音识别来讲,语音信号的识别是不是基于这样的分析,作出处理?目录用Matlab对声音信号处理的背景简介声音信号的采集分析处理在工程应用中是经常需要解决的问题,如何采集声音信号并对其分析处理,找出声音信号的特征在科学研究中时一项非常有意义的工作。Matlab是一种功能强大、效率高、交互性好的数值计算和可视化计算机高级语言,它在数值分析、信号处理和图形显示有机地融合为一体,形成了一个极其方便、用户界面友好的操作环境。本课题实现声音信号的采集和分析处理就是基于Matlab软件完成的。课题的具体内容和基本方案内容:记录两段从小组成员中采集的语音信号(male&famale),要求针对同一段话进行处理。分析的方法应该基于我们学习过的内容。基本方案:声音信号的采集和回放1.声音信号的采集Matlab中提供了强大的数据采集工具箱,可以满足控制声卡对数据进行采集的要求。语音数据采集过程如图:在matlab环境中,可以通过多种编程方法驱动声卡实现对语音信号的采集和播放。我们选择Matlab,是基于Matlab的语音采集与分析系统具有价格低、使用方便、通用性强的优点。下面,我们来介绍几种采集声音信号的方法。驱动声卡的方式共有四种:声音信号的回放与时域上的处理上述四种方法我们均通过实验验证过其正确性,不仅能够实现声音信号的采集,还能够实现对声音的播放,参数、条件的设置。右面是一段经过Matlab处理过后回放的音频,我们已经将它生成了一个wav文件。通过时域上面的分析,我们绘制了它的时域图形。(包括男女生的声音信号)。注:在方案中,采用的是wavrecord()函数采集的声音信号。时域上的简要分析这是信号的时域分析。短时能量分析、短时过零分析和自相关法是作为语音信号时域分析中最基本的方法,应用广泛,特别是在语音信号端点检测方面。但是针对语音信号,我们仅能从信号的一般特性上面进行分析。仅仅在是与上面来看,我们可以看到男声的能量较足,显示的幅度更大。对声音信号的处理分析1.频域上的分析在这之后,我们对信号进行快速傅里叶变换,得到相应的频谱分析图。就此,我们可以得到相应的(男女声)频谱图对比如下:我们都很容易注意到这两个信号的相同点,他们的频率大约在几十赫兹到5000赫兹比较密集,在这范围以外的幅度十分的小,这也是人声的基本特点。不同之处在于,男女生声音频率集中地范围有所不同,男生主要集中在200~800Hz左右,而女声的声音频率较多的集中在300~1800Hz左右。此外,我们还可以大致看出男女生的声音信号在基频上面有很大的不同,男声在高频上的谐波幅度也远远的小于女声。分析高低频成分的比率为了更加清晰地分辨男女生在高低频声音上的比率,我们写了一段程序来分析男女声高低频成分所占的大小。结果发现,在高频部分,男声7.3497e-004,女声0.0066;低频部分,男声比率为8.8621e-007,女声7.4197e-007。可以更加确定的知道,女声在高频上的频率分量更多,男声则在低频上的频率分量更多。倒频谱分析为了提取基频,下面我们进行进一步讨论这两段声音信号。倒频谱,就是对功率谱的对数值进行傅立叶逆变换,将复杂的卷积关系变为简单的线性叠加,从而在其倒频谱上可以较容易地识别信号的频率组成分量,便于提取所关心的频率成分(在这里,我们关注信号的基频)。以下是Matlab仿真得到的图形:结论的印证通过查阅资料(1998年南京邮电学院学报第十八卷5~6期[计算机语音信号处理与语音识别系统]),我们知道男性基音频率分布在60~200Hz左右,女性和小孩的基音频率则集中在200~450Hz左右。从倒频谱图的图形示意来看,正是满足这样的条件。由于采集的数量有限,不能够完全的验证整个频率范围。(这未免是一个遗憾之处)语音信号处理中的窗函数简介(窗函数:数字信号处理的主要数学工具是傅里叶变换.而傅里叶变换是研究整个时间域和频率域的关系。不过,当运用计算机实现工程测试信号处理时,不可能对无限长的信号进行测量和运算,而是取其有限的时间片段进行分析。做法是从信号中截取一个时间片段,然后用观察的信号时间片段进行周期延拓处理,得到虚拟的无限长的信号,然后就可以对信号进行傅里叶变换、相关分析等数学处理。无限长的信号被截断以后,其频谱发生了畸变,原来集中在f(0)处的能量被分散到两个较宽的频带中去了(这种现象称之为频谱能量泄漏)。)在语音信号的处理中,我们通常采用汉明窗来截取信号,对比矩形窗,汉明窗短时频谱会显得光滑许多,所以,在语音频谱分析中,汉明窗用得比较普遍。语音信号的去噪--数字滤波器的设计采用数字滤波器来对语音信号进行去噪处理,可选用窗函数法设计FIR数字滤波器(这种方法还没有研究过),另外也可以用双线性变换法设计巴特沃斯滤波器。在语音信号的滤波处理中,由于人的信号能量主要集中在低频部分,双线性低通滤波器的效果最好,滤波后的语音失真比较小。下面我们用双线性变换法设计滤波器,并从声音的效果和图像的改善程度上观察滤波的作用。下面的波形是原始信号经滤波作用后的时域波形对比:从傅里叶变换谈起从1807年傅里叶提出傅里叶变换以来,两个多世纪的时间内。谈到对信号的处理,最基本的处理便是傅里叶变换。它广泛的运用到物理学、声学、光学、结构动力学、量子力学、数论、组合数学、概率论、统计学、信号处理、密码学、海洋学、通讯、金融等领域,当然还有语音处理。这次的课题核心就是傅里叶变换。最主要的性质就是从频域当中提取出来的。傅里叶变换针对连续和离散信号包括:傅里叶级数、傅里叶变换、离散时域傅里叶变换、离散傅里叶变换。区分它们的不同和它们使用的范围应该是本次课题中我们最大的收获。当然,我们要向这位法国人致敬!一个有趣的分享我认为,我们分析男女生的声音信号的一个主要区别就是在声音频率上,女生的声音频率较高,男声的声音频率较低。所以我们能够通过男女生的声音频率区分他们。但是,在有些情况下,例如:男声是男高音,女声则是女低音,这样就很难能够区分男女生的信号。有一些男性的声音尖而细,有些女声粗而厚就是很好的例子。那么这是为什么呢?我们是不是通过声音的频率来识别一个人的声音的呢?(详细可见《在百度知道上搜到的一个有趣靠谱的回答》)。语音识别技术的最重大突破是隐含马尔科夫模型HiddenMarkovModel的应用。从Baum提出相关数学推理,经过Rabiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。