音频技术pptPowerPoint演示文稿

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

要模拟出符合现实世界的数字声音,我们首先得了解声音的基本特性:包括声音的物理特性和人们在听觉方面的心理特性.以便创建出一定格式的数字声音编码,满足人们对模拟声音在采集、处理、质量等各方面的需求。5.1声音5.1.1声音的物理特征声音是纵波。决定声波的物理特性有振幅、频率和相位。一个声源每秒钟可产生成百上千个波,我们把每秒钟波峰所发生的数目称之为信号的频率,单位用赫兹(Hz)或千赫兹(kHz)表示。信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。对音频信号,声音的强度用分贝(dB)表示,分贝的幅度就是音量。1.声音的强度在1kHz频率的正弦波中,能被人耳察觉的最弱声压大约是2.83Х10-4dyn(达因)/cm2,这个最弱音已经作为国际标准的参照声。描述声音强度的量值是采用分贝表示:分贝是指两个相同的物理量(例A1和A0)之比,取以10为底的对数并乘以10(或20)。N=10lg(A1/A0)分贝符号为“dB”。N是被量度量的“级”。,这也被称为声压级。A1是被量度量。A0是基准量如果2.83Х10-4dyn/cm2被看作0dB那么在特别安静的环境中,单独检测:动物的呼吸声大约20dB,人们正常的谈话声约60dB,汽车的喇叭声约100dB,飞机起飞的声音约120dB120dB以上的强度可使人产生痛苦的感觉。一般人的听力范围是20Hz~20kHz。这个频率区域称为可闻声段,大致可分为低频、中频和高频低频的频率约在250~500Hz(如鼓声)中频的频率约在1000~2000Hz,高频的频率约在3000~4000Hz(如哨子声)。2.频率是指物体每秒钟振动的次数。我们听到的声音都是物体振动后会产生声波不同的振动频率将会产生不同的声波。低于20Hz和高于20kHz的频率段分别称为次声和超声。瞬时T3.相位是波形的变化方向,如果是多个波形组合,起始相位可以相同或不同。在某一个瞬时T,不同波形的相位都可以是不同的。右图所示的,就是一段多波形混合而成的声音实际播放时所显示的波形。规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。因声波是在时间和幅度上都连续变化的量,我们称之为模拟量。5.1.2声音的听觉心理特性对于复杂的人耳听觉系统特性的研究,目前仅限于在心理声学和语言声学内。听觉心理的主观感受主要有:响度、音高、音色、音量、密度、谐和、噪声、掩蔽效应、高频定位。响度、音度、音色:可以在主观上用来描述任何复杂的声音而对于多种音源场合:人的耳掩蔽效应等特性尤为重要。1)音调:代表了声音的高低。音调与频率有关,频率越高,音调越高,反之亦然。当提高磁带录音机的转速时,其旋转加快,声音信号的频率提高,其喇叭放出来声音的音调提高了。同样,在使用音频处理软件对声音的频率进行调整时,也可明显感到音调随之而产生的变化。各种不同的声源具有自己特定的音调,如果改变了某种声源的音调,则声音会发生质的转变,使人们无法辨别声源本来的面目。2)音色:即特色的声音。声音分纯音和复音两种类型。所谓纯音,是指振幅和周期均为常数的声音;复音则是具有不同频率和不同振幅的混合声音。大自然中的声音绝大部分是复音。在复音中,最低频率的声音是“基音”,它是声音的基调。其他频率的声音称为“谐音”,也叫泛音。基音和谐音是构成声音音色的重要因素。各种声源都具有自己独特的音色,例如各种乐器的声音、每个人的声音、各种生物的声音等,人们就是依据音色来辨别声源种类的。3)音强:声音的强度,也被称为声音的响度,常说的“音量”也是指音强。音强与声波的振幅成正比,振幅越大,强度越大。唱盘、CD激光盘以及其他形式声音载体中的声音强度是一定的,通过播放设备的音量控制,可改变聆听时的响度。等响曲线响度表示人们所感觉到的声音能量的强弱,主要取决于声波振幅的大小,物理上声压级的值一般不等于响度级的值。声音的感知响度1sone相当于40分贝的音调在1kHz下的响度。响度与人耳的可闻程度有关,当超出人耳的可听频率范围时,声音的响度再大,人耳也无法察觉。但在人耳的可听频域范围内,当声音弱或强到一定程度,人耳都无法听到。实验表明,声音的可闻阈和痛感阈是随着频率而变化的。如图所示,闻阈和痛阈随频率变化的等响度曲线之间的区域就是人耳的听觉范围。声压级可闻阈的分贝值频率Hz就是说,小于0dB闻阈和大于140dB痛阈时为不可听声。这些等响度曲线表明了听觉在有些频率下较为灵敏。所谓“等响”就是对于1kHz以外的可听声,在同一级等响度曲线上有无数个等效的声压—频率值,例如,200Hz的30dB的声音和1kHz的10dB的声音在人耳听起来具有相同的响度。★高频段的响度变化与声压级增量基本一致,低频段声压级的微小变化会导致响度的较大变化。★在较低的声压级上,等响上曲线各频率声音的声压级相差很大,较高的声压级上,等响曲线较为平坦,说明各频率的声压级基本相同。这说明:在响度级较小时,高、低频声音灵敏度降低较明显,而低频段比高频段灵敏度降低更加剧烈,一般应特别重视加强低频音量。听觉的掩蔽效应是一个较为复杂的心理和生理现象,包括人耳的频域掩蔽效应和时域掩蔽效应。而且人耳对声音源方向的辨别能力,也与频率的高低有关。由于对于2KHZ以上的高频声音信号,人耳很难判断其方向性,因而在数字处理时,就可以不必重复存贮立体声广播的高频部分。屏蔽是指一个弱声音被另一个强声音所遮盖。当强、弱声音同时存在时,就将发生声音屏蔽现象。例如,说话声会被火车声所遮盖。当两个声音在时间和频率上很接近的时候,屏蔽效应就会较很强。当强声音的频率与弱声音相同或更高时,屏蔽效应最有效。屏蔽如果同时存在的是两个纯音实验表明存在两种有效的屏蔽,一种是中等强度的纯音最有效的屏蔽出现在其频率附近,另一种是低频的纯音可以有效地掩蔽高频的纯音。如果同时存在的是噪音和纯音情况较复杂。因为屏蔽纯音的噪音实际上是由多种纯音组成的,具有无限宽的频谱。临界频带当某个纯音被以它为中心频率且具有一定带宽的连续噪声所屏蔽时,如果该纯音刚好能被听到时的功率等于这一频带内噪声的功率,那么这个带宽就称为临界频带宽度。但在有声音屏蔽的情况下,一个临界频带之内的声音感知程度与表中跨越多个临界频带的声音感知程度是不相同的。可以说明人类的听觉对声音的感知特性。表5-1列出的是在20Hz~16kHz范围内,通常可分出的24个子临界频带。人耳对同一个临界频段内频率的听觉和感知是较接近的。5.1.3声音的数字原理模拟声音的信号是个连续量,由许多具有不同振幅和频率的正弦波组成。实际声音信号的计算机获取过程就是声音的数字化的处理过程。声音的模/数转换(ADC),首先需对声波采样,用数字方式记录声音。图中横轴表示时间,纵轴表示振幅,按时间对声波分割从而提取波形的样本。实现这个过程的装置就被称为模/数转换器。声音的数/模转换(DAC)即由数字声音变成模拟的波形。音频系统是将声波波形转换成的连续的二进制数据来还原声音的。实现这个过程的装置被称为数/模转换器。3.1.2模拟音频的数字化过程数字化的声音易于用计算机软件处理,现在几乎所有的专业化声音录制、编辑器都是数字方式。对模拟音频数字化过程涉及到音频的采样、量化和编码。采样和量化的过程可由A/D转换器实现。A/D转换器以固定的频率去采样,即每个周期测量和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号,可以将其以文件形式保存在计算机的存储介质中,这样的文件一般称为数字声波文件。模拟信号的数字化过程100101100011101信息论的奠基者香农(Shannon)指出:在一定条件下,用离散的序列可以完全代表一个连续函数,这是采样定理的基本内容。为实现A/D转换,需要把模拟音频信号波形进行分割,这种方法称为采样(Sampling)。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上的连续信号变成时间上的离散信号。该时间间隔称为采样周期,其倒数为采样频率。采样频率是指计算机每秒钟采集多少个声音样本。1.采样采样频率与声音频率之间有一定的关系,根据奈奎斯特(Nyquist)理论,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来的声音。2ffs采样只解决了音频波形信号在时间坐标(即横轴)上把一个波形切成若干个等分的数字化问题,但是还需要用某种数字化的方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为“量化”。量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,并赋于相同的量化值。如何分割采样信号的幅度呢?我们还是采取二进制的方式,以8位(bit)或16位(bit)的方式来划分纵轴。也就是说在一个以8位为记录模式的音效中,其纵轴将会被划分为个量化等级,用以记录其幅度大小。2.量化以下图所示的原始模拟波形为例进行采样和量化。假设采样频率为1000次/秒,即每1/1000秒A/D转换器采样一次,其幅度被划分成0到9共10个量化等级,并将其采样的幅度值取最接近0~9之间的一个数来表示,如下图所示。图中每个正方形表示一次采样。D/A转换器从上图得到的数值中重构原来信号时,得到下图中蓝色(直线段)线段所示的波形。从图中可以看出,蓝色线与原波形(红色线)相比,其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。失真在采样过程中是不可避免的,如何减少失真呢?可以直观地看出,我们可以把上图中的波形划分成更为细小的区间,即采用更高的采样频率。同时,增加量化精度,以得到更高的量化等级,即可减少失真的程度。在下图(左)中,采样率和量化等级均提高了一倍,分别为2000次/秒和20个量化等级。在下图(右)中,采样率和量化等级再提高了一倍,分别达到4000次/秒和40个量化等级。从图中可以看出,当用D/A转换器重构原来信号时(图中的轮廓线),信号的失真明显减少,信号质量得到了提高。模拟信号量经过采样和量化以后,形成一系列的离散信号——脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码,形成计算机内部运行的数据。所谓编码,就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据。在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如在一定范围内有错,可加以纠正。编码的形式比较多,常用的编码方式是PCM——脉冲调制。脉冲编码调制(PCM)是把模拟信号变换为数字信号的一种调制方式,即把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传输或存储。3.编码5.1.4数字声音质量的主要因素影响数字化声音质量的因素主要有三个,即采样频率,采样精度和通道个数。1.声音的采样精度采样精度,即采样位数或采样分辨率,指表示声波采样点幅度值的二进制数的位数。换句话说,采样位数可表示采样点的等级数,若用8bit二进制描述采样点的幅值,则可以将幅值等量分割为256个区,若用16bit二进制分割,则分为65536个区。可见,采样位数越多,可分出的幅度级别越多,则分辨率越高,失真度越小,录制和回放的声音就越真实。但是位数越多,声音质量越高,所占的空间就越大。常用的采样精度分别是8位、16位和32位。国际标准的语音采用8位二进制位编码。根据抽样理论可知,一个数字信源的信噪比大约等于采样精度乘以6分贝。8位的数字系统其信噪比只有48分贝,16位的数字系统的信噪比可达96分贝,信噪比低会出现背景噪声以及失真。因此采样位数越多,保真度越好。2.声音的采样速率采样速率,即采样频率,指每秒钟采样的次数,单位为Hz(赫兹)。奈奎斯特采样定理指出:采样频率高于信号最高频率的两倍,就可以从采样中完全恢复原始信号的波形。对于以11kHz的频率的采样系统,只能恢复的最高音频是5.5kHz。如果要把20Hz~20KHz范围的模拟音频信号变换为二进制数字信号,那么脉冲采样频率至少应为40KHz,其周期为Tp=1/fp=1/40KHz=25μs

1 / 94
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功