多媒体音频信息处理-PowerPointPresent

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第4章多媒体音频信息处理声音是多媒体信息的一个重要组成部分,也是表达思想和情感的一种必不可少的媒体。无论其应用目的是什么,声音的合理使用可以使多媒体应用系统变得更加丰富多彩。在多媒体系统中,音频可被用作输入或输出。输入可以是自然语言或语音命令,输出可以是语音或音乐,这些都涉及到音频处理技术。STOP24.1音频信号及其概念4.1.1声音处理技术历史回顾语音、音乐和各种自然声是以声波为载体进行传输的。人类很早就开始研究声音,并利用已掌握了的声音的某些规律来制造乐器、进行建筑设计或传声装置设计,使发出的声音传得更远。可是几千年来,人类只能凭耳朵来辨别声音的高低、强弱,不能把声音记录和储存起来。所以与其他研究领域相比,声学的研究相对滞后。直到19世纪爱迪生发明了留声机,人们才能用机械的方法把各种声音记录在唱片上。但机械振动不易传递,也不易放大,机械方法很不方便。随着电学、电子学的发展,人们开始尝试记录真实声音,利用把声的振动转换成电信号的原理,使声音的记录成为可能。电声技术迅速发展。3电声技术是研究可听声频率范围内声音的产生、传播、存储、重放和接收的技术。它依靠“电”来记录并播放声音,其基本原理是通过电压产生模拟声波变化的电流信号,并记录下来,灌录成唱片或磁带,这种电流信号被称为“模拟信号”。传统的声音记录方式就是将模拟信号直接记录下来,例如磁带录音和密纹唱片就是将声音拾取处理后以磁记录或机械刻度的方式记录下来,此时磁带上磁极的变化或密纹唱片音槽内的纹路起伏变化都是与声音信号的变化相对应、成正比的。这里,密纹唱片、盒式磁带等是记录储存这种模拟声音信号的载体,而能够播放、记录这些信号的处理设备,诸如电唱机、磁带录音机等,称为模拟音响设备。4电声技术把声信号转换成电信号,经扩声系统进行扩声;或者将其信号利用磁带、CD或其他存储形式存储,使声音超越时间和空间,通过重放系统将信号放大,由扬声器或耳机转换成声信号,进入最后的终端---人耳,以实现任何时间、任何地点的声音重现。电声转换、音频(Audio)信号存储、重放、加工处理以及数字化音频信号的编码、压缩、传输、存取、纠错等技术,是音频技术的主要对象。5随着计算机技术的发展,特别是海量存储设备和大容量内存在计算机上的实现,使音频数字化处理成为可能。数字化处理的核心是对音频信息的采样,通过对采集的样本进行加工,生成各种效果。音频信息在多媒体中的应用极为广泛,计算机配有声卡和音箱后,就能发出各种悦耳声音,尤其是视频图像配以动听的音乐和语音,使得计算机操作成为愉快的过程。静态或动态图像配以解说和背景音乐,可使图像充满生气;立体声音乐可增加空间感,使人如身临其境;语音电子邮件,听声如见其人,游戏中的音响效果对于渲染气氛显得更为重要;此外,在多媒体通信中,可视电话、电视会议等都离不开数字化音频处理技术。64.1.2音频信号的形式日常生活中,音频信号可分为两类:语音信号和非语音信号。语音是语言的物质载体,它包含了丰富的语言内涵,是人类进行信息交流的特有形式。非语音信号主要包括音乐和自然界存在的其他声音。非语音信号的特点是不具有复杂的语义和语法信息,信息量低、识别简单。我们能听到的各种声音,是不同频率的声波通过空气产生震动刺激人耳的结果。在物理上,声音可用一条连续曲线表示。这条曲线无论多复杂,都可分解成一系列正弦波的线性叠加。规则音频是一种连续变化的模拟信号,可用一条连续的曲线表示,称为声波。声波是在时间和幅度上都连续变化的量,我们称之为模拟量。7用声音录制软件记录的英文单词“Hello”的语音实际波形如图4-1所示:图4-1用声音录制软件记录的英文单词“Hello”的语音实际波形84.1.3模拟音频信号的物理特征模拟音频信号有两个重要参数:频率和幅度。频率体现音调的高低,幅度体现声音的强弱。一个声源每秒可产生成百上千个波,我们把每秒波峰所发生的数目称为信号的频率,单位用赫兹(Hz)或千赫兹(kHz)表示。如一个声波信号在一秒内有5000个波峰,可将其频率表示为5000Hz或5kHz。人们说话时语音信号频率范围在300Hz~3000Hz之间。频率小于20Hz的信号称为亚音(Subsonic),范围为20Hz~20kHz的信号称为音频(Audio),高于20kHz的信号称为超音频(Ultrasonic)。9与频率相关的另一个参数是信号的周期。它指信号在两个峰点或谷底之间的相对时间。周期和频率互为倒数(如图4-2)。信号的幅度是从信号的基线到当前波峰的距离。幅度决定信号音量的强弱程度。幅度越大,声音越强。音频信号声音的强度用分贝(dB)表示。分贝的幅度称为音量。幅度限周期基线图4-2声音的幅度和周期104.1.4声音的A/D与D/A转换模拟信号易受电子干扰。随着技术的发展,声音信号逐渐过渡到数字存储阶段,A/D转换和D/A转换技术应运而生。这里,A代表“Analog”(类比、模拟),D代表“Digital”(数字、数码),A/D转换就是把模拟信号转换成数字信号。A/D转换芯片如图4-3,其好处是:声音存储质量得到加强,数字化的声音信息使计算机能够进行识别和处理。A/D或D/A转换的波形如图4-4,这也是磁带逐渐被淘汰,CD唱片趋于流行的原因。A/D转换关键步骤是声音的采样和量化,得到的数字音频信号是在时间上不连续的离散信号。11图4-38位可编程A/D转换芯片图4-4借助于A/D或D/A转换器,模拟信号和数字信号可以互相转换124.1.5与声音有关的几个术语音高是声波频率的主观属性,它与声波的频率有关。声波的振动频率高,我们听到的声音就高,但它们之间并非线性关系。音色是声波波形的主观属性。不同的发音体所发出的声波都有自己的特性。声波的类型是多种多样的,一般可分为纯音和复合音两大类。语音是特殊的复合音。语音由元音和辅音构成。元音是一种能连续发出的音,辅音主要是不能连续发出的短促的音,元音与辅音合成汉语音节。响度是声波振幅的主观属性,它由声波的振幅引起。振幅越大响度越大,但它们之间也不是线性关系。134.1.6声音质量的评价我们经常会对某一歌手的歌声发表意见,并与其他歌手进行比较,这其实是对声音的质量进行评价。对声音质量的评价实际上很困难,是个值得研究的课题。声音质量的度量一般有客观质量度量和主观质量度量两种基本方法。声音客观质量度量方法声波的测量与分析,传统的方法是先用机电换能器把声波转换为相应的电信号,然后用电子仪表放大到一定的电压级进行测量分析。由于计算机技术的发展,许多计算和测量工作都用计算机实现。这些带计算机处理系统的高级声学测量仪器,能完成下列测量工作:14评价值的测量响度和响度级,噪音级,清晰度指数,噪音评价数。声源的测量频谱的时间变化,声功率,指向性,效率,频谱特征,幅值分布等。音质的测量混响时间,隔音量,吸音量。声测量的基本仪器是声级计。声级计是一种能对声音作出类似人耳的反应的仪器,它能进行客观而可重复的声压和声级测量。声压测量能帮助音乐厅提高音响效果;能对烦扰声音进行精密的、科学的分析。声级测量还能明确地告诉我们什么声音会引起听力损害,并提醒人们采用适当的听力保护措施。15音频测试仪如图4-5所示。图4-5音频测试仪(AUDIOTEST)16度量声音客观质量的一个主要指标是信噪比SNR(SignaltoNoiseRation),信噪比是有用信号与噪声之比的简称。单位是分贝(dB)。声音主观质量的度量采用客观标准方法评定某种编码器的质量很难,在实际中,主观的质量度量比客观质量的度量更为恰当和合理。通常是对某编码器的输出的声音质量进行评价,例如播放一段音乐,记录一段话,然后重放给实验者听,再由实验者进行综合对比评定。可以说,人的感觉机理最具有决定意义。当然,可靠的主观度量值较难获得。17平均判分MOS(MeanOpinionScore)是召集一批实验者,请每个实验者对某个编解码器的输出进行质量判分,采用类似于考试的五级分制,不同的MOS分对应的质量级别和失真级别见表4.1。表4.1MOS与音频质量的关系MOS质量级别失真级别5优(Excellent)不察觉4良(Good)刚察觉但不可厌3中(Fair)察觉及稍微可厌2差(Poor)可厌(但不令人反感)1劣(Unacceptable)极可厌(令人反感)18声音质量分级与带宽声音的质量与它所占用的频带宽度有关,频带越宽,信号强度的相对变化范围就越大,音响效果也就越好。声音质量按带宽可分为4级:数字激光唱盘质量,通常又称CD-DA质量,这种质量就是常说的超高保真,即SuperHiFi(HighFidelity)。调频无线电广播,简称FM(FrequencyModulation)质量。调幅无线电广播,简称AM(AmplitudeModulation)质量。电话(Telephone)质量。4级质量中,CD-DA质量等级最高,其余依次减低。19图4-64级声音质量的频率范围图4-6所示为这4级声音的频率范围。204.2模拟音频的数字化过程若用计算机对音频信息进行处理,首先要将模拟音频信号转变成数字信号。现在几乎所有专业化声音录制、编辑器都是数字方式。对模拟音频数字化涉及到音频的采样、量化和编码。其过程如图4-7所示。采样和量化由A/D转换器实现。A/D转换器以固定频率去采样,采样和量化后的声音信号经编码成为数字音频信号,将其以文件形式保存在计算机的存储介质中,称为数字声波文件。图4-7模拟信号的数字化过程214.2.1采样早在20世纪40年代,信息论奠基者香农(Shannon)指出:在一定条件下,用离散的序列可以完全代表一个连续函数。这就是采样定理。采样定理是数字化技术的基础。把模拟音频信号波形进行分割,转变成数字信号,这种方法称为采样(Sampling)。采样是每隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上的连续信号,变成时间上的离散信号。该时间间隔称为采样周期,其倒数为采样频率。采样频率越高,在单位时间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确。22采样频率与声音频率之间有一定的关系,根据奈奎斯特(Nyquist)理论,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来的声音。例如电话和CD唱片。在数字电话系统中,为将人的声音变为数字信号,采用脉冲编码调制PCM方法,每秒钟进行8000次的采样。要想获得CD音质的效果,则要保证采样频率为44.1kHz,也就是能够捕获频率高达22050Hz的信号。234.2.2量化采样解决了音频波形信号在时间轴(即横轴)上把一个波形切成若干个等分的数字化问题,但每一等分的长方形的高是多少呢?即需要用某种数字化的方法来反映某一瞬间声波幅度的电压值的大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称为“量化”。量化是将采样后的信号按整个声波的幅度划分成有限个区段,把落入某个区段内的样值归为一类,赋于相同的量化值。分割采样信号的幅度采取二进制的方式,以8或16位(bit)划分纵轴。8位记录模式音效中,纵轴被划分为2的8次方个量化等级(quantizationlevels)以记录其幅度大小。以16位为记录模式的音效中,其纵轴被划分为2的16次方个量化等级。24在相同采样频率下,量化位数愈高,声音质量越好。同理,相同量化位数情况下,采样频率越高,声音效果也越好。表4.2是不同信号类型的采样率和量化精度。表4.2不同信号类型的采样率和量化精度信号类型频率范围(Hz)采样率(kHz)量化精度(位)电话话音200-340088宽带音频50-70001616调频广播20-15k37.816高质量音频20-22k44.116254.2.3采样与量化过程示例以图4-8所示的原始模拟波形为例进行采样和量化。假设采样频率为1000次/秒,即每1/1000秒A/D转换器采样一次。其幅度被划分成09共10个量化等级,将采样的幅度值取最接近09之间的一个数来表示。图4-8采样频率为1000Hz、量化等级为10的采样量化过程

1 / 133
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功