第2章音频信息处理2.1音频处理基础本节要点声音的基本特征音频的数字化数字音频文件格式数字音频处理技术问题模拟声音与数字声音的区别是什么?声音的质量由什么来决定?声音的音调与音色分别由什么来决定?常见的声音格式有哪些?各自有什么特点?单声道与立体声的区别是什么?如何互相转换?1.声波(1)声波:由各种机械振动或气流扰动引起周围的弹性媒质发生波动。(2)声源:产生声波的物体,如人的声带和乐器等。(3)声音:人的听觉系统所能感知到的声波。音频的频率范围:20Hz~20000Hz语音的频率范围:300Hz~3000Hz次声波的频率范围:20Hz超声波的频率范围:20kHz(4)声强:对于一定频率的声音,要能引起听觉,其声强也有一定的范围。下限:是恰能引起人听觉的最小声强,叫做该频率的可闻阈;上限:是指人耳能听闻的最大声强,高于上限的声强,人耳感觉疼痛,所以叫做该频率的疼痛阈。常见声音的分贝量级分贝数低于2020~4040~6060~7070~9090听觉效果能分辨轻声正常交谈声吵闹很吵听力受损2.声音的基本特征(1)声波信号的物理特征周期(T):声波的两个波峰或波谷之间的相对时间。频率(f):周期的倒数(f=1/T),即每秒波峰或波谷出现的次数。幅度:从声波信号的基线到波峰的距离,幅度越大声波的强度也越大。通常也用声压、声强或声功率来表示声音的强弱。人们感知到的声音特征称为心理学特征音调:由发声物体的振动频率决定,振动越快(即频率越大),音调越高,振动越慢,音调越低。音色:这是一个主观评价声音的量,声音的音色取决于声音的频谱结构,一般高次谐波越丰富,音色越明亮并具有穿透力。响度:人耳对声音强弱的感觉程度,主要取决于振幅和声压。通常振幅越大声音越响,其次人耳距离声源越远,声音越小。(2)声音信号的心理学特征(3)声音质量的评价声音质量与带宽有关,频率范围越宽,声音质量越高。1)声音质量分级:按照声音信号的频率范围将声音质量分为5级。质量频率范围采样频率(kHz)采样精度(bits)声道数数据率(非压缩)(kB/s)电话200~3400Hz88单道声8AM100~5500Hz11.0258单道声11.0FM20~11000Hz22.05016立体声88.2CD-DA5~20000Hz44.116立体声176.4DVD0~96000Hz192246声道12002)信噪比(SNR):即有用信号与噪音信号的强度之比,单位是分贝。3)声音质量的主观度量:主观度量就是大多数人对声音质量的感觉。00)sin()(nnntnAtf3.音频信号的表示(1)音频信号:通过麦克风等设备转换成的电信号。规则音频信号:带有语音、音乐和音效的有规律的音频信号,承载了一定的信息。语音:语言的载体,有丰富的语言内涵,是人类交流的信息载体。音乐:是一种规范的符号化的声音。音效:自然界中各种声音效果,如掌声、雷鸣声,爆破声等。不规则音频信号:不包含任何信息的声音,比如噪声。(2)音频信号的表示1)音频信号的数学表示ω0:声音的基音,决定了音调的高低nω0:声音的泛音,决定了声音的音色An:声波的振幅,表示声音的强弱2)音频信号的波形表示3)音频信号的频谱表示声音信号的频率分布曲线。复杂的声音是由振幅和频率不同的正弦声波叠加而成的,这些正弦波的幅值按频率排列的图形就叫做频谱。男声的基频较低,低频分量更加丰富,因此听起来会更加低沉、浑厚。1.音频信号数字化声音信号在时间上是连续的,在幅度上也是连续的,属于模拟信号。(1)采样声音信号在时间上的离散化,即每隔一段时间抽取一个信号样本。采样频率:每秒采样的次数。奈奎斯特理论(Nyquisttheory):采样频率不低于声音信号最高频率的两倍,这样就能把数字声音还原成原来的声音,称为无损数字化。fs=2fmax电话话音信号的最高频率约为3.4kHz,所以采样频率取为8kHz。2.1.2音频信号的数字化声音信号在幅度上的离散化也就是采样过程中对每一个采样点的幅度值用数字量来表示。如果幅度的划分是等间隔的,称为线性量化,否则为非线性量化。采样精度:即量化的位数,位数越多量化等级数也越多,所能表示的声波幅度的动态范围也越大,当然需要的存储空间也越大。(2)量化(3)编码就是用一组二进制码组来表示每一个有固定电平的量化值,或者说将量化值转换成二进制码组。典型的音频编码方法:脉冲编码调制法(PCM)。(4)数字音频的数据量数据量=采样频率*采样精度*采样时间*声道数/8(字节数)单声道:一次只产生一组声波数据立体声:一次产生两组声波数据例2.1计算一分钟未压缩的高保真立体声数字声音数据的大小。60*(44100*16*2)/8=10.09MB一首未经压缩的4分钟的歌曲文件的大小约为40MB,那么一个容量为4GB的MP3播放器可存放100首这样的歌曲。2.数字音频压缩标准(1)电话质量的语音压缩标准(2)调幅广播语音压缩标准G.722(3)宽带音频压缩标准标准编码方法采样频率采样精度数据传输率G.711PCM8kHz8位64kb/sG.721ADPCM8kHz8位32kb/sG.723ADPCM8kHz8位24kb/sG.728LD-CELP8kHz8位16kb/sMPEG音频:第一个高保真立体声音频压缩的国际标准MPEG音频压缩标准提供三个独立的压缩层次:1)Layer1:编码器简单,输出数据率为384kb/s,主要用于小型数字盒式磁带。2)Layer2:编码器较复杂,输出数据率为256kb/s~192kb/s,主要应用于数字广播声音、数字音乐、CD-I和VCD等。3)Layer3:编码器复杂,输出数据率为64kb/s,主要用于ISDN(综合业务数字网,一种数字电话网的国际标准)上的声音传输。1.WAV文件:波形文件,微软开发,需要的存储量大,多用于存储简短的声音片段和旁白。2.MIDI文件:记录的是生成音乐的指令,MIDI文件短小。由于MIDI记录的并不是真正的声音,所以不同的声卡,不同软波表,不同硬件音源的音色是不相同的,相同的MIDI文件在不同的设备上播放也会有不同的效果。MIDI文件适合作为背景音乐来播放。3.MP3文件:是MPEG音频第3层的简称,有损压缩,压缩比达12:1。MP3利用人耳的掩蔽特性,削减音频中人耳听不到的成分,同时尽可能地维持原来的声音质量。4.RA文件:属于RealMedia的音频部分,采用流式传输方式,可以在非常低的带宽下提供足够好的音质让用户能在线聆听。5.WMA文件:WindowsMedia的音频部分。无损压缩,支持多声道编码。6.AC3文件:又叫杜比数码环绕立体声,压缩比10:1,提供的环绕声系统由5个全频域声道和1个超低音声道组成,称为5.1声道,一般作为DVD的伴音。3.数字音频文件的格式2)语音识别系统分类对说话人说话方式的要求孤立字(词)语音识别系统连接字语音识别系统连续语音识别系统。对说话人的依赖程度特定人语音识别系统非特定人语音识别系统词汇量大小小词汇量语音识别系统中等词汇量语音识别系统大词汇量语音识别系统无限词汇量语音识别系统。(1)语音识别技术1)语音识别的发展50年代:Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。60年代:提出动态规划(DP)和线性预测分析技术(LP)。70年代:提出了动态时间归正技术,实现了特定人孤立语音识别系统。90年代:开始进入实用阶段。2.1.3智能语音处理技术利用计算机合成语音的技术,使计算机具有类似人的说话能力。语音合成的三个层次从文字到语音从概念到语音从意向到语音语音合成技术的特点清晰度、自然度、表现力、复杂度语音合成的应用文语转换、语音查询(2)语音合成技术本小节介绍的要点Audition软件的功能Audition界面的组成声音文件的导入录音单轨状态下的编辑2.2音频处理软件AdobeAudition多轨状态下的编辑包络编辑效果控制消除人声多轨合成,混缩输出一Audition软件的界面组成了解界面的各个组成部分及其作用1.单轨编辑模式2.多轨编辑模式问题无法录音与播放(编辑/首选项/常规/确定)Win7或win8环境下,提示采样频率不一致,无法校正怎么办?(麦克风的高级属性设置)声音处理软件中最大音量为什么是0dB?人耳对声音大小的感知程度与表示声音的电平大小成对数关系(而非线性关系)dB=20log(vx/v0)Audition中如何更改音调?如何调节音色?如何提取背景音乐?问题录制旁白需注意哪些方面?录制时说错的地方如何处理?哪个补救方法最好?录制的声音有噪音,用什么方法去解决,哪个效果最好?旁白的后期加工步骤一般有哪些?旁白与背景音乐合成时需注意什么?多段声音切换时需注意什么?合成的采样频率与波形的采样频率不一致时会如何处理,需要注意什么?二音频信号的获取1.直接导入文件2.提取视频文件中的音频部分VCD上的dat文件直接将扩展名改为mpg(2.0版可以直接打开)将mpg格式的视频利用格式工厂转换成mov格式(CS5.5)如何提取CD中的伴奏“沉默是金”左声道:伴奏右声道:原唱“梁祝”左声道:原唱右声道:伴奏3.单轨状态下录音(1)录音前声卡的设置音频硬件设置注意控制录音电平Windows7下麦克风的设置麦克风音量设置Win7下不能录音时,更改该选项,重启Audition,新建音频文件与该设置一致即可录音,以后录音则无需一致(2)“文件|新建音频文件(3)单击“录音”请观察自己录制的人声其左右声道的波形是否一样?(1)保存会话文件会话文件保存了导入的文件以及添加的效果,在多轨下的编排等信息。(2)导入伴奏注意控制伴奏的音量(3)按下“R”,轨道进入录音状态(4)单击“”开始录音4.多轨状态下录音补充:穿插录音穿插录音:用于对已经录制好的声音片段进行重新录制。1、首先选定不满意的声音片段;2、按下轨道左边的“R”处于按下状态;3、定位好时间线,点按“录音”按钮,选定的片段自动变成静音,只有选取的片段会进行录音,其他部分的波形不会改变。选择要重新录音的片段,定位时间线,点按录音按钮三音频的编辑1.单轨状态下(1)波形的选取注意:单独选择左声道或右声道(将其中一个声道锁定)(2)波形的剪切、复制与粘贴注意:混合粘贴(3)波形的裁剪、删除注意:删除静音区(诊断面板|删除静默)(4)波形的反转与倒转的区别反转:波形相位的反转前后反向(倒转):达到逆向播放的效果2.多轨状态下(1)音量旋钮:可提升或降低当前轨道的音量大小一般降低背景音乐所在轨道的音量,提升旁白所在轨道的音量(2)声相旋钮:可控制声音在左耳与右耳之间的均衡输出(3)输入:默认为立体声,如果选择“无”,则该轨道不能进行录音(4)输出:默认为主控,如果选择“无”,则该轨道不会发出声音,相当于静音(1)工具的选择移动工具:左键用于移动选中的波形片段,右键拖移可以移动或复制当前波形片段。剃刀工具:在单击处剪开波形。滑动工具:用于滑动选择想要的波形片段。例如有一个声音录制了30秒,现在截取了第10秒到第20秒的声音片段,那么利用滑动工具在该波形片段上拖曳鼠标即可实现往前或往后滑动选择想要的那10秒的声音。时间选择工具:左键选取波形片段,右键移动波形。框选、套索和笔刷工具:在单轨状态下单击工具栏左边的(频谱频率显示)按钮后将激活这些工具按钮,用于选取所要操作的频谱区域。污点修复工具:用于修复频谱信号(一般是不到4秒的劣音,如咔哒声,破音等)。(2)时间锁定锁定音频的绝对时间,只能在上下轨道上移动,不能左右移动(3)波纹删除“编辑|删除(Del)”:那么可以清除选中的波形片段,不影响该轨道上其他波形的位置;“编辑|波纹删除”:将选定的波形片段删除,同时该轨道上后续波形后自动前移;“波纹删除|gap”,把波形之间的空隙删除;四包络编辑包络编辑:其实就是控制声音属性变化的一种手段