第2章数字声音与MIDI本章主要内容:声音的基本特性;声音的数字化(数字音频);电子音乐合成数字音频处理•声音的基本特性–主要内容包括:•声音的物理特性•声音的心理学特性•声音的质量度量(评价)•声音的基本特性–声音的物理特性•声音是由物体振动而产生的(声源);•自然界中声音是靠空气传播的,声音在空气中能引起非常小的压力变化;•声源所引起的空气压力变化,被耳朵的耳膜所检测,然后产生电信号刺激大脑的听觉神经,从而使人们能感觉到声音的存在。•声音的基本特性–声音的物理特性——正弦波特性•自然界的各种声音大都具有周期性的强弱变化的特性,因而也使得输出的压力信号也周期变化。•声音的基本特性–声音的物理特性——正弦波的线性叠加•在任一时刻t,声波可以分解成一系列正弦波的线性叠加0()sin()nnnftAnt次谐波的初相位。是低,表示声音的强弱;是振幅,指波的幅度高,与声音的音色有关;次谐波分量或称为泛音的称为定了声音音调的高低;称为基频或基音,它决其中,nAnnnn•声音的基本特性–声音的物理特性•将曲线上的任一点再次出现所需时间间隔称为周期。•一秒钟内声音由高(压力强)到低(压力低)再到高(压力强),这样一个循环出现的次数称为频率。频率越高,声音越高,以赫兹(Hz)为度量单位。•一个系统能够接收的频率是有限的,人们把系统能够接受的最低频率和最高频率之间的范围称为系统的带宽(Bandwidth)。•声音的基本特性–声音的物理特性•人类能够接受的听觉带宽是20Hz到20KHz,可称为音频(Audio)信号;•音频范围内,语音(Speech)信号的带宽是300Hz到3KHz。•声音的基本特性–音频的物理特性——音频分类分类注释视听效果不规则声音一般指不携带信息的噪声规则声音(乐音)语音是指具有语言内涵和人类约定俗成的特殊媒体音乐规范的符号化了的声音音效指人类熟悉的其他声音,如动物发声、机器产生的声音、自然界的风雨雷电等。单击收听单击收听单击收听•声音的基本特性–声音的心理学特性——声音三要素•声音的三要素即为音调、音强、音色。•音调与声音的频率有关,频率快则声音高,频率慢则声音低。•音强又称响度,取决于声音的幅度,即振幅的大小和强弱。•音色由混入基音的泛音所决定的,每个基音又都有其固有的频率和不同音强的泛音,从而使得每个声音具有特殊的音色效果。•声音的基本特性–声音的心理学特性——掩蔽效应•一个声音被另外一个较强声音掩盖的现象称为声掩蔽。称听不到的声音为被掩蔽声。•掩蔽效应的实质是掩蔽声的出现使人耳听觉的等响度曲线的最小可听阀抬高。•掩蔽效应的一般规律是强音压弱音、低频率声音压高频率声音。•作用:用有用信号去掩蔽无用的声信号;数字音频可去掉人耳听不到那部分信号进行压缩;等。•声音的基本特性–声音的心理学特性——方位感和空间感•由于人类的耳朵能够判别出声音到达左右耳的相对时差、声音强度,所以能够判别出声音的方向(方位感)以及由于空间使声音来回反射而造成声音的特殊空间效果(空间感)。•现在的音响设备都在竭力模拟这种立体声效果和空间感效果。•声音的基本特性–声音的质量度量•客观质量度量——即音频信号的技术指标,如:频带宽度、动态范围和信噪比;•主观质量度量–对语音而言,常用可懂度、清晰度、自然度来衡量;而对音乐来说,保真度、空间感、音响效果都是重要的指标。•在语音评价过程中,主观的质量评价较客观的质量评价更为恰当。•声音的基本特性–声音的客观质量——度量标准之一•声音的质量与声音的带宽有关。一般说来,频率范围(带宽)越宽声音的质量就越高。声音类型带宽电话语音200Hz-3.4kHz调幅广播(AM)50Hz-7kHz调频广播(FM)20Hz-15kHzCD10Hz-22kHz•声音的基本特性–声音的客观质量——度量标准之二•信噪比(SignalNoiseRetio,SNR)–SNR是有用信号与噪音之比的简称,即有用信号的平均功率与噪声的平均功率之比:–信噪比大,在一定程度上能够掩蔽噪声,从而获得较好的声音效果。–信噪比不仅是声音设备的性能指标,在声音的录制和播放时,也要注意环境噪声。录制时应尽量减少环境噪声。噪声的平均功率有用信号的平均功率SNR•声音的基本特性–声音的客观质量——度量标准之三•动态范围–声音的动态范围:音频信号的最大强度与最小强度之比。–动态范围越大,说明音频信号的相对变化范围大,则音响效果越好。音质效果AM广播FM广播数字电话CD-DA动态范围(dB)406050100•声音的基本特性–声音的客观质量度量的应用•声音的基本特性–声音的主观质量评价标准级别评价失真级别1优(Excellent)感觉不到声音失真2良(Good)刚察觉但不讨厌3中(Fair)声音有些失真,有点讨厌4差(Poor)声音失真,不令人反感5劣(Bad)严重失真,令人反感•声音信号的数字化–主要内容包括:•声音数字化的方法•声音数字化的主要设备:声卡•常见的数字音频格式•声音信号的数字化–为什么要将声音数字化?•自然界的声音是一种模拟的音频信息,是连续量。而计算机只能处理离散的数字量,这就要求必须数字化。•优点:数字化声音传输时抗干扰强,存储时重放性能好,易处理,能进行数据压缩,可纠错,容易混合。•声音信号的数字化–声音的类型•模拟音频(AnalogAudio)–模拟音频是一种连续的模拟量,以电的、磁的等形式表示。例如当我们对着麦克风讲话时,麦克风能根据它周围空气压力的不同变化而输出相应连续变化的电压值,这种变化的电压值便是一种对我们讲话声音的模拟,是一种模拟量,称为模拟音频。–计算机不能直接处理模拟音频•声音信号的数字化–声音的类型•数字音频(DigitalAudio)–数字音频的获得是通过每隔一定的时间间隔测一次模拟音频的值(如电压)并将其数字化。–由上可知:数字音频是离散的,而模拟音频是连续的,数字音频质量的好坏与采样率密切相关。数字音频信息可以被计算机存储、处理和播放。•声音信号的数字化–声音数字化的方法•PCM(PulseCodeModulation,脉冲编码调制)是一种把模拟信号转换为数字信号的最基本的编码方法。它主要包括3个步骤:–1.采样(Sampling)–2.量化(Quantization:A/Dconversion)–3.编码(Encoding)采样量化编码模拟音频数字音频01101001……•声音信号的数字化–采样(Sampling)•定义–每隔一定的时间间隔测一次模拟音频的值(如电压)并将其数字化,这一过程称为采样。•原理–用一定速率的离散采样序列可以代替一个连续的频带有限的信号而不丢失任何信息。•声音信号的数字化–采样(Sampling)•奈奎斯特理论(Nyquisttheory)–“Forlosslessdigitization,thesamplingrateshouldbeatleasttwicethemaximumfrequencyresponse.”–要获得一个无损的采样,就必须以波形最高允许频率的两倍作为采样率。•声音信号的数字化–采样(Sampling)•奈奎斯特理论(Nyquisttheory)•声音信号的数字化–采样频率(SamplingFrequence)•采样频率是根据Nyquisttheory和声音信号本身的最高频率决定的。–每秒钟采样的次数称为采样频率,采样频率的大小取决于带宽。例如,人类接受的听觉带宽是20Hz~20KHz。按照这个理论,要产生听得见的频率范围需要大于40KHz的采样率。所以,菲利浦和索尼公司在设计光盘(CD)时,选择了44.1KHz的采样频率。在Windows下所支持的其它采样率还有11.025KHz,22.05KHz和44.1KHz等。•通常,采样频率越高,记录的声音就越自然,反之,若采样频率太低将失去原有声音的自然特性,这一现象称为失真。•声音信号的数字化–量化(Quantization)•量化是连续幅度的离散化,就是把信号的强度划分成一小段一小段。–如果幅度的划分是等间隔的,就称为均匀量化,否则就称为非均匀量化。•声音信号的数字化–样本精度(SamplingResolution)•在数字化系统中,样本大小是用每个声音样本的位数bit/s(bps)表示的,它反映度量声音波形幅度的精度,也称为样本精度或量化位数。•样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。•声音信号的数字化–采样和量化量化采样•声音信号的数字化–采样和量化量化采样•声音信号的数字化–采样(Sampling)(注意:鼠标点击画面开始播放动画)•声音信号的数字化–总结•声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化,即声音数字化需要回答两个问题:–每秒钟需要采集多少个声音样本,也就是采样频率(fs)是多少;–每个声音样本的位数(bitpersample,bps)应该是多少,也就是量化精度。•声音信号的数字化–数字音频数据量计算•前提:未经压缩的数字音频:–数据量=采样频率(Hz)×量化位数(bit)×声道数×持续时间(s)/8(b/B)•声音信号的数字化–音频质量与数据率质量采样频率(kHz)样本精度(bit/s)单道声/立体声数据率(kB/s)(未压缩)频率范围电话*88单道声8200~3400HzAM11.0258单道声1120~15000HzFM22.0516立体声88.250~7000HzCD44.116立体声176.420~20000HzDAT4816立体声19220~20000Hz•想一想–数字音频信号与模拟音频信号间有哪些区别?–某人进行录音,设置的采样频率为44kHz,采样精度为16bit,双声道录音1分钟,请问该音频的存储容量为多少?•声音信号的数字化–模拟音频与数字音频的转换•多媒体计算机中录音/放音的处理过程•声音信号的数字化–声卡的分类•声卡可分为三类:–低档声卡:仅提供比较单一的声音,音质较差,无录音功能–中档声卡:具有立体声音质,MIDI音乐、录音、播放等功能,能满足一般的多媒体应用需求。–高档声卡:除具有中档声卡的所有特点外,一般都带有专用的数字信号处理器DSP,可用于高级音乐编辑、创作,实时语言识别等功能。•声音信号的数字化–声卡的构成•声卡主要有四个部分组成:–AD/DA转换器»负责录音及播放*.WAV格式的波形文件。–电子合成器(Synthesizer)»负责MIDI乐曲的合成,及时创造各种音乐。–混音器(Mixer)»是一个处理音效控制的芯片,负责调节各声音来源的音量、混音与调整录放音的音量大小。–CD音频连接器(CD-AudioConnector)»可以接收光盘机中的音乐信号。•声音信号的数字化–声卡的构成•声音信号的数字化–声卡的构成(注意:鼠标点击画面开始播放动画)•声卡的构成与功能–声卡与其它设备的连接•课余调研–课余进行调研,了解高档声卡的价格以及具备其它什么功能?–利用网络资源,了解个人录音室怎么搭建?•声音信号的数字化–常见的声音文件格式(1)文件的扩展名说明AuSun和NeXT公司的声音文件存储格式(8位m律编码或者16位线性编码)aif(AudioInterchange)Apple计算机上的声音文件存储格式cmf(CreativeMusicFormat)声霸(SB)卡带的MIDI文件存储格式MctMIDI文件存储格式mff(MIDIFilesFormat)MIDI文件存储格式mid(MIDI)Windows的MIDI文件存储格式Mp2MPEGLayerI,IIMp3MPEGLayerIIImod(Module)MIDI文件存储格式rm(RealMedia)RealNetworks公司的流放式声音文件格式•声音信号的数字化–常见的声音文件格式(2)ra(RealAudio)RealNetworks公司的流放式声音文件格式RolAdlib声音卡文件存储格式snd(sound)Apple计算机上的声音文件存储格式SeqMIDI