第二章音频信息处理这一章将讨论声音、音乐编码以及语音的处理。我们将介绍声音的基本概念、常用格式以及声音在计算机中的表现形式。由于在多媒体系统中,声音主要是以音乐和/或语音的形式出现、所以我们还着重讨论音乐和音乐的MIDI标准以及语音的合成、识别、传输技术。本章重点讲述内容目录2.1多媒体中音频信息与信息处理2.2音频编码基础2.3音频编码标准2.4音乐合成和MIDI2.5语音合成2.6语音识别2003年9月第二章音频信息处理引言3音频信息处理概述上课思路简述音频信息和音频信息处理的概念。介绍音频信息的应用前景介绍一些音频处理工具§2.12003年9月第二章音频信息处理引言5多媒体中音频信号处理应用和处理技术从人与计算机交互的角度来看音频信号相应的处理如下:人与计算机通信(计算机接收音频信号)•音频获取;语音识别与理解计算机与人通信(计算机输出音频)•音频合成:包括音乐合成和语音合成•声音定位:包括立体声模拟;音频/视频同步;目的是让计算机产生真实感声音人—计算机—人通信•人通过网络,与处于异地的人进行语音通信•语音采集、音频编码/解码、音频传输;说话人识别;基于内容检索;口语翻译一、多媒体中音频信息音频信息的分类音频信息的特点声音的物理特性2003年9月第二章音频信息处理引言7多媒体中音频信息Audio音频Unvoice清不带音Noise杂音Sound非语音声音Voice浊带音Music乐音Speech语音言语音频处理技术?音频是多媒体的重要媒体之一:2003年9月第二章音频信息处理引言8声音的物理特征频率振幅声音是机械振动。振动越强,声音越大。2003年9月第二章音频信息处理引言9音频信息的特点音频携带的信息量大、精细、准确音频被用来传递消息、意向、情感,是人类最熟悉的传递消息的方式。以某个汉字为例,表3.1列出了其表达方式、数据量和信息:表示方式数据量信息汉字内码2字节汉字名称点阵32-几百字节带有字型、字体特征的汉字声音几千字节汉字名称、声学特性、意向或情感二、音频处理基础音频信号的数字化与数字化音频信号采样与特征采样抽样与混叠量化与噪声音频信号的分析与处理音频信号分析:时域、频域、倒谱分析,线性/非线性预测短时处理2003年9月第二章音频信息处理引言11音频处理基础什么是数字音频?话筒把机械振动转换成电信号,模拟音频中以模拟电压的幅度表示声音强弱。在数字音频中,数字声音是一个数据序列。它是由模拟声音经抽样、量化和编码后得到的。2003年9月第二章音频信息处理引言12电压范围(V)量化(十进制)编码(二进制)0.5~0.730110.3~0.520100.1~0.31001-0.1~0.10000-0.3~-0.1-1111-0.5~-0.3-2110-0.7~-0.5-3101-0.9~-0.7-4100模拟电压、量化和编码举例2003年9月第二章音频信息处理引言13音频处理基础音频数字化把模拟音频信号转换成有限个数字表示的离散序列,即实现音频数字化。它涉及到音频的抽样、量化和编码。在数字音频中,用数字来表示音频幅度时,只能把无穷多个电压幅度用有限个数字表示。即把某一幅度范围内的电压用一个数字表示,这称之为量化。当把模拟声音变成数字声音时,每隔一个时间间隔在摸拟声音波形上取一个幅度值,这称之为抽样。该时间间隔称为抽样周期(其倒数称为采样频率)。2003年9月第二章音频信息处理引言14采样与量化采样间隔△t量化2003年9月第二章音频信息处理引言152003年9月第二章音频信息处理引言16抽样定理设连续信号)(tx的频谱为)(fX,以抽样间隔T抽样得到离散信号)(nTx,如果满足:当cff时,0)(fX,其中cf是截止频率且cfT21或Tfc21则可以由)(nTx完全确定频谱)(fX:nfnTjenTxTfX2)()(可由离散信号)(nTx完全确定连续信号)(tx:nnTtTnTtTnTxtx)()(sin)()(Why?乃奎斯特(Nyquist)采样理论:采样频率不应低于声音信号最高频率的两倍,即这样就能把以数字表达的声音还原成原来的声音。例如:电话话音的信号频率约为3.4kHz,采样频率一般选用8kHz2sff或者2sTT2003年9月第二章音频信息处理引言172003年9月第二章音频信息处理引言18连续/离散周期/非周期连续非周期连续周期离散周期离散非周期2003年9月第二章音频信息处理引言19抽样与混叠常用的音频抽样率有:8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz。若抽样频率小于Nf,离散信号)(nTx不能唯一地确定)(tx。这时离散信号频谱)(fXT是连续信号频谱折叠而成,即mmcTmffXTmfXfX)2()()()(fX是一个周期函数,周期为2fc,)(fXT仍是一个周期函数,是由)(fX分段叠加而成。2003年9月第二章音频信息处理引言20抽样与混叠2003年9月第二章音频信息处理引言21抽样与混叠若抽样频率小于Nf,离散信号)(nTx不能唯一地确定)(tx。这时离散信号频谱)(fXT是连续信号频谱折叠而成,即mmcTmffXTmfXfX)2()()()(fX是一个周期函数,周期为2fc,)(fXT仍是一个周期函数,只是由)(fX分段叠加而成。其直观结果是频谱发生混叠,声音听起来发闷。与其选择宽带音频,不如选择窄带音频效果好。2003年9月第二章音频信息处理引言22量化为了把抽样序列)(nTx存入计算机,必须将样值量化成一个有限个幅度值的集合)(nTx。用二进制数字表示量化后的样值。用B位二进制码字可以表示2B个不同的量化电平。存储数字音频信号的比特率为:fsBI(比特/秒)fs是抽样率(抽样/秒)B是每个样值的比特数(比特/抽样)2003年9月第二章音频信息处理引言23量化噪声量化抽样的过程:先将整个幅度划分成为有限个小幅度(量化阶距)的集合,把落入某个阶距内的样值归为一类,并赋予相同的量化值。如果量化值是均匀分布的,我们称之为均匀量化。设△为量化阶距,量化器的最大范围是Xmax,则:22XBmax对于小于)21(i,而大于)21(i的样值,均规定为相同的量化值i。抽样值)(ˆnTx与未量化样值)(nTx的关系是:)()()(ˆnenTxnTx)(ne是量化误差(量化噪声),22en()2003年9月第二章音频信息处理引言24量化噪声的特点量化噪声的特点:语音信号是一个复杂信号,若量化阶距足够小,那么量化噪声与输入信号不相关,即0)]()([mnenxEm为任意值量化噪声是平稳白噪声过程,其均值为0,且量化噪声之间不相关,即:2)]()([emneneE0me是量误差)(ne的均方差=0其它对于阶距为△的均匀量化器,量化噪声的幅度分布是均匀的,量化误差与阶距的关系是:pee()122en()=0其它2003年9月第二章音频信息处理引言25量化性能评价定义信号与量化噪声功率比为信噪比:)]([)]([2222nEnxESNReex假设量化器量化范围是max2X(maxX为峰值)。量化器位数是B,则均为量化器的阶距△为:BX22max按上述噪声具有均匀幅度分布的假设,则:eBxeBxXSNRX22222222123232maxmax()()2003年9月第二章音频信息处理引言26量化性能评价信噪比用分贝表示:]log[20677.4]log[10)(max22xexXBdBSNR假设输入信号均方差x的四倍刚好是maxX,即xX4max,则上式变为:2776)(BdBSNR我们常用此公式近似计算量化器的信噪比,如:B=6SNR(dB)=28.85B=8SNR(dB)=40.89量化器每增加一位编码,信噪比增大6dB。在高保真的音响系统中,信噪比大于90dB。2003年9月第二章音频信息处理引言27分析与处理音频信号的时域(TimeDomain)分析TV0语音信号的时域波形2003年9月第二章音频信息处理引言28时域分析语音信号的时域分析就是分析和提取语音信号的时域参数。贯穿于语音信号分析全过程的是“短时分析技术”语音信号是时变的,但在较短的时间内(10~30ms)其特性被认为是基本保持不变(或者说具有相对的稳定性)将语音信号时域波形划分成段,逐段进行分析(每一段称之为一个帧)时域参数包括:短时能量(度量语音信号幅度值变化的函数)、短时过零率(表示一帧语音中语音信号波形穿过横轴(零电平)的次数)、短时自相关函数和短时平均幅度差函数等等2003年9月第二章音频信息处理引言29特征计算、短时处理短时能量:短时平均幅度:2()()nmExmhnm()()()nmMkxnwnm2003年9月第二章音频信息处理引言30特征计算、短时处理加窗处理:假设语音特征在短时间内基本不变,那么,可以将语音利用加窗处理,截成一个个短段。窗函数:矩形窗:1)(nw10Nn=0其他Hamming:)]1/(2cos[46.054.0)(Nnnw10Nn=0其他2003年9月第二章音频信息处理引言31特征计算、短时处理2003年9月第二章音频信息处理引言32特征计算、短时处理如何计算其平均幅度?设音频信号抽样频率为10KHz,设矩形窗的窗长为100点2003年9月第二章音频信息处理引言33频域分析语音信号的频域分析就是分析语音信号的频域持征。从广义上讲,语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络分析等,而常用的频域分析方法有带通滤波器组法、傅里叶变换法、线件预测法等几种。浊音段的功率普密度举例清音段的功率谱密度举例凸起的转折点称之为“共振峰”凸起的转折点称之为“共振峰”2003年9月第二章音频信息处理引言34语谱图分析语音信号的语谱(Sonogram)图分析:把和时序相关的傅里叶分析结果显示的图形称为语谱图(Sonogram,或者Spectrogram),它表示语音频谱随时间变化的三维图形。Spectrogram:time,frequency,amplitudeSonogram2003年9月第二章音频信息处理引言35倒谱分析倒频谱(Cepstrum),其英文为Spectrum的前4个字母的倒排列将语音卷积信号(乘积形式,音源信号与声道脉冲信号的乘积)的频谱转换为加性形式,其中要进行离散傅里叶变换与逆变换,其结果为复数形式,称之为“复倒谱(ComplexCepstrun)”,其实部形式称之为“倒谱(Cepstrun)”在语音识别技术中将详细描述三、音频信息的应用音频信息在各领域中的应用应用举例Internet电话及VoIP(VoiceoverIP)简介2003年9月第二章音频信息处理引言37音频信息的应用视频图象的配音、配乐。如静态图象的解说、背景音乐可视电话、电视会议中的话音。游戏中的音响效果Internet电话(IPphone);声音欺骗系统现代“芝麻开门”系统电子读物的有声输出声音控制命令:用声音控制Web,或读出Web的内容用声音控制电话拨号Internet上的实时音频用电话听电子邮件、股票信息智能房间中的音频、虚拟现实中的声音模拟2003年9月第二章音频信息处理引言38声音欺骗复制敌人声音将作为一种作战技巧。截获敌人的无线电信号,改变其内容,用敌军话务员的原声把信号重新传送出去。声音伪造装置将截获的信号分割成0.25秒的片断,把敌军话务员的声音分为几十个音素。转换成参考模板,储存在电子图书馆里。情报技师可用自己的声音讲话,但只要触