北京化工大学信息科学与技术学院谢晓明制作现代通信技术第2章通信终端相关技术主要内容模拟与数字视音频技术IP电话的关键技术多媒体通信技术规范与标准音频、图形、图像通信终端视频通信终端数据通信终端多媒体通信终端视音频信息基本概念视音频信息数字化视音频压缩编码彩色电视摄像机多媒体计算机用摄像头视频显示终端多媒体终端形式多媒体通信终端接口多媒体通信终端软件系统模拟与数字视音频技术主要内容视音频信息基本概念视音频信息数字化视音频压缩编码视音频信息基本概念音频信息•自然界各音源发出的可闻声和由计算机通过专门设备合成的语音或音乐。包括语音、音乐声和效果声。•随时间变化的连续媒体,处理要求有较小的延时和时延抖动。•处理涉及音频信号的获取、编解码、传输、语音的识别与理解、语音与音乐的合成等。视音频信息基本概念视频信息•一系列周期呈现的画面所组成,帧是构成视频信息的基本单元。•具有准确、直观、具体生动、高效、应用广泛、信息容量大等。视音频信息基本概念听觉特性与音频信号1.人的听觉特性2.音频信号特性强弱感觉的对数特性;频率感觉的指数规律;频响的不平坦特性;掩蔽效应。不同类型的发声体,频谱分布各不相同;话音主要能量分布在100Hz-5kHz,电话通信的频带限制在300Hz-3.4kHz。不同特色的声音信号,动态范围也各不相同。视音频信息基本概念视频技术基础•视频信号与图像扫描–镜头成像—光图像—电图像—扫描—视频信号–扫描:对景物图像像素分解与合成,图像的时空转换。–国际上存在25帧/秒和30帧/秒两种制式。–隔行扫描:解决图像连续感、闪烁感和电视信号带宽的矛盾。利用光电和电光转换原理,将光学图像转换为电信号进行记录或远距离传输,然后还原为光图像的一门技术。视音频信息基本概念视频技术基础•复合电视信号–由图像信号、同步信号、行场逆程消隐脉冲组成。一个行周期的黑白全电视信号视音频信息基本概念视频技术基础•彩色电视系统•亮色方程•按照三基色原理设计和工作;•彩色显示基本原理:加性混色法•为兼容黑白电视,传1个亮度和2个色差分量(红色及蓝色差);•我国PAL制:亮度6M,色差为1.3M。Y=0.299R+0.587G+0.114B•在Y、R、G、B中,只有3个变量独立。只要传送Y与基色中的任两个,既满足兼容需要,又可满足传送亮度与色度信息的需要。•在色度信息时,通常选择传送不反映亮度信息色度信息,即色差信息:(R-Y)红色差、(G-Y)绿色差、(B-Y)蓝色差视音频信息基本概念视频技术基础•PAL制电视的扫描特性(1)625行(扫描线)/帧,25帧/秒(40ms/帧)(2)高宽比(aspectratio):4:3(3)隔行扫描,2场/帧,312.5行/场(4)颜色模型:YUV–一帧图像的总行数625,分两场扫描。行频15625Hz,周期64μs;场频50Hz,周期20ms;帧频25Hz,场频的一半,周期40ms。一行中传图像时间52.2μs,其余11.8μs不传图像,是行扫描逆程时间,作行同步及消隐用。每一场扫描行数625/2=312.5行,其中25行作场回扫,不传送图像,传送图像的行数每场只287.5行,因此每帧只有575行有图像显示。视音频信息基本概念视频技术基础•视频信号频谱特点具有行、场或帧的准周期特性;静止图像:由行频、场频的基波及其各次谐波组成,能量以帧频为间隔对称分布在行频的各次谐波两侧。活动图像:以行频及其各次谐波为中心的一簇簇连续的梳状谱。没有能量的区域远大于有能量的区域,采用频谱交错原理完成亮度信号和色度信号的同频带传输。视音频信息数字化包括两方面内容:•音频信息时间离散化和图像信息空间位置离散化;•音频信息电平值和图像灰度电平值的离散化。音频信号离散化•采样:大于音频信号中最高频率成分的两倍。•采样频率:8,11.025,16,22.05,32,44.1,48kHz。•8-20bit量化编码。•在允许失真条件下,尽可能选择较低的采样频率,以免数据速率过高。视音频信息数字化视频信号离散化•采样是使图像信号在空间位置的离散化视音频信息数字化视音频信号的量化•抽样后的离散样值从连续的取值转化为有限个离散值。•均匀量化与非均匀量化•量化误差或量化失真•图像信号的颗粒噪声和伪轮廓现象•实质:–在保证一定图像或声音质量下,以最小比特数来表示视音频信号。•视频信号通常采用6-10bit量化编码视音频压缩编码目的:为提高信道利用率及在有限信道容量下传输更多信息。数据压缩的理论依据•Shannon的信息论给出了数据压缩的理论极限,指明了数据压缩的技术途径。•熵是对离散无记忆信源进行无失真编码的极限。•信源概率分布越均匀,其熵越大;反之,其熵越小。•离散无记忆信源只要概率分布不均匀就存在信息冗余。视音频压缩编码信源压缩编码的两个基本途径:•尽可能使编码平均码长接近于信源的熵,减少冗余信息;•去除信源中各信源符号间的相关性。视音频压缩编码限失真压缩编码•概念:允许解码后信号有一定失真,通过去除信源的自相关来达到压缩数据的目的。•率失真函数:在传输中信号的失真度小于或等于某一值D所必须的信道容量的最小值R(D)。•在图像与声音编码中,通常用均方误差作为失真的度量标准。•率失真函数表明:在给定信号允许失真度条件下,为减少信号传输比特率,应尽量减小信号的方差。•应用:预测编码和变换编码就是为了减小传输信号的方差。视音频压缩编码无失真压缩编码–变字长编码最佳编码定理:»对出现概率大的信息符号编以短字长的码,对概率小的符号编以长字长的码。•Huffman编码–根据可变长最佳编码定理,应用Huffman算法而得。–在给定符号集和概率模型时的最优码。–算法:»按概率排序,给最后两个概率最小的赋值01;»最后两个概率相加合成一个,重新按概率排序赋值;»重复,直到最后剩下两个概率为止;»给每个符号所对应的赋值逆向排序即得编码。视音频压缩编码无失真压缩编码•算术编码•游程编码和Huffman编码的区别仅在于不是使用整数码。在信源概率比较均匀的情况下,其编码效率高于Huffman编码。在某个特定方向将相同的样本值用一个游程长度和一个样本值来表示。视音频压缩编码音频压缩编码技术•音频信号压缩编码方法–波形编码»在信号采样和量化过程中,考虑到人的听觉特性,使编码信号尽可能与原输入信号匹配,又能适应人的应用要求。»全频带编码、子带编码、矢量量化。»高码率条件下获得高质量的音频信号,适于高保真要求。视音频压缩编码音频压缩编码技术•音频信号压缩编码方法–参数编码»以某种模型表示,再抽出合适的模型参数和参考激励信号进行编码,即声码器。»压缩比很高,计算量大,不适合高保真要求。»LPC、ChannelVocoder、FormatVocoder。视音频压缩编码音频压缩编码技术•音频信号压缩编码方法–混合编码»吸取波形和参数编码的优点进行综合。»多脉冲线性预测MP-LPC»矢量和激励线性预测VSELP»码本激励线性预测CELP»短延时码本激励线性预测LD-CELP»长时延线性预测规则码激励RPE-LTP视音频压缩编码音频压缩编码技术•不同质量要求时的音频编码技术选择–电话质量的音频压缩编码»频率范围:300Hz-3.4kHz»G.711:PCM,64kbit/s,非线性量化,质量相当于12bit线性量化。»G.721:ADPCM,32kbit/s,对信号和它的预测值的差分进行量化,根据邻近差分信号的特性自适应改变量化参数,应用与中等电话质量、调幅广播、交互式激光唱盘。视音频压缩编码音频压缩编码技术•不同质量要求时的音频编码技术选择–电话质量的音频压缩编码»低速率语音通信:采用参数编码或混合编码。如LPC、VQ。»CELP:闭环LPC,由输入语音信号确定最佳参数,根据某种最小误差准则从码本中找出最佳激励码本矢量。具有较强的抗干扰能力,在4-16kbit/s速率,即可获得较高质量的话音。»G.728:LD-CELP,16kbit/s,质量与32kbit/s的G.721标准基本相当。»GSM:RPE-LTP,13kbit/s。视音频压缩编码音频压缩编码技术•不同质量要求时的音频编码技术选择–调幅广播质量的音频压缩编码»频率范围50Hz-7kHz。»G.722:16kHz采样,14bit量化,信号速率224kbit/s。采用子带编码方法,将音频用滤波器分成高子带和低子带,分别进行ADPCM编码,再混合形成输出码流。224kbit/s可以被压缩成64kbit/s,最后进行数据插入(最高插入速率达16kbit/s)。视音频压缩编码音频压缩编码技术•不同质量要求时的音频编码技术选择–高保真环绕立体声音频压缩编码»频率范围50Hz-20kHz。44.1kHz采样,16bit量化。信号速率每声道达705kbit/s。»MPEG第一和第二层次编码:48kHz,44.1kHz,32kHz采样。经滤波器分为32个子带,根据音频信号的性质计算各频率分量的人耳掩蔽门限,选择各子带的量化参数。»MPEG第三层次:在上述基础上再引入辅助子带、非均匀量化和熵编码技术。»MPEG数据速率:32-448kbit/s,适合于CD-DA光盘。视音频压缩编码视频压缩编码•视频信息的冗余–图像内部和图像之间有大量的冗余:空间冗余和时间冗余。–信息熵冗余:编码冗余,对每像素采用相同比特数表示,不能按其信息熵大小分配比特数必然存在冗余。–结构冗余:某部分存在非常强的纹理结构,或各部分存在某种关系,如自相似性。–知识冗余:图像中包含的信息与先验基础知识有关。–视觉冗余:利用人类视觉系统的特点。人类视觉对图像的注意是非均匀和非线性的,并不是对图像任何变化都能感知。视音频压缩编码视频压缩编码•压缩编码–预测编码:»方式:帧内预测和帧间预测。»原理:基于时间和空间冗余,用相邻已知像素或图像块来预测当前的像素或图像块的取值,然后再对预测误差进行量化编码。»用同行、前几行或前几帧来作预测称为一维、二维或三维预测。视音频压缩编码视频压缩编码•压缩编码–预测编码:»帧内预测:采用像素预测形式的DPCM。优点:算法简单,易于硬件实现。缺点:对信道噪声及误码很敏感,会产生误码扩散,压缩比不高,很少独立使用。视音频压缩编码视频压缩编码•压缩编码–预测编码:»帧间预测:利用时间冗余,压缩比更高,针对图像块。有帧重复法、阈值法、帧内插法、运动补偿法和自适应交替帧内/帧间编码法等。缺点:图像序列不同的区域预测性能不一样,快运动区预测效率较差。»预测算法的选取与图像信号的概率分布有关。根据大量统计结果,采用简化概率分布来设计最佳预测器。»自适应预测器。较好刻画图像的局部特性,提高预测效率。视音频压缩编码视频压缩编码•压缩编码–变换编码:»原理:将空间域相关的像素点通过正交变换映射到另一个频域上,使变换后的系数之间的相关性降低。»变换后满足:所有系数相互独立,能量集中于少数几个系数,这些系数集中于一个最小的区域。»变换后采用适当的量化和熵编码可以有效地压缩。»此外,图像经某些变换后,系数的空间分布和频率特性可能与人眼的视觉特性更匹配。视音频压缩编码视频压缩编码•压缩编码–变换编码:»变换方案:K-L变换、DCT变换»区域编码:按能量分布对不同区域采用不同量化编码技术。»门限编码:幅度很小的系数只占很少一部分能量对图像质量影响很小,可以设定阈值,置小于阈值的系数为0.»非零系数和零系数的合理组织,是为了在带来最少冗余的同时保证最大的连零系数出现概率。视音频压缩编码视频压缩编码•压缩编码–变换编码:»步骤:选择变换类型,如DCT;选择方块大小,如8×8或16×16;选择变换系数,并对其进行高效的量化,以便传输或存储;对量化系数进行比特分配,使用Huffman编码或游程编码。视音频压缩编码视频压缩编码•压缩编码–具有运动补偿的帧间预测编码:»活动图像在时间上比空间上更具相关性。»消除序列图像的时间相关性也可以采用预测编码,传送当