多媒体技术简介第三、四讲主要内容1.多媒体数据的获取技术2.数字化技术3.编码技术4.压缩技术5.多媒体技术标准6.存储格式。1多媒体数据的获取技术计算机本身可以创建的媒体:文本、图形、动画和MIDI音乐从外部输入到计算机内的媒体:图像、音频和视频图像、音频和视频这三种媒体需要数字化,才能让计算机处理。2数字化技术数字化:将模拟信号变成数字信号的过程采样:把连续时间或者连续空间分布转化为离散值的过程,必须遵循奈奎斯特定理量化:把连续的采样值转化为离散值的过程,分为线性量化和非线性量化编码:把量化值表示成数字形式的过程音频数字化、图像数字化、视频数字化。3编码技术编码模型压缩编码分类统计编码:哈夫曼(Huffman)编码、香农-费诺编码、算术编码、游程编码(RLC)和LZW编码(第二类编码)预测编码变换编码分形编码矢量化编码子带编码。4压缩技术编码压缩的必要性与可能性多媒体数据存在着大量的冗余:空间冗余、时间冗余、结构冗余、知识冗余、视觉冗余、图像区域的相同性冗余和纹理的统计冗余文本压缩技术图像压缩技术音频压缩技术视频压缩技术。5多媒体技术标准多媒体压缩标准音频压缩标准图像压缩标准视频压缩标准多媒体表示标准同步多媒体集成语言MHEG标准多媒体元数据标准。6存储格式文本存储格式:.doc、.rtf、.pdf图像存储格式音频存储格式:.WAV、.MP3、.MID、其它格式视频存储格式。音频幅值t一个周期-+空气压强0声音包含三个要素:音调、音强和音色。基频与音调:一个声源每秒钟可产生成百上千个波,通常把每秒钟波峰所产生的数目称之为信号的频率,单位用赫兹(Hz)或千赫兹(kHz)表示谐波与音色:n×ωo称为基波ωo的n次谐波分量(n就是高次谐波的方次,n×ωo就是基波ωo的n次谐波),也称为泛音。音色是由混入基音的泛音所决定的幅度与音强:信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。音频数字化连续的音频波形可通过麦克风等输入设备转化为连续的电信号,要使计算机能够处理和传输音频信号,必须经过模/数转换过程采样。对声音波形的采样就是按采样的频率间隔、不断地获取幅度的量值,使连续的声音波形转变为离散的数字量量化。将信号范围分割成固定数量。图像数字化采样(Sampling)是对图像空间坐标的离散化,它决定了图像的空间分辨率,就是用一个网格(如右图所示)把待处理的图像覆盖,把每一小格上模拟图像的各个亮度取平均值,作为该小方格中点的值把采样后所得的各像素灰度值从模拟量到离散量的转换称为图像灰度的量化。编码压缩的必要性与可能性众所周知,多媒体量化所需数据量大。音频、图像和视频的庞大数据对计算机的处理速度、存储容量都提出过高的要求。因此必须进行数据量压缩从传送的角度来看,在信道带宽、通信链路容量一定的前提下,采用编码压缩技术,减少传输数据量,是提高通信速度的重要手段。因此,更要求数据量压缩。多媒体数据存在着大量的冗余众所周知,视频由一帧一帧的图像组成,而图像的各像素之间,无论是在行方向还是在列方向,都存在着一定的相关性,即冗余度。应用某种编码方法提取或减少这些冗余度,便可以达到压缩数据的目的。图形图形不直接描述数据的每一点,而是描述产生这些点的过程与方法,在计算机图形学和数字图像处理中,图像是位图的概念,基本元素是像素;图形则是向量图的概念,基本元素是图元,即图形指令。图像编码模型(图像)一个压缩系统包括两个不同的结构块:一个编码器和一个解码器从原理来看主要分为三个阶段,第一阶段将输入数据转换为可以减少输入图像中像素间冗余的数据的集合。第二阶段设法去除原图象信号的相关性,例如对电视信号就可以去掉帧内各种相关,还可以去除帧间相关。这样有利于编码压缩。第三阶段就是找一种更近于熵,又利于计算机处理的编码方式。压缩编码分类统计编码统计编码属无损编码,它是根据消息出现概率的分布特性而进行的压缩编码。统计编码又可分为定长码和变长码,常分为如下几类:哈夫曼(Huffman)编码香农-费诺编码算术编码游程编码(RLC)LZW编码。预测编码预测编码是根据离散信号之间存在着一定的相关性,利用前面的一个或多个信号对下一信号进行预测,然后对实际值和预测值的差(预测误差)进行编码预测编码中典型的压缩方法有脉冲编码调制(PCM,PulseCodeModulation)、差分脉冲编码调制(DPCM,DifferentialPulseCodeModulation)、自适应差分脉冲编码调制(ADPCM,AdaptiveDifferentialPulseCodeModulation)等预测编码可分为无损预测编码和有损预测编码。变换编码变换编码的原理如右图所示。从图中看出,存储或传输都是在变换域中进行的,即传输或存储都不是空域图像而是变换域系数,分一般正交变换和小波变换。分形编码分形编码与分形几何相关。所谓分形几何就是研究无限复杂但具有一定意义下的自相似图形和结构的几何学。分形编码正是利用分形几何中自相似的原理来实现数据压缩的。首先对图像进行分块,然后再去寻找各块之间的相似性,这里相似性的描述主要是依靠仿射变换来确定的,一旦找到了每块的仿射变换,就保存下这个仿射变换的系数,由于每块的数据量远大于仿射变换的系数,因而图像得以大幅度地压缩分形图像编码和解码不够成熟,产生的压缩比不够高。压缩效果还不十分理想,在当前图像压缩编码中还不能占据主导地位。子带编码由于人眼对不同频域段的敏感程度不同,图像信号可以划分为不同的频域段。子带编码的基本思想是利用一滤波器组,将采样将输入信号分解为高频分量和低频分量,然后分别对高频和低频分量进行量化和编码。解码时,高频分量和低频分量经过插值和共轭滤波器而合成原信号。矢量化编码矢量量化编码利用相邻图像数据间的高度相关性,将输入图像数据序列分组,每一组由m个数据构成一个M维矢量,一起进行编码,即一次量化多个点。根据香农失真率理论,对于无记忆信源,矢量量化编码总是优于标量量化编码,矢量量化编码是有损编码。文本压缩技术文本压缩必须是无损压缩哈夫曼(Huffman)编码词典编码LZ77LZW。图像压缩技术典型的图像压缩系统主要由三部分组成:变换部分、量化部分和编码部分音频压缩技术音频信息编码技术主要可分为三类波形编码:这种方法主要基于语音波形预测,它力图使重建的语音波形保持原有的波形状态。常用的波形编码技术有增量调制(DM)、自适应差分脉冲编码调制(ADPCM)、子带编码(SBC)和矢量量化编码(VQ)等等参数编码:参数编码的方法是将音频信号以某种模型表示,再抽出合适的模型参数和参考激励信号进行编码;声音重放时,再根据这些参数重建即可。显然参数编码压缩比很高,但计算量大。它主要用于在窄带信道上提供4.8kb/s以下的低速语音通信和一些对延时要求较宽的应用场合(如卫星通信等)。最常用的参数编码法为线性预测(LPC)编码混合编码:是指同时使用两种或两种以上的编码方法进行编码的过程。由于每种编码方法都有自己的优势和不足,若是用两种或两种以上的编码方法进行编码,可以优势互补,克服各自的不足,从而达到高效数据压缩的目的。视频压缩技术视频压缩技术两个要点:在空间上,图像数据采用JPEG压缩算法在时间上,图像数据采用移动补偿算法三种图像I图像利用图像自身的相关性压缩,提供压缩数据流中的随机存取的点,采用基于ADCT的编码技术,压缩后,每个像素为1b-2bP图像用最近的前一个I图像(或P图像)预测编码得到(前向预测)B图像B图像在预测时,既可使用了前一个图像作参照,也可使用下一个图像做参照或同时使用前后两个图像作为参照图像(双向预测)。空间冗余这是静态图像存在的最主要的一种数据冗余。一幅图像记录了画面上可见景物的颜色。同一景物表面上各采样点的颜色之间往往存在着空间连贯性,从而产生了空间冗余。时间冗余在视频的相邻帧间,往往包含相同的背景和移动物体,因此,后一帧数据与前一帧数据有许多共同的地方,即在时间上存在大量的冗余。结构冗余在有些图像的纹理区,图像的像素值存在着明显的分布模式。例如,方格状的地板图案等。我们称这种冗余为结构冗余。知识冗余有些图像的理解与某些知识有相当大的相关性。例如,人脸的图像有固定的结构。这类规律性的结构可由先验知识和背景知识得到,我们称此类冗余为知识冗余。视觉冗余事实表明,人类的视觉系统对图像场的敏感性是非均匀的和非线性的。然而,在记录原始图像数据时,通常假定视觉系统是线性的和均匀的,对视觉敏感和不敏感的部分同等对待,从而产生了比理想编码更多的数据,这就是视觉冗余。图像区域的相同性冗余是指在图像中的两个或多个区域所对应的所有像素值相同或相近,从而产生的数据重复性存储,这就是图像区域的相似性冗余。纹理的统计冗余有些图像纹理尽管不严格服从某—分布规律,但是它在统计的意义上服从该规律。利用这种性质也可以减少表示图像的数据量,所以我们称之为纹理的统计冗余。哈夫曼(Huffman)编码其编码思想与Shannon-Fano编码方法基本一致,但构造二叉树的方法则相反,不是自上而下,而是自下而上、从树叶到树根生成二叉树。具体编码过程如下:1.将信源符号按概率递减顺序排列;2.把两个最小的概率加起来,作为新符号的概率;3.重复步骤(1)和(2),直到概率达到“1”为止;4.在每次合并消息时,将被合并的消息赋于“1”和“0”或“0”和“l”;5.寻找从每一信源符号到概率为“1”处的路径,记录下路径上的“l”和“0”;6.对每一符号写出从码树的根到终结点的“l”、“0”序列。香农-费诺编码•简称为S-F编码,是一种变长编码,其基本思想是按信源符号出现的概率大小进行排序,出现概率大的分配短码,反之则分配长码。具体编码过程如下:1.信源符号按概率递减顺序排列。2.把符号序列分成上下两部分,使上下两部分的概率和相等或接近相等。3.对上部分子序列编码为“0”,相当于左子树,对下部分子序列编码为“1”,相当于右子树4.重复上述步骤,直到每个子序列只包含一个符号为止。算术编码•算术编码也是一种信息熵编码方法,它用0到1之间的一个实数对输入的信息进行编码。用到两个基本的参数,一是信源符号的概率,二是信源符号对应和编码区间。一般的信源符号集x可表示为:游程编码(RLC)行程编码(RLE)通过统计信源符号中的重复个数,并以重复个数重复符号格式来编码。适用于压缩包含大量重复信息的信源。其基本思想是:按行存储一个颜色值和相同色值的像素个数,如下图。(a)图像示例(16×8像素)00000000000000000011111111111000001000000000000000100000000000000010000000000000001111111111100000000000000000000000000000000000(b)示例图像的像素值(16×8像素)16002011010300200101130020010113002001011300201101030160160(c)RLE编码LZW编码词典编码主要是利用编码数据本身存在字符串重复特性来实现数据压缩的。算法的核心就是如何动态地形成词典,以及如何选择输出格式以减小冗余。词典编码又可分为两类:第一类词典编码的思想是:查找正在压缩的字符序列是否在以前输入的数据中出现过,然后用已经出现过的字符串替代重复的部分,并将指向重复字符串的指针作为输出编码。指针P指向了重复字符串“abc”,所以,当再次出现相同字符串时,则输出指针P。第二类词典编码第二类词典编码的思想是:从输入的数据中创建一个由短语组成的“编码词典”,编码数据过程中当遇到已经在词典中出现的“短语”时,编码器就输出这个词典中短语的“索引号”,而不是短语本身,如下图:WAV文件格式WAV是MicrosoftWindows提供的音频格式。这个格式是目前通用音