视频信息编码技术摘要:多媒体信息是未来人类获取信息最主要的载体,它已成为目前世界上技术开发和研究的热点。本文将就其中最受关注、数据量最大的视频信息编码技术进行展开,简述它从传统的矩形DCT变换编码到根据视频内容、划分对象、分别变换编码的新的编码方法,如VO/VOP编码技术以及新的技术标准MPEG-4。关键词:视频编码;VO/VOP编码技术;MPEG-41引言传统的视频编码是以视频信号的数字量为编码对象的,与视频信息的内容无关,无论是M-JPEG、MPEG-1还是MPEG-2,都是以DCT矩形变换块为变换编码单元,对DCT块内图像的亮度和色度进行特征取样,提取像素,采用帧间编码、运动估测技术,在参考帧帧内DCT编码的基础上,对DCT块内图像的像素特征进行差值预测编码。基于矩形DCT编码的视频编码在设计思想上只考虑到对信号数据进行处理的需要(比如小的比特率以利于传输、高的比特率以保证质量),但未考虑视频信息--图像内容本身的含义和重要性,以及视频信息应用者的主观需求(比如部分内容的提取功能)。另外,这种基于DCT块的压缩算法在低码率时容易产生“方块效应”和“抽帧”,大大缩小了视频信息的应用领域。而小波变换是一种新的变换编码方法,它与DCT变换相比,考虑到了视频信号对不同应用环境的自适应性(不同的清晰度与比特率),可以将基础图像层与增强图像层分离编码传输,用户可根据实际情况选择是否打开增强图像层。传统的视频编码方式是将整个视频信号作为一个内容单体来处理,其本身不可再分割,而这与人类对视觉信息的判别法则是完全不同的。这就决定了我们不可能将一个视频信息完整的从视频信号中提取出来,比如:将加有台标和字幕的视频恢复成无台标、字幕的视频。解决问题的惟一途径就是在编码时就将不同的视频信息载体—视频对象VO(VideoObjects)区分开,单独编码传送,将图像序列中的每一帧,看成是由不同的VO加上活动的背景所组成。VO可以是人或物,也可以是计算机生成的2D或3D图形。VO具有音频属性,其属性赋值可能是“有”也可能是“无”。但音频的具体内容数据是独立于视频编码传输的。VO概念的引入,更加符合人脑对视觉信息的处理方式,并使视频信号的处理方式从数字化进展到智能化。提高了视频信号的交互性和灵活性,使得更广泛的视频应用和更多的内容交互功能成为可能。现代图像编码理论指出,人眼捕获图像信息的本质是轮廓-纹理,即人眼感兴趣的是VO的一些表面特性,如形状、运动、纹理等。VO的表面往往是不规则的、千变万化的,但可将其视为一定视角下,n个形状规则的、具有一定纹理的剖面的组合的连续运动,这些剖面的组合称为视频对象面VOP(VideoObjectProfile)。VOP描述了VO在一定视角条件下的表面特性。VOP的编码主要由两部分组成:一个是形状编码,另一个是纹理和运动信息编码。VOP纹理编码和运动的预测、补偿在原理上同MPEG-2基本一致,而形状编码技术则是首次应用在图像编码领域。2新的编码技术根据合成VO的合成机理和特性,大部分合成VO都可以用通用的有关图形文本的多种表达方式来描述。非复杂性合成VO将被视为一种独立于视频的数据类型来编码,并定义其描述框架、通用的数据流结构和灵活的接口。而复杂性合成VO和自然VO的编码方法,将采用以下的编码方法。2.1基于矩形窗口的VOP分割目前已得到应用的VO编码技术,仍采用了基于矩形窗口的内容分割法。编码时,先利用像素特征统计,将每一个VOP都限定在一个矩形窗口内,称之为VOP窗口(VOPWindow),取窗的原则为:长和宽均为16像素的整数倍(便于对现有标准的兼容和将来的扩展),同时保证VOP窗口中非VOP的宏块数目最少。目前标准中的视频帧可认为是一个无VOP的特例,在编码过程中将形状编码模块屏蔽掉就可以了。在一个VOP窗口内,VOP剖面的形状也是采用8×8像素的矩形形状。针对不同的VOP,可以根据不同的应用场合和运动、变化的特点,采用固定的或可变的VOP帧频(即VOP刷新频率)。矩形窗口分割法并不能体现VOP的具体形状信息。为了确认采用矩形窗口分割法的VOP的形状信息,就引入了形状编码技术。2.2基于小波变换的VOP分割基于矩形窗口的VOP分割依旧存在块效应问题,而基于小波变换的VOP分割则可以很好的解决这个问题,而且由于这种分割方法的本身就包含了VOP的形状信息,所以无需另对形状信息进行判别与编码。基于小波变换的VOP分割方法林林总总,但基本可以被划分为一下两类:1、利用图像灰度特征分割:不同的图像具有不同的灰度分布,利用小波变换,将图像变换到小波域,产生各层、各子带图像。小波变换后,大部分的能量是集中在低频子带图像上,即大面积的平均灰度区域信息主要在低频子带图像中体现。根据信息论的原理,确定多个灰度阈值,可以将具有不同灰度的VOP从低频子带图像中分离。同时再利用高频子带图像以及模糊数学模型,确定每一个VOP的边缘信息。2、利用图像纹理特征分割:纹理是一种局部特征反复出现的结果,它体现了图像的局部频域信息。对于一幅数字图像,进行多方向的小波变换是可行的,比如对一帧画面进行垂直方向或对角线方向的小波变换。经过多种小波变换后可得到不同方向的各子带图像,它们各自蕴涵着不同纹理的局部频谱信息和纹理走向等信息。对具有相同纹理特征的图像局部的进行聚类分析,并根据纹理频谱和纹理走向确定该聚类的纹理边缘。根据信息论原理和运动估测,将运动矢量具有相关性的聚类二次归类于不同的对象(即VOP),并影射成不同灰度显示。进行小波变换的方向越多,各方向的夹角越小,图像分割也就越准确,但计算量也因此增大。根据局域纹理中心频率的变化自适应地选择小波变换的级数和方向,有助于在图像分割的准确性和计算量之间达到平衡。无论是哪一种方法,当得到不同VOP的不同灰度表示之后,通过类似于键技术的多通道处理,即可得到多个原始的彩色VOP。纹理编码在已得到实际应用的MPEG-4中,VOP的纹理编码基本上仍采用基于8×8像素块的DCT方法,有3种模式:帧内编码模式(I-VOP)、帧间预测编码模式(P-VOP)和帧间双向预测编码模式(B-VOP)。编码时,对于完全位于VOP内的像素块,则采用经典的DCT方法;对于完全位于VOP之外的像素块则不进行编码;对于部分在VOP内,部分在VOP外的像素块则首先采用图像填充技术来获取VOP之外的像素值,之后再进行DCT编码。目前依据视觉特性的纹理编码目前仍处于理论研究阶段,其目标是:建立常见纹理局部特征符号集,定义描述纹理分布、走向的多媒体语言。以人脸为例:人脸定义参数(FDP)描述了特定人脸纹理形状模型与通用人脸模型之间的差别,通过接收到的各种FDP,能把通用的人脸模型变换成由其形状和纹理确定的特定人脸。人脸动画参数(FAP)描述了特定的人脸表情与中性表情的变化关系,通过接收到的各种FAP能生成人脸的各种表情以及与声音同步的嘴唇活动等。分级编码多媒体的应用场合具有不同的信道带宽、处理能力、显示能力及用户需求,要求在解码端支持时域、空间及质量的上伸缩性,即分级编码。分级编码可以通过视频对象层VOL(VideoObjectLayer)的数据结构来实现。每一种分级编码都至少有2层VOL,低层称为基本层,高层称为增强层。空间伸缩性可通过增强层强化基本层的空间分辨率来实现,因此在对增强层中的VOP进行解码之前,必须先对基本层中相应的VOP进行解码。同样对于时域伸缩性,可通过增强层来增加视频序列中某个VO(特别是运动的VO)的帧率,使其与其余区域相比更为平滑。3新的技术标准--MPEG43.1MPEG4标准的构成1)DMIF(TheDelliveryMultimediaIntegrationFramework):多媒体传送整体框架协议。MPEG-4标准将众多的多媒体应用集成于一个完整的框架内,旨在为多媒体通信及应用环境提供灵活的算法及工具,用于实现音视频数据的有效编码及更为灵活的存取。它解决了多领域中多媒体应用个性化交互操作的问题。2)解码器:定义了MPEG-4系统特殊的解码模式(SDM),要求特殊的缓冲区和实时模式。3)音频编码:支持自然声音和合成声音,支持音频的对象特征。4)视频编码:支持自然和合成的视觉对象,合成的视觉对象包括2D、3D动画和人面部表情动画等。5)场景描述BIFS(BinaryFormatforScenedescription):关于一组VO的时空结构关系的参数信息,主要描述了各VO在一具体背景下的相互关系与同步等问题,以及VO及其背景的知识产权保护等问题。BIFS与VO对象特征信息的编码、传输是相对独立的。场景描述信息编码及其的独立传输是实现用户端编辑操作的关键:在解码之后和场景合成之前,用户可以通过对BIFS参数的重新设置来对VO进行多种编辑操作,如增减、缩放、平移,甚至一些特技效果。3.2MPEG4视频编码功能与特点MPEG4标准的制定有两个目标:低比特率的多媒体通信和多工业的多媒体通信的综合。与现有的MPEG-1和MPEG-2视频压缩相比,MPEG-4视频有一些重要的改进:1)基于内容的交互功能:MPEG-4提供了全新的交互方式,根据制作者的具体自由度设计,在有限的时间内可实现对多媒体VO的时域随机存取(从不同的源获取内容或向不同的源发送内容)、快速搜索、改变场景的视角、改变场景中物体的位置、大小和形状,或对该对象进行置换甚至清除。2)支持自然及合成信息的混合编码(NHC:SyntheticandNaturalHybridCoding):MPEG-4支持合成信息的编码,可对合成的VO及其活动信息进行参数化描述。对于频繁出现的视觉对象则分别定义了它们的纹理形状和动画参数。3)高效编码:包括视频VO数据的高效编码和多个并发数据的有效同步编码。4)基于内容的伸缩性:是指分级编码后,纹理、图像和视频基于内容的伸缩性,视频序列中时域、空间及质量的伸缩性,表现为时域实时或非实时、数据率大小及重建的图像质量上。5)可变的最终输出:不同的码率意味着支持不同的功能集。功能集的底层是VLBV核心(VLBV:VeryLowBitRateVideo),它为最低达5-64kbits/s视频操作与应用提供算法与工具,支持较低的空间分辨率(低于352×288像素)和较低的帧频(低于15Hz)。VLBV核心功能包括:矩形图像序列的有效编码、多媒体数据库的搜索和随机存取。MPEG-4的HBV(HBV:HighBitRateVideo,范围在64kbits/s-4Mbits/s之间)同样支持上述功能,但它同时还支持较高的空间与时间分辨率。其输入可以是ITU-R601的标准信号,因此其典型应用为数字电视广播与交互式检索。4总结从矩形帧到VOP,VOP编码方式是视频信号处理技术从数字化进入智能化得初探。与MPEG-1和MPEG-2相比,MPEG-4顺应了现代图像压缩编码的发展潮流,即从基于DCT的传统编码向基于对象和内容的现代编码的转变,其更适于交互式AV服务以及远程监控。