-1-视音频编解码技术发展现状和展望摘要:随着国内外市场对多媒体应用需求的不断增加,人们对视频、音频服务质量的期望不断提升,视音频编解码技术越来越多的受到重视,并在近十几年里得到了飞速的发展。本文在分别介绍了视音频编解码技术的主要内容和国内外发展现状之后,对视频编解码技术在安防中的应用情况进行分析,并且在最后对视音频编解码技术的发展趋势进行了展望。关键词:视频编解码技术;音频编解码技术2引言近年来,市场对于视频会议、视频监控、交互电视、智能语音识别等多媒体应用的需求不断增加,并且用户对于多媒体服务质量的期望也越来越高。为了有效防止信号在传输和存储过程中引入噪声和导致波形畸变,获得更好的品质,模拟信号(音频信号、图像和视频信号)一般需要经过采样和数字化,然后再进行存储、传输和重建。但这些数字化信号的信息量极大,尽管海量存储技术、处理器的速度和数字通信系统的性能有了迅猛发展,但对数据的存储能力和数据传输带宽的需求仍然超出了现有技术的能力所及。为了使通信成为可能,并尽可能的降低通信的费用,优秀的信源编解码性能是必需的。因此,视音频编解码技术作为信源编码技术,是多媒体应用技术的基础和核心。本文的第一章和第二章就国内外视音频编解码技术的发展现状进行了详细阐述,继而对国内外的研究现状进行了对比分析。鉴于视频编解码技术在安防应用中属于核心技术之一,本文在第三章分析了这两者之间的关系。最后,第四章对视音频编解码技术的发展趋势进行了展望。1视频编解码技术发展现状视频编码的主要目的就是在保证一定重构质量的前提下,以尽量少的比特数来表征视频信息。视频编码的原理是:由于表示图像和视频信息所需的大量的数据往往是高度相关的,这些相关性会引起信息的冗余,因此可以通过去除这些冗余信息来实现对视频数据的压缩。传统的基于统计特性的运动补偿+变换编码的混合编码框架在数据压缩方面取得了很大的成果,国内外的通用视频压缩标准均基于此框架,比如H.26L系列、MPEG系列以及我国的AVS-P2标准。但是随着计算机网络的不断发展和应用需求的多样化,对于视频编码技术的研究不再仅仅局限于压缩特性,而渐渐开始向网络适应性、用户交互性等方面转移。因此,这几年来,视频编码技术一方面继续以混合编码为框架研究如何进一步提高压缩特性,另一方面不断的向可伸缩编码、多视点编码等分支方向发展。1.1.混合编码技术混合编码框架的技术主要包括:运动补偿、预测编码、变换编码以及熵编码等。近年来混合编码的研究主要集中于如何在技术细节方面进行进一步完善,使编码效率得到进一步的提高。其典型代表为2003年由联合专家组JVT(JointvideoteamofISO/IECMPEGandITU-TVCEG)制定的新一代视频编码标准H.264/AVC[1]。H.264/AVC是一种高效的压缩方法,在保持传统的混合编码框架的基础上,主要通过以下技术提高编码效率[2]:可变尺寸的运动估计(Variableblock-sizemotioncompensation)更精细的1/4象素运动估计(Quarter-sample-accuratemotioncompensation)多参考帧运动补偿(Multiplereferencepicturemotioncompensation)空间域的帧内预测(Directionalspatialpredictionforintracoding)算术编码(Arithmeticentropycoding)和基于上下文的熵编码(Context-adaptiveentropycoding)率失真优化(Rate-DistortionOptimal)前4项属于预测编码,第5项属于熵编码,最后一项属于编码决策。文献[3]认为熵编码的编码效率已经接近极限。预测编码如果能采用新的思路,还有一定的发展空间。国内标准方面,由我国信息产业部数字音视频标准专家组制定的AVS标准视频部分的基本框架也是混合编码技术。AVS对于提高压缩效率方面进行了探索,新提出技术包括:对称双向帧技术、自适应扫描技术、自适应的系数间非均匀量化技术等。这些技术都在不同3程度上也提高了视频编码的效率或主观质量。1.2可伸缩编码技术可伸缩技术将视频编解码技术从传统的压缩技术转变为了更多考虑网络适应性和灵活性的编解码框架。2005年2月,JVT将可伸缩性编码(ScalableVideoCoding,SVC)作为H.264标准的扩展,并起草了H.264标准的可伸缩性扩展第一草案[4]。可伸缩视频编码因为具有时域、空域和质量等多方面的灵活性,不仅特别适合网络传输,而且应用到视频监控领域中还能满足监控视频资料的存储、检索、分析等方面的种种特殊需求。近两年来,可伸缩技术在视频监控中的研究已广泛展开[5-9],而且在SVC的需求文档中已将视频监控列为可伸缩视频编码技术的主要应用领域之一。所以可伸缩视频编解码技术不仅是JVT组织中的当前热点研究问题,更是视频监控技术中的研究热点问题。到目前为止,实现可伸缩技术的方法大致上可以划分为两种:基于小波变换的可伸缩技术和基于传统的混合编码结构的可伸缩技术。1.2.1基于小波编码的可伸缩技术方案基于小波的视频编码[10]是指以离散小波变换(DWT)为核心的视频编码方案。由于三维小波编码方案没有形成国际标准,所以三维小波编码呈现争鸣的局面。在这些提交方案中,根据压缩处理流程的不同,可以被分为以下四大类:纯三维小波方案纯三维小波的视频编码方案[11]是在原二维平面小波基础上的直接过渡的,该方案将视频压缩看作是三维图像的信号处理,将其按三维立体空间的正交小波基展开。该方案的三维小波滤波函数具有对称性好、支集小的特点,帧内、帧间小波系数具有统一性,保证了时间维的衰减速度。但该方案不采用运动补偿机制,因此对时间维的长度要求比较苛刻,过短的时间维数据将使压缩效果大大下降;而过长的时间维数据又会影响压缩的实时性和内存需求。小波框架的运动补偿方案小波框架的运动补偿方案是DCT框架的运动补偿方案的推广,该方案用DWT替换原有的DCT,而其它的处理流程均继承于原DCT方案。该方案有DCT编码体系和技术的支持,压缩性能比较好。但该方案沿用了原DCT的块结构处理的模式,空间可伸缩性会受到影响,还会产生差错传递和块效应。小波子带预测方案小波子带预测方案首先对每一帧图像进行二维空间小波变换,然后再对所得的各子带小波系数值进行帧间预测去处冗余,最后对生成的数据进行熵编码。整个处理流程是分子带进行的,子带与子带之间互不影响。该方案的运动预测是在不同的小波子带中进行的,因此不会产生整幅图像的差错传递,这种差错只会在各个子带中传递。但该方案编码是一帧一帧分开处理的,所以时间可伸缩性的发挥相对有限。该方案还将整个编码过程形成一个闭回路,参考子带是基于解码重构而成的,影响了PSNR的可伸缩性。帧间小波滤波方案时间可伸缩技术:首先对一组连续图像进行时间维滤波(MCTF)[12]。通过运动补偿时间过滤器,沿着象素的运动轨迹,在帧上实现小波的分解和重构。其中使用了预测(P)和更新(U)两种处理方法(P和U是互逆的),它们可以自适应的选择帧内、向前、向后或双向的模式。具体过程描述如下:在GOP中,一个奇数索引帧通过相邻的帧或偶数索引帧来进行预测,从而产生一个高通帧:H(k),代表细节信息;同样的,一个偶数索引帧通过相邻的n个(n=1)高通帧来实现自身的更新,从而产生一个低通帧:L(k),代表主要信息。其计算4过程如图1所示:H(k)=S(2k+1)-P(S(2k))L(k)=1/2*[S(2k)+U(S(2k+1))]22++PUS(k)S(2k+1)S(2k)1/2+1+1+1H(k)L(k)图1.MCTF中一个过滤器的示意图该方案采用了时间维处理技术,在运动方向上对相邻图像进行低通和高通滤波,因此可以在不采用传统回路预测方式的基础上来消除时间冗余。避免了传统闭合回路对于质量可伸缩的影响。再结合零树熵编码来产生嵌入式的比特流,该方案在质量上有很强的可伸缩性。不过需要注意的是时间、空间的可伸缩性相对固定。而且该方案要求一个GOP的图像一次性处理,有一定的时间延迟,并且对内存需求比较大。1.2.2基于混合编码结构的可伸缩方案时间可伸缩:在H.264MPEG-4AVC的基础上,时间可伸缩性可以通过MCTF技术和分级B图片实现的。MCTF技术在前一部分已经论述,本节讨论分级B图片技术。如图2所示,关键图片(IDR)序列的显示分辨率是最低的,可以根据接受端不同的要求,在此序列上增加时间域上更高级别的高分辨率图片,并且传递出去,从而在接受端显示不同分辨率、不同质量的视频流。图2层次B图片结构示意图空间可伸缩:为了满足不同用户的需求,在给定帧的基础上产生不同空间分辨率码流序列,它们在各自独立的层内编码。为了消除不同空间帧中的冗余信息,一个增强层的残差信息和运动矢量根据与其对应的基本层预测得到。在预测的过程当中,因为基本层拥有更低的分辨率,所以首先读入基本层的残差信息和运动矢量。然后在基础层之上产生一个或多个增强层。增强层的帧间编码宏块的划分方法可以由相关的基本层的对应宏块派生得到,同样,其运动矢量也可以通过比较和计算其对应的基本层的宏块的运动矢量而得到。质量/信噪比可伸缩性:包括了两种模式,基于嵌入式量化方法的粗粒度可伸缩性(CGS,coarsegrainscalability)和基于位平面编码方法的细粒度可伸缩性(FGS,FineGrainScalability)。在SNR可伸缩技术中,使用传统的混合编码技术,即经过整数变化和量化得到基本层;基本层之上是增强层,在基本层和原始子带图片之间存在残差信息,这个差值和基本层一样使用同样的方法进行变换和量化,不同的是量化粒度更加细腻一些,即使用更小的量化参数,再进行熵编码,量化后得到的系数就是SNR的增强层。增强层和基本层一起可以看作是另外一个更高层次的增强层的基本层。这个更高层次的增强层计算方法和以5上阐述的方法一样。最后基本层系数和增强层系数再使用位平面编码和行程编码相结合的方式进行熵编码,分别形成基本层码流和增强层码流输出。总的来说,目前混合框架+MCTF技术占有一定优势,主要体现在编码效率高和兼容性较好;但是对3D小波的研究可能还不深入,还有很大的提升空间。目前关于可伸缩编码的广泛应用还没有开展起来。1.3多视点编码技术多视点视频(multi-viewvideo)是一种新型的具有立体感知和交互操作功能的视频技术,它由一组平行、会聚相机阵列拍摄得到的视频信号。2001年,MPEG成立了3DAV工作组,其首要任务就是定义3D音视频领域的范围和应用场景,并为其中的关键技术制定标准。多视点视频是3DAV框架下,近年来迅速崛起和快速发展的研究领域。在视频监控类的应用中,多视点视频编码技术有助于实现多视角立体监控,多摄像头联动等应用。实现多视点视频编码(MVC)可以基于传统混合编码框架(如H.264),也可基于小波编码以及分布式编码等新一代视频编码工具。视点间相关性是多视点视频序列的重要特性,它与相机阵列形式、相机间距、相机和拍摄对象间距离存在极大的关系,直接反映在同一时刻相邻视点两幅图像的视差上。由于该类系统存在着大量的数据冗余,如何组织和压缩数据就成为重要的研究课题。所以当前MVC主要围绕如何提高压缩效率以及随机读取能力进行研究,而这些研究又可从两个主要方面来分类,一是预测结构,二是预测工具。预测工具指的是多路码流视角之间的空间预测手段,包括亮度补偿,视差/运动补偿,2D直接预测模示,视角插值。由于视角间的相关性利用是决定MVC压缩效率的主要因素,因而未来MVC压缩效率的进一步提高依赖于新型预测工具的设计。预测结构指的是多视点视频时空帧之间的相互预测参考关系,它代表将哪些帧一道进行处理以消除数据的时空冗余性,因而不管是传统的混合编码、小波,还是分布式编码,都离不开预测关系的设计。另外预测结构是决定随机读取性能、快速解码性能、网络传输代价的重要指标,因而在MVC研究中受到广泛关注。将MVC编