1全景媒体(OMAF)的系统架构研究综述1概述虚拟现实技术是一种通过计算机仿真来创建和体验虚拟世界的技术,其中,交互式的三维动态视景与用户实体行为的融合大大丰富了用户的观看体验。目前,VR(virtualreality,虚拟现实)已成为一项热门技术,它通过展现360度的视频为观看者提供了沉浸式的“亲身体验”和“现实生活”。用户可以交互性地随时切换他们观看的视角,并且动态地查看他们所期望看到的部分场景。VR在很多领域都有它独特的应用魅力,如VR模拟、VR游戏、VR视频直播等。从用户体验的角度看,VR技术的最独特之处在于全景视频,也称360度全景视频或沉浸式视频。全景媒体是指能够根据用户的观看视角进行渲染的图像、视频及其相关联的音频。在拍摄端,全景视频一般由指向不同方向的多个照相机拍摄并拼接而成。由于人的视野有限,因此无法在特定视角看全整体画面,而是通常将注意力放在特定的感兴趣的区域。在渲染端,全景视频播放已经使用许多显示设备实现。但是,VR服务的核心问题在于如何将全景视频从相机拍摄端向最终的显示端进行传输和存储。全景媒体的技术架构主要由视频拼接与映射、视频编解码、存储与传输等技术构成。目前,已有多家公司提出了视频拼接算法,关于映射方法也有多种模型方案。此外,一些组织和标准正在制定针对全景媒体的编解码和传输的优化算法。同时,全景媒体技术面临很多巨大的挑战。首先,全景视频分辨率是一个技术瓶颈,相机组拼接带来的不同步、变形等因素将严重降低视频质量;其次,全景媒体庞大的数据传输与计算给传输带宽和终端的解码能力提出了巨大的挑战;此外,端到端的时延也是一个影响用户体验的关键参数。目前,市场上出现的虚拟现实产品标准不一,需要新的行业标准的约束。因此,为了将VR技术扩展到更广泛的市场,需要定义一种通用的应用架构标准,可以在不同的VR设备之间进行全景视频的存储、管理、交换、编辑和呈现。2全景媒体应用的发展与演进OMAF(omnidirectionalmediaapplicationformat,全景媒体的应用格式)最先由MPEG(movingpictureexpertsgroup,动态图像专家组)组织在2015年10月的113届MPEG会议上提出,它提出的重要意义在于它为VR系统的输入输出接口设定了标准,便于扩展到科学研究和商业领域。此后,很多公司如高通、三星、诺基亚等以及国内外各大高校纷纷参与制定标准的队伍中。与传统平面媒2体相比,全景视频在视频获取到播放的过程中,容易形成“碎片化”。全景媒体的“碎片化”,是由于在视频内容上的空间分块以及端到端的应用设备的性能不统一性造成的,而MPEG组织建立OMAF标准,正是为了避免和改善全景媒体在内容和应用设备上的碎片化。首先,OMAF框架可用于将360度视频与二维图像帧相互转换的映射和渲染;其次,在基本文件格式的基础上,扩充和丰富了VR视频存储功能和相关信令的定义;此外,在框架上还增加了动态自适应流的封装和传输;同时它针对全景媒体流提出了更高要求的压缩编码性能。MPEG组织在2015年底就初步形成了较为粗略的应用框图,涵盖了图像拼接和映射、视频编解码以及视频在球面的渲染模块。2016年6月,Byeongdoo等人在各种MPEG会议的提案基础上,对OMAF可支持的映射方式进行了比较和归纳。在编码方面,Ridge等人提出了下一代VR编码的趋势,对编解码器的实际应用提出了挑战性的需求。在存储方面,Wang等人提出了一个支持存储全景媒体内容的文件格式的标准,定义了多个VR相关的BOX类型。在传输方面,Franck等人提出了一个新的DASH(dynamicadaptivestreamingoverHTTP,基于HTTP的动态自适应流)描述符来帮助DASH客户端利用和管理VR内容。图1所示为OMAF标准草案的一个发展阶段路线图,从目前的研究趋势可以看出,从2017年1月开始就有成规范体系的关于OMAF框架的MPEG会议输出文档。图1OMAF标准草案的发展阶段路线图图2所示为关于MPEGOMAF的未来发展路线图。从图2中可以看到,在2017年底,三自由度的全景VR系统架构的标准制定完毕,到2020年底,六自由度全景VR系统也将会发布,届时对编解码、传输、文件格式等有全新的标准支持。图2MPEG组织的OMAF标准未来发展路线图关于全景媒体应用的架构,AVS(audiovideocodingstandard,数字音视3频编解码技术标准)工作组在2015年下半年也启动了VR全景视频应用工作计划,其任务和目标着重围绕视频编码和传输,定义全景视频紧凑表示方法和编码工具以及系统传输标准,提升全景视频压缩效率。在第一阶段(2015年底—2017年3月),AVS组织致力于研究全景视频编码与现有平面视频编码标准的兼容性;在第二阶段(2017年3月—2018年3月),AVS组织将重点放在定义新的全景视频编码工具上;在第三阶段(2017年3月—2020年3月),AVS组织将实现六自由度全景视频的编码。目前,AVS组织在第一阶段定义了10种不同的高效映射模型,面向不同的应用场景,且将主流平面视频编码标准应用到全景视频编码中来。IEEE虚拟现实与增强现实标准工作组正在制定八项标准(IEEEP.2048),其中涉及全景多媒体架构的包括沉浸式视频分类和质量标准及沉浸式视频文件和流格式这两个标准。截至2017年4月,全球共有接近200个企业和机构的专家参与该标准的制定工作,成为VR标准化的主要推动力量。3全景媒体的应用架构全景媒体架构对于编解码、封装、传输等提出了更高的性能要求。同时在应用需求上,还需要映射和渲染模块的支持。由于全景媒体的交互性特点,观看者视角也需考虑进入整体架构中。这些性能与应用上的需求构成了全景媒体架构的关键元素,基于这些思想,各大组织和企业在研究和发展中,形成了逐渐完善的、更为细化的架构。3.1MPEGOMAF下的全景应用框架为了支持全景媒体的应用,基于OMAF的全景媒体的系统框架应运而生,如图3所示。图3中实线表示音视频的数据流向,虚线表示OMAF和用户视角的信令流向。在客户端的模块均受视角信令的控制,体现出OMAF框架的用户交互性;另一方面,全景媒体的映射等信息也通过OMAF信令在封装和渲染模块之间传递。对于全景媒体应用的各个模块,MPEG组织经过不断地研究和讨论,提出了丰富的解决思路和算法。图3基于OMAF的全景媒体的系统框架43.1.1全景媒体的获取对于全景视频的采集,理论上可以通过7维全光函数来实现。而全光函数所要求的信息量过大,采集、传输和显示等技术问题短期难以获得突破。全景视频是全光函数的近似,它将7维表达简化到4维。早期的全景成像系统使用的是兼有反射折射作用的摄像机,但由于其结构特点,在相机顶部会存在盲区,无法捕获高质量高分辨率的全景视频。目前,较为常用的全景媒体获取的方法是使用包含具有重叠视野的多个鱼眼相机组成的系统。在MPEG第115次会议上,高通和LG公司提出鱼眼相机视频相关的文件格式语法和语义,在MPEG的OMAF标准中,鱼眼相机的两个有关拼接和渲染的参数——光学变形校正和镜头阴影补偿,被纳入了OMAF的信令中,以提高图像渲染的质量。3.1.2映射格式自2015年开始,对映射方式的讨论和研究一直很有关注度,先后有十几种不同的映射结构被提出。图4所示为经纬图模型映射变换的原理。图4经纬图模型映射变换的原理由于映射方式的多样性,在MPEG第116次会议上提出,映射格式需要通过相应测试标准,才可以被OMAF框架最终采用。在2017年4月的第118次MPEG会议上,公布了8种常用的映射格式,如图5所示。这些映射格式可以分为两种:视角依赖的映射格式和视角不依赖的映射格式。图5两种分类的映射格式视角依赖的映射结构能获取当前用户视角,并且将视角区域以高分辨率投影5到二维平面,其余背景区域则以较低分辨率进行映射变换,这样能够在同等带宽的情况下,提高视角区域的观看质量。但由于视角依赖的映射结构需要从网络上交互式地获取视点内的数据,可能由于网络时延导致视野内数据更新不及时,从而导致用户观看的延时。视角不依赖的映射结构不受视角信息的控制,其映射变换结构较为简单,无需获知视角范围的数据。3.1.3编解码方案目前,传统视频编码技术对全景视频仍然有效,新一代视频编码标准(H.266)预期能适度减少一半视频码率,可部分缓解全景视频传输的带宽压力。然而,不同于传统视频,全景视频有其画面的独特性,针对这些特点,一些创新的编码优化思想应运而生。Madhukar在2015年提出在编码之前加入区域自适应的平滑模块,解决经纬图模型映射导致两级区域过采样问题,节省大量码率。同年,Jin等人提出了一种扭曲运动补偿方法来解决鱼眼镜头拍摄造成的运动变形。在2017年4月,MPEG组织提出了适用于全景视频的几种基于视角的编解码方案,如子图像多流编解码法、感兴趣区域增强层法、同分辨率HEVC(highefficiencyvideocoding,高效视频编码)分块编码法。同分辨率HEVC分块编码法是基于运动约束分块集(MCTS)的编码方法,是将HEVC流按照相同分辨率进行不同质量(假设红色为高质量,黑色为低质量)和比特率的编码,并在接收端根据视角信息解码产生混合质量的图像,如图6所示。图6相同分辨率HEVC序列法流程基于视角的全景视频分块编解码能够在固定带宽情况下,根据观看质量合理地分配分辨率和码率,有效地契合了全景视频的特点,提升了终端用户的观看体验。3.1.4传输机制在传输中,全景视频的超大分辨率对于带宽和实时性的要求提出了高难度的挑战。在OMAF标准中,提出了两套传输方案:DASH方案和MMT(MPEGmedia6transport,MPEG媒体传输)方案。在全景视频中,根据用户视角进行动态切换主视点码流,则能去除“视角”冗余,减少带宽压力。应用于OMAF中的DASH方案传承其基本思想,它通过牺牲存储空间来提高带宽利用率。在这一方案中,在DASH服务器上,每个视角都存储多份不同码率的视频流,同一时刻根据客户端的视角信息来传输较高码率的主视角切片流和较低码率的其他视角切片流,是码率和视角自适应的动态流传输技术,它的技术框架如图7所示。图7OMAF中的DASH自适应动态流传输框架基于分块以及视角切换等思想,传输方案的设计和编解码方案一脉相承[18]。例如图6所示的HEVC运动约束分块集(MCTS)法,在编码端将全景图像划分为多个分块,且编码为不同质量的码流,根据用户视角信息在网络传输中动态切换不同分辨率和码流的媒体流,并在解码端组合成高质量主视角和低质量背景的混合图像。除此之外,在OMAF中,还提出了使用SRD(spatialrelationshipdescriptor,空间关系描述符)来进行基于用户视角的流式传输。另一种传输方案MMT也可作为OMAF应用架构传输模块的候选。MMT和DASH同是MPEG组织标准下的传输协议,二者除了传输架构不同之外,在OMAF架构下,MMT与DASH方案相同,在全景视频的传输中,需要根据当前视角方向,传递全景视频的主视角流,可以根据客户端指定当前视口,也可由发送端的服务器来选择。在传输系统设计中,需要兼并权衡存储、带宽、时延等各因素最大化用户体验和空间、带宽利用率。目前,已经有学者通过优化空间分块的动态流传输方式来提升全景媒体应用中的用户主观质量感受。3.1.5存储格式为了在基本文件格式中支持OMAF作为媒体存储和封装格式的应用,目前主流的实现方案是在基本文件的基础上增加多个视频track,并在track层次上,添加更多VR信息来支持OMAF这一格式。为了在track层次来表达VR视频的信息,Wang等人[3]提出后解码需求机制,它是通过对方案信息box(schemeinformationbox)中信息的添加和修改来加以实现的。OMAF标准在原有的基本文件格式标准基础上,加入了映射、打包和鱼眼视频等相关box的表达,有关OMAF的新增信息如图8所示。其中,POVD(projected7omnidirecti