ITU-RBT.1788建议书1ITU-RBT.1788建议书对多媒体应用中视频质量的主观评估方法(ITU-R102/6号研究课题)(2007年)范围数字广播系统允许提供多媒体和数据广播应用,包括视频、音频、静态图像、文本和图表。本建议书规定评估多媒体应用视频质量的非交互式主观评估方法。国际电联无线电通信全会,考虑到a)许多国家正在引入数字广播系统;b)利用数字广播系统,已经引入或计划引入包括视频、音频、静态图像、文本、图表等的多媒体和数据广播服务;c)多媒体服务将涉及广播基础设施,其特点是可能使用固定或移动接收机、固定和可变的帧速率、不同的图像格式、先进的视频编解码、丢包等;d)有必要规定性能要求,并验证为各项带有性能要求的服务而考虑的技术解决方案的适宜性;e)这种验证将主要涉及在受控条件下对视频质量的主观评估;f)在ITU-RBT.500建议书中规定的主观评估方法可以用于多媒体应用;g)除了在ITU-RBT.500建议书中规定的那些主观评估方法外,还可使用其它的主观评估方法;h)采用标准方法在不同实验室间实现信息交换是十分重要的;建议1测试的一般方法,即在附件1中所述的图像质量评估的评定尺度和观测条件,应用于实验室实验,并且只要可能,可用于多媒体应用中的运营评估;2在所有的测试报告中都应对测试配置、测试材料、观测者和方法做全面描述;3为了促进不同实验室之间的信息交换,应依据附件2中详述的统计方法对收集到的数据进行处理。2ITU-RBT.1788建议书注1—适于多媒体应用中视频质量主观评估的视频材料库,需由无线电通信第6研究组做进一步完善。附件1评估方法描述1引言许多国家已着手部署数字广播系统,它将允许提供包括视频、音频、静态图像、文本和图表等在内的多媒体和数据广播应用。需要标准的主观评估方法来规定性能要求,并验证为各项应用而考虑的技术解决方案的适宜性。主观方法是必要的,原因是它们提供了测量法,允许业界更直接地预测最终用户的反应。广播系统需要交付明显不同于当前在用的多媒体应用:信息通过固定与/或移动接收机访问;帧速率可以是固定的,或者是可变的;可能的图像尺寸变化范围很大(即从SQCIF到HDTV);典型地,视频与嵌入的音频、文本与/或语音相关;视频可以通过先进的视频编解码器来处理;并且理想的观测距离很大程度上取决于应用。在ITU-RBT.500建议书中规定的主观评估方法应在这一新的背景下应用。此外,可以采用新的方法完成对多媒体系统的调查,以满足用户对多媒体领域特性的要求。本建议书描述评估多媒体应用视频质量的非交互式主观评估方法。这些方法可用于不同目的,包括但不限于:算法的选择、对视听系统性能的评定,以及在视听连接期间对视频质量等级进行评估。与本建议书相关的术语和定义请参见附件1的附录3。2共性2.1观测条件表1列出了建议的观测条件。所用的显示器尺寸和类型应符合正在调查的应用。由于多媒体应用中使用了若干种显示技术,因此,所有有关评估中所用显示器的相关信息(例如制造商、型号和规范),都应予以报告。当使用基于个人电脑的系统来展示序列时,还应报告系统的特性(例如视频显示卡)。表2显示了一个有关正在测试的多媒体系统配置数据记录的例子。如果通过使用特定的解码器-播放器组合来获取测试图像,那么这些图像必须独立于特有的外观,以便获得匿名的显示器。有必要确保质量评估不受原始环境知识的影响。ITU-RBT.1788建议书3当测试中评估的系统使用降低的图形格式时,例如CIF、SIF或QCIF等,应在显示屏的一个窗口上显示片段。屏幕上背景的颜色应为50%的灰色。表1用在多媒体质量评估中的、建议的观测条件参数设置观测距离(1)限制的:1-8H非限制的:取决于观测者的喜好屏幕最高亮度70-250cd/m2非活动屏幕亮度与最高亮度之比≤0.05当在完全黑暗的屋内仅显示黑色等级时,屏幕亮度与相应的白色等级峰值之比≤0.1图形监视器背景亮度与图形亮度峰值之比(2)≤0.2背景色度(3)D65屋内背景亮度(2)≤20lux(1)观测距离通常取决于应用。(2)该值表示允许最大可察觉失真的设置,对某些应用,允许更高值或者取决于应用。(3)对PC监视器,背景色度应尽可能接近显示器的“白点”色度。表2测试中的多媒体系统的配置参数规范显示器类型显示器尺寸视频显示卡制造商型号图像信息2.2源信号源信号直接提供基准图形以及测试中的系统的输入。源片段的质量应尽可能高。作为一个指导原则,视频信号应使用YUV(4:2:2、4:4:4格式)或RGB(24或32位)记录于多媒体文件中。当实验者有兴趣对来自不同实验室的结果进行比较时,需要使用一组公共的源片段,以消除更大的变化源。4ITU-RBT.1788建议书2.3测试材料的选择测试场景的数目和类型对解释主观评估的结果而言是至关重要的。某些过程可能导致大多数片段相同程度的损伤。在这种情况下,用少量片段(例如两个)获得的结果应提供一个有意义的评价。不过,新的系统常常具有一定的影响,这很大程度上取决于场景或片段内容。在这种情况下,应选定测试场景的数目和类型,以便为标准的节目编排提供合理的概括。此外,应为测试中的系统选定“关键但不太过度”的材料。“不太过度”这个短语指的是,场景可以仍是标准电视节目编排内容可想象的组成部分。有关场景复杂度的一个有用提示可由其空间和时间感知特性来提供。在附件1的附录1中,对空间和时间感知特性的测量有更详细的陈述。2.4条件和锚定的范围由于大多数评估方法对范围变化和观测条件分布是敏感的,因此判断会议应包括变化因素的全部范围。不过,这可能与更加严格的范围近似,通过提出某些可能成为尺度极限的条件。这些可以作为例子而陈述,并确定为最大的极限(直接锚定)或分布于整个会议中,并且不被确定为最大的极限(间接锚定)。可能的话,应使用大的质量范围。2.5观测者筛选后的观测者数目应至少为15。他们应当不是专家,在某种意义上,他们与图形质量没有直接利害关系,只是作为其日常工作的一部分,并且他们不是经验丰富的评估者。在会议召开前,应使用斯内伦(Snellen)或朗多(Landolt)视力表,对观测者进行(校正)标准视觉灵敏度筛选,并使用特别选择的视力表(如Ishihara),进行标准颜色视觉筛选。需要的评估者数目依采用的测试程序的敏感度和可靠性而定,并取决于所追求效果的期望大小。实验者应尽可能详细地包括其评估小组成员的特点,以利于对该因素做进一步研究。提供的建议数据可以包括:职业类别(例如广播机构职员、大学学生、办公室工作人员)、性别和年龄范围。2.6评估说明应仔细向评估者介绍评估方法、损伤类型或可能出现的质量因子、等级评定尺度、时间安排等。除了那些在测试中使用、但具备可比灵敏度的训练片段外,展示待评估损伤范围和类型的训练片段应与场景一同使用。2.7实验设计实验者接下来要选择实验的设计方法,以便实现特定的成本和精度目标。最好是在实验中至少包括两份复制品(即相同条件下的重复试验)。重复使计算个体的可靠性变得可能,而且如果必要,从某些对象中放弃不可靠的结果。此外,重复确保测试中的学习效果在某种程度上能够得以平衡。通过在各次测试会议开始之时包括一些“虚拟陈述”,可以在处理学习效果过程中获得进一步的改进。这些条件应是有代表性的陈述,在会议的后期予以显示。在对测试结果进行统计分析过程中,不考虑初步的陈述。ITU-RBT.1788建议书5会议是一系列的陈述,不应超过半个小时。当测试多个场景或算法时,场景或算法的陈述次序应是随机的。可能要对随机的次序进行修改,以便确保相同场景或相同算法不会出现在紧邻的时间段中(即连续地出现)。3评估方法利用ITU-RBT.500建议书中的方法,可以对多媒体系统的视频性能进行检测。§3.1提供了选定方法的列表。§3.2描述了另一种方法,称为SAMVIQ,它利用了多媒体领域的特性,并可用于多媒体系统的性能评估。3.1ITU-RBT.500建议书中的方法以下ITU-RBT.500建议书中的方法,应用于评估多媒体系统的视频质量。—如ITU-RBT.500建议书附件1§4中所述的双刺激损伤尺度(DSIS)方法。—如ITU-RBT.500建议书附件1§5中所述的双刺激连续质量尺度(DSCQS)方法。—如ITU-RBT.500建议书附件1§6.1中所述的单刺激(SS)方法。—如ITU-RBT.500建议书附件1§6.2中所述的刺激-比较(SC)方法。—如ITU-RBT.500建议书附件1§6.3中所述的单刺激连续质量评估(SSCQE)方法。3.2多媒体视频质量(SAMVIQ)的主观评估在该方法中,观测者准许使用一个片段的若干个版本。当所有版本都经观测者评定后,可对之后的片段内容进行评估。不同版本可由观测者通过计算机图形接口随机选择。根据需要,观测者可以停止、评审并修改某个片段各个版本的评分。该方法包括一个显性基准(即未经处理的)片段,以及相同片段的若干个版本,这些版本包括经处理的和未经处理的(即隐含基准)片段。片段的各个版本都单独显示,并使用一个类似于在DSCQS方法中使用的连续质量尺度来评价。因此,该方法在功能上与利用随机访问的单刺激方法十分类似,但只要观测者想要观测,他就可以观测显性基准,这使得该方法类似于使用一个基准的方法。SAMVIQ质量评估方法使用连续质量尺度,以提供对视频片段内在质量的测量。各个观测者在从0到100评级的连续尺度上移动一个滑条,该连续尺度用5个线性排列的质量项目来注释(很好、好、一般、差、很差)。逐个场景地进行质量评估(见图1),包括显性基准、隐含基准和各种各样的算法。6ITU-RBT.1788建议书为更好地理解这一方法,定义了以下特定词汇:场景:视听内容;片段:综合处理过或未经处理的场景;算法:一种或多种图像处理方法。3.2.1显性、隐含的基准与算法评估方法通常包括质量锚,以稳定结果。在SAMVIQ方法中,出于以下原因,考虑了两个高质量锚。已经完成的一些测试表明,可以使用显性基准来最大限度地缩小分值的标准差,而不使用隐含的基准或不使用基准。尤其是对多媒体数字信号编解码器性能的评估,最好使用显性基准来获得最可靠的结果。为了评估基准的内在质量,也可加上隐含基准,而不是显性参考,原因是陈述是匿名的,并且是经过处理的片段。显性名称“基准”会对大约30%的观测者产生影响。这些观测者对显性基准可能给出最高分(100分),而该分值总的说来有别于隐含基准对应的分值。值得注意的是,当没有可用的基准时,测试仍有可能进行,但标准的偏差会显著增大。SAMVIQ方法适用于多媒体内容,原因是它可能结合图像处理的不同特点,例如多媒体数字信号编解码器类型、图像格式、比特率、时间更新、图像缩放等。算法这个名称总结了这些特点的其中一个特点或其组合。3.2.2测试条件在场景期间,临界点的变化是受到限制的,原因是在其它方法(提供一个综合分值,如单刺激方法)隐含使用的相同规则后选择同样的内容。最大的片段观测期为10秒或15秒,对获得稳定的和可靠的质量分值而言,这已足够。应使用专用的解码器-播放器或其产品的屏幕拷贝,以保持适当的显示性能。3.2.3测试机构a)如图1所示,逐个场景地进行测试。b)对当前场景,可能以任何次序来播放任何片段,并为其打分。每个片段都可以多次播放和打分。c)从一个场景到另一个场景,对片段的访问是随机的,防止观测者试图根据已排好的次序、以完全相同的方式来做出判定。实际上,在一个测试中,算法的次序仍保持相同,以便简化对结果的分析和陈述。只有来自相同按钮的相应访问是随机的。d)对第一次观测,当前的片段必须在打分之前全部播放过;否则,可能立即打分和停止。e)为测试下一个场景,必须为当前场景的所有片段打分。f)为完成测试,必须为所有场景的所有片段打分。ITU-RBT.1788建议书78ITU-RBT.1788建议书SAMVIQ方法通过软件来实现。除了图1中所示的访问按钮,“播放”、“停止”、“下一个场景”和“上一个场景”按钮都是必需的,以便允许观测者管理不同场景的表述(例如,参见附件1的附录2)。当观测者已给出