中国电影电视技术学会标准T/CSMPTE3—2018超高清电视图像质量主观评价方法Subjectiveassessmentmethodsforimagequalityofultrahigh-definitiontelevision(UHDTV)2018-04-01发布2018-04-01实施中国电影电视技术学会发布T/CSMPTE3—2018I目次前言.....................................................................................II1范围...................................................................................12规范性引用文件.........................................................................13缩略语.................................................................................14双刺激连续质量标度评价方法.............................................................1参考文献..................................................................................7T/CSMPTE3—2018II前言本标准按照GB/T1.1-2009给出的规则起草。请注意本标准的某些内容可能涉及专利。本标准的发布机构不承担识别这些专利的责任。本标准由中国电影电视技术学会标准与测试专业委员会归口。本标准起草单位:国家新闻出版广电总局广播电视规划院、中央电视台、江西广播电视台、广东广播电视台。本标准主要起草人:张乾、邓向冬、范创奇、范晓琳、李岩、彭子舟、林小海、宁金辉、王惠明、周立、曾靓、李光辉、林建生。T/CSMPTE3—20181超高清电视图像质量主观评价方法1范围本标准规定了实验室环境下采用平板显示器对超高清电视图像质量进行主观评价的方法。本标准适用于对超高清电视系统和设备的图像质量进行双刺激连续质量标度的主观评价。2规范性引用文件下列文件对于本标准的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本标准。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本标准。GY/T307-2017超高清晰度电视系统节目制作和交换参数值GY/T315-2018高动态范围电视节目制作和交换图像参数值3缩略语下列缩略语适用于本标准。HDR高动态范围(HighDynamicRange)PLUGE图像校准信号发生器(PictureLineUpGeneratingEquipment)SDR标准动态范围(StandardDynamicRange)4双刺激连续质量标度评价方法4.1概述双刺激连续质量标度法一般用于评价被测系统的图像质量或传输系统对图像质量的影响。尤其对于无法体现被测系统全部质量的情况,双刺激连续质量标度法特别有效。采用该评价方法时,观看员观看一对图像,这两个图像均来自同一个信号源,其中一个是信号源直接输出的源图像,另一个是源图像经过被测系统以后的图像,称为被测图像,源图像和被测图像按伪随机顺序安排排列。观看员需对二者的图像质量进行评价。评价周期最长时间为30分钟,评价结束后,对源图像和被测图像的评分进行计算。4.2实验室主观评价条件、显示器技术要求及参数值实验室主观评价条件要求见表1,显示器技术要求及参数值见表2。表1实验室主观评价条件序号项目技术要求1观看距离和图像高度的比值7680×43200.753840×21601.5T/CSMPTE3—20182表1(续)序号项目技术要求2显示器后的背景亮度与图像峰值亮度的比值SDR约0.15HDR≤0.0053环境亮度低4背景色温D65表2显示器技术要求及参数值序号项目技术要求及参数值1显示器尺寸对角线尺寸推荐大于等于1.75米(70英寸),最低不小于1.40米(55英寸)2显示器物理分辨率7680×4320≥7680×43203840×2160≥3840×21603显示器色域可根据测试信号色域进行相应的设置4显示器亮度和对比度采用PLUGE信号调整5显示器峰值亮度(cd/m2)aSDR150~300HDR推荐大于等于1000,最低不小于5006显示器对比度bSDR≤0.02HDR≤0.000005a峰值亮度是指100%峰值视频电平下的亮度。b该值为显示器黑场亮度与峰值亮度之比,会受到环境光的影响。4.3测试图像测试图像的格式应符合GY/T307-2017或GY/T315-2018的要求。一套测试图像应包含至少4个静止图像和具有运动特性的图像序列,每个序列大约持续10秒~15秒。对被测系统而言,测试图像应具有最佳的图像质量。测试图像应该是“严格的,但又不过分”,既包含各种评价因素,如静止空间分辨率、动态空间分辨率、亮度层次(高亮度部分层次重现、低亮度部分层次重现)、对比度、清晰度、彩色还原和运动特性等具有比较敏感特点的内容,同时又应包含能代表电视节目的典型内容。4.4观看员观看员即应邀参加主观评价的评分人员。观看员通常有两种类型,即专业观看员和非专业观看员。一般都由非专业观看员来进行主观评价,当需要精确判断时,可由受过专业训练的专业观看员来进行评价和分析。观看员应具有代表性,即应包括不同性别、年龄、文化层次的观众;应具有正常的视力(含校正视力)和色觉;应具有一定分析判断能力;应能较快地接受和掌握评价方法和要求。主观评价所需观看员的人数应大于等于15人。4.5评价测试阶段在每个评价周期开始时,应向观看员详细、正确地介绍评价方法、质量要素或可能出现的损伤类型、评分标度、测试图像和评价时间长度,并进行评价示范显示。示范显示应使用不同于正式测试的图像或T/CSMPTE3—20183序列,但示范显示图像或序列应代表将要评价的被测系统损伤的类型和损伤的程度范围,且与正式测试中使用的图像或序列具有可比性。一个评价周期包括示范说明在内不超过30分钟。在正式测试开始前,需要引入3至5个评价序列来稳定观看员的判别力,其结果数据不纳入测试结果的统计中。不同测试图像的显示顺序采用伪随机方式。为了检测相关性,有些测试可以重复进行,但要避免相同测试图像在相继的评价序列中出现。评价周期的显示流程如图1所示。图1评价周期的显示流程4.6测试图像的演示一个评价周期由多次演示组成。在每一次演示时,首先要显示一次或多次信号A和信号B,每次持续时间相同,以便使观看员得出相应的判断,然后再显示一次或多次这两个信号,观看员进行评分。重复的次数取决于测试序列的长度。对于静止图像,使用3秒~4秒的序列并重复5次(在最后2次显示图像期间评分)。对于活动图像,使用10秒的序列并重复两次(在第二次重复期间评分)。图2表示了演示顺序。其中,信号A和信号B均有可能是源图像或被测图像,且不告知观看员哪一个是源图像和哪一个是被测图像。灰场信号A打分灰场信号B信号A信号B灰场灰场灰场3s10s3s10s3s10s3s10s5s~11s注:灰场为电平为200mV的中灰视频信号。图2双刺激连续质量标度法的测试图像演示4.7评分标度评价时,观看员要在垂直标尺上标出记号来确定每次演示图像的总体质量。垂直标尺是成对的,对应每个测试图像的两次演示。为了防止量化误差,标尺提供了连续的评分机制,分成了长度相等的5段,对应优、良、中、差、劣5个等级。图3给岀了典型评分标度。为了防止在标尺与测试结果之间出现混淆,标尺用黑色印刷,评分结果用红色记录。稳定序列测试阶段的主体部分示范序列空白(此时允许回答观看员提出的问题)T/CSMPTE3—20184优良中差劣AB...ABNABN+1ABN+2ABN+3AB...图3评分标度4.8结果分析4.8.1评分量化将每个测试条件下的源图像和被测图像从评分标度上的度量长度转换为归一化的0至100范围内的评分,然后计算源图像与被测图像之间的差值。在相同测试条件下,因测试图像间的苛刻度差异,不同被测图像与其源图像的差值可能不同。对于编解码器测试,应将不同的被测图像的评分结果分别表示,以全面反映编解码器的性能。4.8.2平均分计算对评分结果进行分析的第一步是计算每一显示片段的平均评分𝑢̅𝑖𝑗𝑘𝑟,见式(1)。𝑢̅𝑗𝑘𝑟=1𝑁∑𝑢𝑖𝑗𝑘𝑟𝑁𝑖=1....................................(1)式中:𝑢𝑖𝑗𝑘𝑟——观看员i在测试条件𝑗、测试序列/测试图像𝑘、重复𝑟次情况下的评分;N——观看员数量。类似的,可计算出每一测试条件和每一测试序列/测试图像的总平均评分𝑢̅𝑗和𝑢̅𝑘。T/CSMPTE3—201854.8.3置信区间计算在给出某一显示片段所有评分(即一个样本)的平均值时,也应给出其相应的95%置信区间。置信区间与样本的标准偏差和大小有关。样本的95%置信区间如下:[𝑢̅𝑗𝑘𝑟−𝛿𝑗𝑘𝑟,𝑢̅𝑗𝑘𝑟+𝛿𝑗𝑘𝑟]其中:𝛿𝑗𝑘𝑟=1.96𝑆𝑗𝑘𝑟√𝑁......................................(2)每一显示片段的标准偏差𝑆𝑗𝑘𝑟由式(3)给出:𝑆𝑗𝑘𝑟=√∑(𝑢̅𝑗𝑘𝑟−𝑢𝑖𝑗𝑘𝑟)2(𝑁−1)𝑁𝑖=1..................................(3)在所有评分满足正态分布的条件下,测试获得的平均值和平均值的真值(即通过相当多的观察者获得的评分)的差值绝对值小于置信度间隔(式(2)给出)的概率是95%。同样,能够计算出每一测试条件下的标准差𝑆𝑗。值得注意的是,当采用较少测试序列/测试图像的情况下,相对于观看员之间的评分差别而言,所用测试序列之间的差别对标准差的影响更大。4.8.4观看员筛选如果测试中观看员数量较少且这些观看员均为非专家时,可对观看员进行筛选。计算每次评价显示的均值𝑢̅𝑗𝑘𝑟、标准偏差𝑆𝑗𝑘𝑟和峰态系数𝛽2𝑗𝑘𝑟,其中𝛽2𝑗𝑘𝑟由式(4)给出。𝛽2𝑗𝑘𝑟=𝑚4(𝑚2)2.......................................(4)式中:𝑚𝑥=∑(𝑢𝑖𝑗𝑘𝑟−𝑢̅𝑗𝑘𝑟)𝑥𝑁𝑖=1𝑁对于每一个观看员i,计算其𝑃𝑖和𝑄𝑖,𝑃𝑖和𝑄𝑖的初始值为0,即:对于𝑗,𝑘,𝑟1,1,1至𝐽,𝐾,𝑅若2𝛽2𝑗𝑘𝑟4,则:若𝑢𝑖𝑗𝑘𝑟≥𝑢̅𝑗𝑘𝑟+2𝑆𝑗𝑘𝑟则𝑃𝑖=𝑃𝑖+1若𝑢𝑖𝑗𝑘𝑟≤𝑢̅𝑗𝑘𝑟−2𝑆𝑗𝑘𝑟则𝑄𝑖=𝑄𝑖+1否则:若𝑢𝑖𝑗𝑘𝑟≥𝑢̅𝑗𝑘𝑟+√20𝑆𝑗𝑘𝑟则𝑃𝑖=𝑃𝑖+1若𝑢𝑖𝑗𝑘𝑟≤𝑢̅𝑗𝑘𝑟−√20𝑆𝑗𝑘𝑟则𝑄𝑖=𝑄𝑖+1若𝑃𝑖+𝑄𝑖𝐽×𝐾×𝑅0.05且|𝑃𝑖−𝑄𝑖𝑃𝑖+𝑄𝑖|0.3则删除该观看员i,式中:𝑁——观看员数量;𝐽——测试条件的数量,包括基准在内;𝐾——测试图像或序列的数量;𝑅——重复次数;𝐿——测试演示的次数(在大多数情况下,演示的次数等于𝐽×𝐾×𝑅,不过有些评价对每一测试条件都采用数目不等的序列)。T/CSMPTE3—20186对于某次评价获得的评分数据,筛选数据采用以上的方法只能进行一次。4.9结果说明在使用双刺激连续质量标度法时,不应将双刺激连续质量标度数值与其他测试方法所用的属性词(例如双刺激损伤标度法中的不可察觉、可察觉但不讨厌等)相关联并描述被测系统图像