西北大学学报(自然科学网络版)2004年5月,第2卷,第5期ScienceJournalofNorthwestUniversityOnlineMay2004,Vol.2,No.5________________________收稿日期:2004-02-03基金项目:陕西省科技研究发展计划资助项目(98k07-G4);西安市科技攻关计划资助项目(GG9907).审稿人:田玉敏,女,西安电子科技大学计算机科学系教授,硕士。基于梯度向量角-模值二维直方图的镜头边界检测葛宝1,祝轩1,谢明华1,彭进业1,2(1.西北大学电子科学系,陕西西安710069;2.西安电子科技大学电子工程学院,陕西西安710071)摘要:提出一种新的基于梯度向量角-模值二维直方图的镜头边界检测方法。该方法采用反对称双正交小波分解系数计算视频帧的方向梯度向量,再统计由梯度向量角和模值构成的联合空间二维直方图,然后计算连续帧直方图之间的距离,得到两帧之间的不连续值,最后采用自适应阈值分割,检测出镜头边界。初步实验结果表明,在保持检出率相同时,所提出方法的正确率比HSV空间颜色直方图方法高出8%左右。关键词:镜头边界检测;梯度向量角-模值二维直方图;HSV空间颜色直方图;基于内容的视频检索;反对称双正交小波中图分类号:TP391文献标识码:A文章编号:1000-274X(2004)0069-06镜头是一组连续的相互关联的帧,是相机的一次连续拍摄,代表时间或空间上连续的一组动作。镜头的切换形成镜头边界,镜头边界检测是进行视频内容分析的首要步骤,是基于内容的视频检索中更高一级的语义、内容分析的基础。镜头边界的类型一般可以分为突变型和渐变型两种。目前,针对这两种边界类型的检测方法主要有:像素亮度匹配、颜色直方图(RGB、YUV或HSV空间)比较、边缘比较等方法。基于像素亮度匹配的方法由于它对运动、光照很敏感,所以它的检测效果不理想[1]。由于颜色直方图可以克服对物体运动的敏感性,而边缘对光照变化具有稳定性,因此基于颜色直方图和边缘的检测方法优于基于像素亮度匹配的方法。进一步,从文献[2]中给出的基于边缘变化率和基于颜色(YUV空间)直方图的镜头边界检测实验结果可以看出,基于颜色直方图的方法在某些方面比基于边缘变化率的方法更好一些。颜色直方图可以在3种不同的颜色空间(即RGB、YUV和HSV空间)中统计。HSV(Hue-Saturation-Value)空间与RGB、YUV比较,具有两个重要特点:一是人眼可独立感知该空间各颜色分量的变化;二是在这种颜色空间上的颜色三元组之间的欧几里德距离与人眼感觉到的相应的颜色差具有线性关系,是一种符合人类视觉感知特性的颜色模型。因此,基于HSV颜色空间的测度能够更好地逼近人眼的感觉,其中H(Hue,色调)分量又较好地克服了一般光照变化对颜色直方图所带来的影响。这是因为H在光照发生变化时能保持相对稳定,这可以从下面H与R,G,B之间的变换关系表达式[3]中看出BGBGHπ2(1)其中)(cos))(()()()(5.012BGBRGRBRGR(2)2所以采用HSV空间颜色直方图进行镜头边界检测比RGB、YUV为优,并且常常加重H分量对颜色直方图的贡献。本文提出基于梯度向量角与模值联合空间二维直方图(我们将其简称为AM直方图)的镜头边界检测方法,并与HSV空间的颜色直方图方法进行比较,初步实验结果表明本文方法的性能优于HSV空间的颜色直方图方法。1基于梯度向量角-模值二维直方图的镜头边界检测方法1.1视频帧梯度向量角和模值的计算由于视频帧图像中不可避免地含有一定的噪声干扰,直接利用像素的差分来计算梯度向量是不可取的,因此在计算梯度向量之前对图像作某种平滑处理是必要的。Mallat等人提出了基于二进小波分解系数的多尺度边缘提取方法[4],该方法计算工作量较大,且其变换系数不利于直接用于编码压缩。文献[5]中基于反对称双正交小波的多尺度边缘提取算法克服了这两方面的缺点,本文采用这一方法计算图像多尺度方向梯度,下面简述其算法。将图像用反对称双正交小波作J级小波分解,设分解后的第j(j=1,…,J)级的近似系数为jA,水平方向、垂直方向及对角方向的细节系数分别为)3()2()1(jjjDDD、、。模糊图像jA上的任意一点记为p(x,y)。则-j尺度下p位置处的梯度向量的模值为2)(2)(),(),(),(yxdyxdyxMvh(3)而其对应的向量角为),(),(arctan),()()(yxdyxdyxAvh(4)其中:),(yxdh是)1(jD和)3(jD按行先“半重构”再作下采样后在p(x,y)位置的值;),(yxdv是)2(jD和)3(jD按列先作“半重构”再作下采样后在p(x,y)位置的值。更详细的算法请参考文献[5]。1.2梯度向量角-模值二维直方图设A为向量角空间,M为模值空间,现将向量角A的分布区间(0,2π]分成L等分,每等分宽度为L,记为iL,Li,,1。将M分成K等分,每等分宽度为K,记为jK,Kj,,1。现在统计A处于iL,同时M处于jK内的像素点数,记为),(jiC,然后对其进行归一化KnLmnmCjiCjiP11),(),(),((5)即为梯度向量角-模值二维直方图。为了增强直方图特征的有效性,模值太小的像素点不参与直方图统计,即只选取sN个M取最大值的像素点参与统计,这里3tsNN(6)tN是全部像素点数。取值可在30%左右选取。显然,如果K=1,则二维直方图退化为单纯的向量角直方图,向量角直方图可以应用于具有明显结构特征的图像相似性的检测,详细讨论可以参考文献[6]。反之,如果L=1,则退化为单纯的模值直方图。因此,选取L愈大,向量角分布的信息量愈大,而K愈大,模值分布的信息量愈大。因此,选取合适的K、L值也是值得考虑的因素,通过比较实验,本文中取L与K之比约为2:1。1.3帧间不连续值计算以视频帧的梯度向量角-模值二维直方图作为特征矢量,计算第m帧和第n帧之间的不连续值LiKjnmjiPjiPnmZ11)),(),((),((7)式中:mP、nP是按式(5)计算出的直方图向量;m和n是帧的序号,且nm1,本文实验取nm1。1.4边界检测的自适应阈值最简单的边界检测方法是选取一个固定的阈值,即全局阈值,将帧间不连续值大于阈值的位置判定为镜头边界。然而采用全局阈值,可能会使帧间不连续值的局部峰值出现漏检。因此,采用固定阈值是不恰当的,本文采用如下的自适应阈值[1]rT(8)式中:r为预先设置的常数,r越大,错误检出的概率越小,r越小,错误检出的概率越大;和是当前镜头内Z值的均值和方差。其计算步骤如下:1)初始化。在一个边界确定之后,令k=1,连续计算q个Z(k,k+1)值,得qkkkZq1)1,(1(9)2/112)1,(1qkkkZq(10)并按式(8)得到T。2)检测TkkZ)1,((11)如果成立,确定为边界,转第一步,否则3)用求得的Z(k,k+1)更新、和T,然后转第二步。2实验结果为了验证上节方法的有效性,我们随机选取了11417帧(每帧大小352×288像素,25帧/s)连续故事片作实验素材。首先请专业人员通过对视频浏览,确定其共有镜头边界126个,其中包含有亮度变化显4著的镜头,有剧烈动作的镜头,并且有几个镜头边界为渐变型边界。用本文AM直方图方法和HSV颜色直方图法[7]分别对上述素材作镜头边界的检测。在AM方法中,为了加强体现视频内容的结构特性,所以对向量角的分布取12等分,即取L=12;而对模值空间只取5等分,即取K=5。在HSV方法中,按文献[7]将H取12等分,S和V分别取5等分。得到的不连续值分别如图1和图2所示。图1AM方法测得的不连续值图2HSV方法测得的不连续值Fig.1DiscontinuityvaluesobtainedbyAMmethodFig.2DiscontinuityvaluesobtainedbyHSVmethod采用自适应阈值,取q=25。为了便于比较,通过调整r的取值(对于AM方法取r=5.5;对于HSV方法取r=5.0),使AM方法和HSV方法保持相同的检出率,检测结果如表1所示。表1本文方法(AM)与颜色直方图法(HSV)镜头边界检测结果比较Tab.1Comparingexperimentalresults镜头边界检出数正确检出错误检出漏检正确率%检出率%AM12611311211499.1288.89HSV126122112101491.8088.89其中检出率%100mccNNNR(12)正确率%100fccNNNW(13)式(12,13)中:cN为正确检出数目;mN为漏掉的数目;fN为错误检出的数目。从表1所示的实验结果可以看出,本文所提出的AM方法与HSV颜色直方图法比较,在检出率保持一致的情况下,AM方法的正确率高出8%左右。由于AM方法同时考虑了视频帧的向量角和模值,因此对于视频图像结构的改变和颜色的改变都具有鉴别能力,而颜色直方图只对颜色的改变具有鉴别能力,因此AM方法的检测能力优于颜色直方图方法。但是,对于视频内容发生变化,而视频内容的结构无多大变5化时,也可能导致AM方法的漏检。下面简要分析这两种方法的算法复杂度。AM方法需要计算梯度向量的向量角和模值,HSV方法需要作RGB空间到HSV空间的转换,从这两种预处理过程来看,AM预处理的计算量稍大于HSV方法。但是,由于本实验中AM直方图维数(12×5维)远小于HSV直方图维数(12×5×5维),因此总的检测时间是AM方法远小于HSV方法。实验的实测结果也表明,本文AM方法比HSV方法快13倍。如果降低颜色直方图维数,例如只选取H-S二维颜色直方图[8],并且使其维数与AM直方图相当,此时两种方法的时间复杂度相差不会很大,但H-S颜色直方图方法的准确率将比AM方法更低一些。3结语本文提出的镜头边界检测方法,是以向量角和模值作为视频帧特征,通过统计梯度向量角和模值联合空间二维直方图进行帧间不连续值的计算,并且采用自适应阈值进行检测,初步实验结果表明,其总体检测性能优于HSV颜色直方图方法。另外值得注意两点:一是从实验结果看,本文AM方法与HSV方法在“漏检”上可能具有一定的互补性,因此将这两种方法相结合,可望进一步提高检出率,这是我们下一步将要研究的课题;二是由于本文方法采用反对称双正交小波分解系数计算梯度向量,而小波系数又可以应用于图像和视频压缩。因此,本文方法可以推广应用于小波压缩域中的视频镜头检测,这也是我们感兴趣的研究方向之一。参考文献:[1]HANJALICA.Shot-boundarydetection:unraveledandresolved[J].IEEEtransactionsoncircuitsandsystemforvideotechnology,2002,12(2):90-105.[2]SMEATONAF,GILVARRYJ,GORMLEYG,etal.Anevaluationofalternativetechniquesforautomaticdetectionofshotboundariesindigitalvideo[OL].[3]CASTLEMANKR.Digitalimageprocessing[M].NewJersey:PrenticeHall,Inc.,1996.553.[4]MALLATS,ZHONGS.Characterizationofsignalsfrommulti-scaleedges[J].IEEETrans.PAMI,1992,14(7):710-732[5]彭进业,俞卞章,王大凯,等.多尺度对称变换及其应用于定位人脸特征点[J].电子学报,2002,30(3):