北邮郭军web搜索第三章

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

Web搜索郭军北京邮电大学第3章图像检索文本自动标注物体识别文字识别人脸检测与识别视频检索引言Web图像搜索近年来已经成为研究开发的热点图像文档分图片和视频两种,格式多样,常包含文本和语音信息查询的两种方法:关键词查询和示例查询关键词查询可以采用现有的文本检索的技术架构,但先要对图像进行文本标注示例查询可以提交基于视觉特征的准确的查询请求,但提交查询不够方便,匹配算法的计算量大图像检索系统中的关键技术是图像分类和识别物体识别、文字识别、人脸检测与识别在图像检索中有特别重要的意义图像检索的发展过程研究始于上世纪70年代,当时的检索对象主要是中小规模的图像数据库人工标注索引、关键词检索90年代,开始研究基于自动分析和标注的图像检索基于低层视觉特征,即颜色、纹理、形状等为图像建立特征向量,三类特征有不同的性质使图像检索脱离了基于关键词的检索框架一个不太确切的名字:CBIR基于视觉特征的检索具有较强的客观性应用效果并不理想,研究热点转向基于语义的检索文本自动标注自动地对图像中包含的各种物体进行标注,甚至能够标注其中包含的抽象概念是极富挑战性的课题从大类标注做起图形类/照片类城市/风景室内/室外对检索有帮助,但信息颗粒太大,信息量太少基于区域划分的标注基于one-vs-all二值分类器的标注有监督的多类标注基于2DMHMM的二类标注通过有监督学习建立每类图像的模型将每类图像与一个概念相对应,对其进行包含多词的人工文本描述,类的特征用2DMHMM描述每幅图像都由一组按金字塔结构空间排列的不同粒度的特征向量描述在此基础上获得每个图像类的2DMHMM2DMHMM模型对两类信息进行抽取不同粒度的特征向量组特征向量组之间的空间关系特征抽取利用小波变换提取训练图像的局部特征一幅图像被划分为一些4×4像素的块从图像块中抽取6维特征(两类)块中像素的3个平均彩色成分(在LUV亮度/色度空间计算)小波变换中3个高频带中的纹理特征,每个特征对应各自频带中小波系数二阶矩的平方根以HL频带为例,设其系数为{ck,l,ck,l+1,ck+1,l,ck+1,l+1},则其纹理特征为:112,0012kiljijfc多粒度统计建模人工定义概念辞典,对应各概念给出简短而重要的描述特征从每幅训练图像中多粒度抽出,通过对本类图像集内多个特征向量的统计平均,每个概念获得一个跨粒度的统计模型基于统计的文本标注用同样方法抽取待标注的图像的特征向量计算该特征向量由各个概念模型产生的可能性根据可能性最高的若干模型所对应的文本进行标注图像建模首先获得一幅图像在不同粒度下的多个副本原始图像给出最小粒度的副本较大粒度的副本通过滤掉前一个副本的高频信息而依次生成(可利用小波变换的LL频带获得)从一个特定粒度的块中计算出的(子)特征向量被作为2DMHMM的1条多变量数据粒度每提高一级,水平和垂直方向的块数减少一半2DHMM—2DMHMM的基础假设图像的特征向量(组)由一个HMM生成si,j表示块(i,j)的状态,ui,j表示块(i,j)的特征向量如果i'i或者i'=i同时j'j,称(i',j')(i,j),或者说块(i',j')在块(i,j)之前2DHMM基于如下两个假设建立1:P(si,j|context)=am,n,lm=si-1,j,n=si,j-1,l=si,jcontext={si’,j’,ui’j’:(i',j')(i,j)}2:在给定状态下特征向量符合Gauss分布,一旦某个图像块的状态已知,其特征向量将条件独立于其他块的信息,即每个状态s拥有自己的(特征向量的)协方差矩阵Σs和均值向量μs2DMHMM(1/3)用集合R={1,…,R}表示粒度,R代表最高精度(最小粒度)粒度r的块标号集合为IN(r)={(i,j):0≤iw/2R-r,0≤jz/2R-r}w和z分别是原始图像的水平和垂直方向的像素数图像的特征向量为()(),,,(,)INrrijurijR对应的潜在状态为对应的状态集合(),rijs()()(){1,2,...,}rrrrM假设相邻级间的统计依赖关系符合一阶Markov链,即给定上一粒度级的状态,则本粒度级的状态条件独立于高于上一粒度级的所有其他粒度级的状态,有()(),(1)(1)()()(1)(1),,,2P{:,(,)IN}P{:(,)IN}P{:(,)IN|:(,)IN}RrrijRrrrrijijklrsrijsijsijskl2DMHMM(2/3)在给定状态下,特征向量条件独立于任何其他状态及其特征向量,因此一幅图像所有粒度级所有图像块的状态-特征联合概率(模型估计时要考虑各种状态-特征组合)()()(),,(1)(1)(1),,(2)(2)(2)(1)(1),,,()()()(1)(1),,,P{,:,(,)IN}P{,:(,)IN}P{,:(,)IN|:(,)IN}P{,:(,)IN|:(,)IN}RrrrijijijijijijklRRRRRijijklsurijsuijsuijsklsuijskl2点假定1:给定r-1粒度级的状态,r粒度级的图像块之间的统计依赖关系被限定在具有相同父块的“兄弟”子块之间2:给定父块的状态,子块的状态独立于与父块同级的其他块的状态2DMHMM(3/3)记r-1粒度级的(k,l)块在r粒度级的子块为(,){(2,2),(21,2),(2,21),(21,21)}klklklklklD根据以上假设(1)()()(1)(1),,()(1),,(,)INP{:(,)IN|:(,)IN}P{:(,)(,)|}Drrrrrijklrrijklklsijsklsijkls最终(1)()()()(1)(1)(1),,,,()(1)()(),,,,2(,)(,)(,)INP{,:,(,)IN}P{,:(,)IN}(P{:(,)(,)|}P{|})DRDrrrrijijijijRrrrrijklijijrijklklsurijsuijsijklsus文本标注图像I与一个图像类C的相似性通过由C的2DMHMM模型产生I的对数似然度来估计获得图像I属于各个图像类的似然度后,将其进行排序,以找出似然度最高的k个图像类,k可以固定,也可以基于似然度阈值选取前k个类的描述词是图像I的候选标注词,如果希望用较少的词标注图像,则需要一个筛选机制假设标注词T在k个类中出现j次标注词T在随机选取的k个类中至少出现j次的概率近似为!P(,)(1)(1)!()!kkikiikiijijkkjkppppjikip为T在标注中使用的概率,这个概率越小,T越重要实验—“男人”概念的训练样本基于COREL公司6万张照片数据库实验—图像自动标注实例有监督的多类标注SML对训练图像逐幅分别标注然后聚类的方法曾是流行的多类标注策略基于标注词和视觉特征聚类以获得每个潜在类别的标注词-视觉特征的联合分布伸缩性好,但联合分布估计较困难SML结合有监督二类标注和无监督多类标注的优点,将图像文本标注定义为多个图像类的分类问题避免了串行独立地进行多个二值分类保留了有监督标注在分类和检索意义上的优化特性SML的基本过程a)图像特征抽取b)图像语义类建模c)图像标注或检索SML的训练及标注第i(i=1,…,T)个标注词对应第i个图像语义类第i类训练图像集合由包含第i个图像语义的所有图像构成一幅图像可能作为多个类的训练样本设从测试图像中抽取的视觉特征为x,则标注方法为()argmaxP(|)ii*ixx将图像文本标注变成了一个多分类问题降低了模型估计的计算量回避了二分类模型需估计非类(nonclass)分布的计算瓶颈后验概率自然成为选择标注词的顺序无图像分割的类概率分布建模大多数图像是由不同的图像概念共同构成的问题:不分割图像,能否估计图像概念的视觉特征分布解决途径:多实例学习法(multipleinstancelearningperspective)基于正负样本口袋(bagsofexamples)进行建模每个口袋是样本的一个集合,如果其中至少有一个正样本,则被看作是正的,否则被看作是负的正口袋中的负样本趋向于分散在整个特征空间,而正样本却趋向于集中在一个较小的区域之中概率密度分布的估计方法给定包含概念wi的训练图像数据集Di,概念wi的概率密度分布估计有多种方法直接估计法:用Di中所有图像的特征向量构成训练集,对密度函数进行估计需要较大的存储开销模型平均法:先对对每幅图像的密度函数进行估计,然后对所有密度函数取平均平均模型的混合分量多,测试阶段耗时层次结构法:下层子密度函数是上层父密度函数的分量组合每幅图像对应的是子密度函数语义类对应的是父密度函数SML算法(基于GMM-DCT特征)1{,...,}TLww对每个语义类w∈L1:建立一个训练图像集合TD,TD中所有图像的标题都包含w2:对于TD中的每幅图像I将I分解为相互重叠的N个区域(大小为8×8,相邻重叠为2)在YBR空间计算每个区域的DCT,获得特征x=[xY,xB,xR]通过EM算法估计每幅图像的具有8个分量的GMM81P(|)(,,)kkkIIIkIGxx3:通过扩展EM算法获得64个GMM分量的语义类w的分布641P(|)(,,)kkkxx用于GMM的EM算法似然度函数E步M步密度函数参数的层次推导1:利用|Di|个样本获得|Di|组GMM密度函数参数,设GMM的混合分量为K,则共有K|Di|组Gauss参数{,,},1,...,||,1,...,kkkjjjijDkK2:利用扩展EM算法将上述K|Di|个Gauss分量聚类为一个M分量的混合模型{,,},1,...,mmmcccmM用于GMM分量聚类的扩展EM算法M-step:()||mjkjkmnewcihDK(),mnewmkcjkjjkwmkjkjmjkmkjkjjkhwh()[()()]mnewmkkmkmTcjkjjcjcjkw1,,1,,1[()exp({()})]21[()exp({()})]2kjkjkmmmkmjcccjcmjkklllkljcccjclGtracehGtraceE-step:标注算法对于一个测试图像It1:用与训练阶段相同的方法抽取It的口袋特征B,B={x1,…,xN}2:对于每个类wi∈L,计算logP(|)logP(|)logP()logP()BBBiii其中,3:用后验概率logP(wi|B)最大的5个类wi对测试图像It进行标注logP(|)logP(|)xBBxiiww实验—对Corel5k/30k的自动标注物体识别物体识别是近十年来图像识别的研究热点早期,文字、纹理、指纹等识别通常不考虑光线、色彩、画质、背景、遮挡、拍摄角度等复杂问题物体识别的难点集中在类内图像之间存在更大差异研究的主要方面类别建模:核心是物体表达方法特征抽取:关键域检测和特征压缩模型学习:计算复杂度极高的问题星群模型利用概率的方法将物体灵活地表示为若干部件的“星群”模型对遮挡、形变、光照、视角等变化因素有较强的吸收能力假设一个物体由若干部件构成每个部件具有可用概率分布建模的外观,相对的尺度,和可被遮挡的属性物体的形状由各部件的相对位置描述星群模型是生成概率模型,外观、尺寸、形状以及遮挡均由Gauss概率密度函数建模星群模型的分类策略假设通过学习已经获得了一个物体类C的生成模型,部件数为P、参数为θ假设在测试图像I中检测到了N个关键域,它们的位置、尺寸和

1 / 92
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功