VideoGoogle:ATextRetrievalApproachtoObjectMatchinginVideos钱浩▪文本检索&TF-IDF▪视频检索▪场景匹配▪目标检索▪ExperimentsOutline文本检索文档分词词根合并消除停用词vocabulary文本检索▪每个文本表示成一个向量,每个维度上的值为该词在文件中出现的频率;▪各词的值会有加权,比如采用TF-IDF加权等;▪停用词:即那些特别常见的词,如an、the▪在文本检索时,通过计算词频向量,返回向量最接近的文档TF-IDF▪TF-IDF(termfrequency–inversedocumentfrequency)是一种用于资讯检索与资讯探勘的常用加权技术▪字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降TF-IDFTF-IDF▪假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率(DF)的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是log(10,000,000/1,000)=4。最后的TF-IDF的分数为0.03*4=0.12。文本检索场景匹配▪每行展示了从不同镜头下描述的同一个地点场景匹配▪主要流程为:▪图像特征提取,SIFT,特征去噪(三帧内消失reject);▪k-means聚类,度量方式为欧式距离,对k-means多次随机初始化,最终使用误差最小的结果;▪图像向量化,利用TF-IDF加权量化;▪检索阶段,用cos余弦值度量场景匹配▪提出了“visualwords”的概念▪用两种不同的区域来作为一帧图像的visualwords,一种是ShapedAdapted(SA),一种是MaximallyStable(MS)▪SA和MS作为描述同一篇文章的不同用词可以同时存在场景匹配▪SA是以图像中的角点、拐点(corner)为基础提取出相应的椭圆区域;▪MS是通过对最大稳定极值区域(MSER)的提取得到椭圆区域表示▪MS-黄色▪SA-蓝色场景匹配场景匹配▪构造visualwords:▪采用sift提取特征值▪k-means聚类▪所选的特征和特征描述方式满足仿射不变性,有利于区域不同尺度不同视角的匹配。▪一帧图像中提取出的区域要和相邻几帧进行比较,若该区域只出现在当前一帧图像上,就会把该区域当成噪声或不稳定区域舍去仿射不变性▪常用的仿射变换:旋转、倾斜、平移、缩放▪若一个图形具有某种性质或者某个量,在平行射影下,如果不变,称这个性质为仿射不变性质,这个量称为仿射不变量。经过仿射对应它们也是不变的▪平行四边形在仿射对应下的象还是平行四边形场景匹配▪构造vocabulary:▪两部视频按48个镜头大约10000帧的图像进行visualwords的提取▪将提取到的visualwords用K-means的方法进行聚类,得到一副词典▪利用TF-IDF加权思想,对一些经常出现的visualwords赋予较小的权重,对于一些不经常出现或者类似“关键字”之类的赋予一个较大的权值场景匹配▪评价场景匹配结果▪其中N是数据库中的图片总数,𝑁𝑟𝑒𝑙指数据库中与查询图片相关的图片总数(标注的),𝑅𝑖𝑁re𝑙𝑖=1为检索结果中的相关图片的排序之和▪其中,𝑅𝑖𝑁re𝑙𝑖=1=𝑖𝑁𝑟𝑒𝑙𝑖=1,所以,当数据库中所有相关图片都被match到top-𝑁𝑟𝑒𝑙时,Rank=0,match结果最好。场景匹配▪例如,要从一个样本S中分出标签为L的样本,假设样本S中标签确实为L的集合为SL,分类器将样本标签分为L的集合为SLC,SLC中标签确实为L的集合为SLCR。那么,▪查准率(PrecisionRatio)=SLCR/SLC▪查全率(RecallRatio)=SLCR/SLPR曲线▪目的:从整个视频中搜索目标,该目标可以是用户从任何一帧中选定的子区域▪主要流程为:▪在建vocabulary时生成stoplist;▪进行场景匹配;▪进行关键点匹配和MSER匹配,对停用词进行抑制;▪利用空间一致性reject一些散列词;▪针对匹配点/区域,检查附近是否有15个已匹配的点/区域,少于则rejected。▪强调了特征之间的相对位置目标检索停用词表▪收集词频top5%和bottom10%的词,组织成StoplistExperimentsExperiments