面向海量跨媒体数据处理的稀疏表达理论和方法从稀疏性到结构性吴飞浙江大学计算机学院://mypage.zju.edu.cn/wufei2012年7月18日Email:wufei@cs.zju.edu.cnCADCG2012-CIDE2012o从多媒体搜索到跨媒体搜索o高维特征选择:稀疏性到结构性o结构性学习提纲n人类共拍了35000亿张照片n其中1400亿在Facebook上,占据4%nFacebook已经成为世界上最大的图像数据库HowtoretrievefavoritemultimediafromInternet:AGreatChallenge!数据!数据!!数据!!!4%ofAllPhotosEverTakenAreOnFacebookHowtoretrievefavoritemultimediafromInternet:AGreatChallenge!数据!数据!!数据!!!1825年由法国人JosephNicephore所拍摄的人类第一张照片(现藏于FrenchNationalLibrary)Facebook和国会图书馆(LibraryofCongress)以及手机照片分享应用Instagram中图像数的对照图。Facebook仅占4%187年过去了…用户查询Google有100亿的图片,YouTube拥有1亿多的视频,Youku每天上传1万多视频。HowtoretrievefavoritemultimediafromInternet:AGreatChallenge!大海捞针!大海捞针!!大海捞针!!!多媒体检索:基于元数据的检索方式o图像精确的自动标注仍然困难重重o手工标注费时费力o一幅画胜过千言字:图像语义难以用语言刻画Manuallyputmeta-datatoimageinordertoretrieveit缺陷Place:BerkeleyPhotographer:Date:Size:…FromMultimediaRetrievaltoCross-mediaRetrieval多媒体检索:基于元数据的检索方式用文字作画FromMultimediaRetrievaltoCross-mediaRetrieval西班牙艺术家JuanOsborne用BarackObama在January2009toOctober2011之间演讲发言中单词所拼出的图像(左图:拼出图像;右图:所用单词)多媒体检索:基于内容(底层特征)或样例检索o底层特征与高层语义之间存在“语义鸿沟”n毛与物,形与物是一样的么?o图像相似:n颜色相似?纹理相似?形状相似?或者包含相似对象?Findsimilarimageswithusers’queryimageH.J.Zhang,D.Zhong,SchemaforVisualFeature-BasedImageRetrieval,ProceedingofSPIE,StorageandRetrievalforImageandVideoDatabase,36-46,1995缺陷检索样例相似图像BackgroundandMotivation:Background皮之不存,毛之焉附?水无常形,随物附形所有语义就在像素中包含!ImageDatabaseRankedimages…HowtoretrievefavoritemultimediafromInternet:AGreatChallenge!YimengZhang,et.al.,ImageRetrievalwithGeometry-PreservingVisualPhrases,CVPR201110001000像素特征维度1000*1000=100万GIST特征维度:960HoG特征维度:3360颜色直方图特征维度:768HowtoretrievefavoritemultimediafromInternet:AGreatChallenge!语义鸿沟!语义鸿沟!!语义鸿沟!!!100万个像素点树木、森林、草地秋天How计算机难以看图说话:底层视觉特征与高层语义之间难以建立准确联系特征相似语义不同特征不同语义相似HowtoretrievefavoritemultimediafromInternet:AGreatChallenge!语义鸿沟!语义鸿沟!!语义鸿沟!!!通过无监督学习建立底层视觉特征与高层语义之间联系HowtoretrievefavoritemultimediafromInternet:AGreatChallenge!语义鸿沟!语义鸿沟!!语义鸿沟!!!BuildingHigh-LevelFeaturesusingLargeScaleUnsupervisedLearning.QuocV.Le,Marc'AurelioRanzato,RajatMonga,MatthieuDevin,KaiChen,GregS.Corrado,JeffreyDeanandAndrewY.Ng.InProceedingsoftheTwenty-NinthInternationalConferenceonMachineLearning,2012Google和Stanford的研究人员使用16,000计算机,通过无监督深度学习机制,组建了一个包含10亿个连接的神经网络,使用这个神经网络实现了“猫”的识别。多媒体检索:语义标注BackgroundandMotivation:BackgroundImage-levelAnnotationGroundTruth:animals,clouds,plant_life,sky标注结果:clouds,plant_life,structure,skyImageRegionTaggingImageInterpretationorGenerationofImageDescription语义标注涉及到对图像本身所蕴含内容理解的复杂问题。为什么难!大数据!大数据!!大数据!!!ExamplesofBigDataCustomerTransactionsTIDItems1Bread,Milk2Bread,Diaper,Beer,Eggs3Milk,Diaper,Beer,Coke4Bread,Milk,Diaper,Beer5Bread,Milk,Diaper,CokeSensorDataWalmart:2.5petabytesusertransactiondataperhourWalmart:2.5petabytesusertransactiondataperhourRolls-Royce:TerabytesofdataperdayRolls-Royce:TerabytesofdataperdayScientificResearchLargeHadronCollider(LHC):13petabytesperyearLargeHadronCollider(LHC):13petabytesperyearSocialNetworkFacebook:Over800millionactiveusersAnd40billionphotosinitsuserbaseFacebook:Over800millionactiveusersAnd40billionphotosinitsuserbaseWebpagesOver1trillionwebpages(Google)Over1trillionwebpages(Google)RFID1.8zettabytesin20111.8zettabytesin2011难点:数据大?15o互联网朝着更加社会化(social)和个性化方向演化n互联网上数据以用户生成内容为主体(User-GeneratedContent)Web1.0-Web2.0Publishing(发布)-Participation(参与)PersonalWebsites-Blogging(博客)ContentManagementSystems-Wikis(维基百科)EncyclopediaOnline-MicroBlog(微博)Directories(taxonomy)-Tagging(大众分类)TheChallengeforMultimediaRetrievalatWeb2.0:WhatHappening截止2008年8月,Google已经索引了1万亿张互联网网页.l1998:26millionl2008:1trillion(1万亿)截止2011年8月,Flickr有60亿张图像l图像标注词条过亿,涵盖千万多种概念l每分钟新增3000张图像l每天400多万张图像被上传TheChallengeforMultimediaRetrievalBeyondWeb1.0:WhatHappening截止2012年1月,YouTubel每分钟上传到YouTube的视频为48小时l占据了美国网络视频观看总量的76%lYouTube上的视频总共被点击了1万亿次微软MSNl构成了一张包含2.4亿节点(用户)、13亿条边(社会关系)的图l每月发送消息超过2.55亿条TheChallengeforMultimediaRetrievalBeyondWeb1.0:WhatHappening截止2010年,Twitterl14亿7000万社会关系l4262个话题l1亿600万条信息Kwak,H.,Lee,C.,Oark,H.,Moon,S.,WhatisTwitter,aSocialNetworkoraNewsMedia?,Proceedingsofthe19thInternationalWorldWideWeb()Conference,2010上一篇题为“WhatisTwitter,aSocialNetworkoraNewsMedia?”论文通过大量实验发现:Twitter不是一个社交网络(socialnetwork),而是一种更接近于传统媒体的应用TheChallengeforMultimediaRetrievalBeyondWeb1.0:WhatHappeningn图像检索的发展:从元数据检索,到样例检索,再到图像标注nNow:从“就图像论图像”到“就图像+X论图像”,即在一个具有context信息的环境下进行图像理解n图像标注:n用户上传图像中包含了tag、伴随文本、用户评价等n图像理解:n社会属性等额外信息给图像理解带来了便利HowtoretrievefavoritemultimediafromInternet:AGreatChallenge!context!Context!!Context!!!需要对来自需要对来自不同源头、不同类型数据建立起智能计算的理论和方法图像分享网站社交网站论坛微博其他传感器…监控视频视频分享网站互联网网页4FromMultimediatoCross-media视觉特征听觉特征空间特征时间特征链接特征元数据特征……高维异构多阶提取不同类型数据及其相关属性被整合到一起,对所蕴含的语义进行表现oFeaturefusionoHeterogeneousfeatureselectionoCross-modalmetriclearningo…部分观点来自:面向公共安全的跨媒体计算理论与方法,国家重点基础研究发展计划(973计划)项目(2012年1月-2016年12月,项目编号2012CB316400,首席科学家:浙江大学计算机学院庄越挺教授)FromMultimediatoCross-media来自不同来源、彼此关联的各种类型媒体数据汇聚到一起,多侧面、多视点表达语义。flickrYouTubeCNN新华网facebooktwitter不同来源的数据不均衡出现在不同来源站点,来共同表现语义oNear-duplicateddetectionoCross-domainlearningoTransferLearningo…FromMultime