关于大数据的观察与思考――张宏江

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

关于大数据的观察和思考张宏江智谷发明董事长兼CEO金山软件集团CEO我想说的一个出发点CBIR两个观察大数据机器学习三个趋势:Research2.0四点关于研究的随机思考一个出发点:从CBIR说起一个典型的图像搜索系统QueryFormationResultsPresentationRankingIndexingDataIndexQueryUserIntentionGapSemanticGapIntention/SemanticGapTheProblemSemanticgap:Howtobuildautomaticconceptclassifiersandimageannotationmodels?-Labelcollection:Annotation跨越语义鸿沟QueryResultsIBMQBIC(Flickneretal’95)CBIR又遇语义陷阱FeatureVectorsLet’sviewthefeaturegroupsaswords!………………………………Word1word2word3………………wordnModelsWhatkindsofimagefeaturesshouldbeused?Howtomapthemtowords(semantics)?问题和解决方案Problem:Neversufficientdata互联网如何改变了CBIR?无穷的数据上亿的用户几十亿的交互FlickerFotki美图秀秀...FacebookTwitter微信...PhotosharingSocialnetworkDropbox金山快盘...Cloud中秋节四天,金山云每天上传的照片超过两千万“Flicker:…Currently8billionphotosarestored.”(Mar.,2013)“…Tencent’sQzone…nowhostsover150Bphotos”(Aug.,2012)“Facebookhas220billionofyourphotostoputonice.”(Oct.,2012)•Twobasicstages:–Searchingsimilarimages:ForanuncaptionedimageIq,wefirstfindasetofvisuallysimilarimagesΦsfromalarge-scaleimagedatabase.–Miningrepresentativekeywords:GiventheimagesetΦs,wefurtherclusterthedescriptivetextsofΦs(i.e.,imagetitle,surroundingtext,etc.)tofindthemostrepresentativekeywordsastheannotationstoIq.SearchMiningMSRAIMAGEANNOTATIONBYSEARCH+MINGINGQueryImage+OneKeywordSearchInALargeImageDatabase(80millions)Semantically&VisuallySimilarImagesMiningKeyPhrasesAdditionalKeywordsMSRAIMAGEANNOTATIONBYSEARCH+MINGING2.4millionimagesMSRADuplicateSearchfrom2BillionImagesNikeTigerWoodsMSRAmercedesbenz;swarovskicrystalLogo;mercedesbenz;mercedesvan;mercedeslogochocolate,Red,FavoritesLasvegasVegas;lasvegassacrecoeur;Paris;locationvacancesparishilton;hollywoodgossip;barackobama;presidentialcandidatebillgatesfridakahlo;hope,tree,art;masterspaintervangogh;oilpainting;drinkers,vangoghvangogh;nightcafé;oilpaintingsHappybirthdaydogballoons;GlitterSimpsonsmovietravelinn;premierinn;citycentre;basildonhotelpearlharborjoshhartnetttimberwolfMonkeyMSRA互联网如何改变了CBIR?TheProblemSemanticgap:Howtobuildautomaticconceptclassifiersandtextannotationmodels?–Datadriven,modelless–InterplaybetweentextdataandvisualfeaturesAnnotation:Labelcollection–Billionsofusertags–CrowdSourcingBigData+MachineLearning+CrowdSourcingCROWDSHOUCING:表哥事件观察一:互联网催生大数据什么是大数据大数据是现代社会在掌握海量数据收集、存储和处理技术基础上所产生的一种以群体智慧进行判断和预测的能力。内在含义–经验主义理性主义–数据模型–相关关系因果关系–数据平台模型文继荣大数据的三大挑战性VarietyVolume模态多样VeracityVolume真伪难辨VelocityVolume变化极快文本视频图片音频分享的内容条目超过25亿个/天,增加数据超过500TB/天数据的变化•实时性:时间维度的增加–数据收集的实时性:极大地增加了数据量–数据分析的实时性:极大地增加了处理量数据的异构性•提升覆盖率:从多个异构的数据源融合数据•增加数据的随机性:多个数据源交互印证数据的质量•什么是“低质”–随机噪音•大而低质小而高质?多大的数据是大数据当数据多到能对几乎整个样本空间进行充分覆盖,从而减弱对理论和模型的依赖时,这样的数据就足够“大”了–对预测掷硬币这种问题,样本空间为{0,1},1000个样本就足以得到置信度很高的预测–对于机器翻译,样本空间的数量级就大很多:所有可能的句子?–对于图像识别:onepictureisworthofathousandwords?大数据应用开发的典型流程1.找到一个重要的应用,确定问题的数据类型和样本空间2.收集到尽可能多(或足够多)的相关数据来覆盖样本空间–不要特别在意数据质量和格式3.选择(或搭建)一个合适的大数据处理平台4.针对应用对数据进行预处理–格式转换、数据抽取、数据集成、数据质量控制5.处理数据6.结果解读和应用观察二:大数据改变机器学习传统方法vs.大数据方法Yes/No传统方法Yes/No大数据方法新样本特征表示模型结果训练样本(小数据)新样本已知样本(大数据)结果文继荣从量变到质变大数据时代–大量新技术使得数据的收集和分享变得非常容易•传感器•互联网数据越多,就越不需要模型–覆盖度:对所有或大部分事件,我们有样本来覆盖–精度:对高频事件,我们有足够多样本来提升精度经验主义的复活–从特殊到特殊大数据改变机器学习•处理器:16,000个•神经网络:1B个连接•训练数据:10M图像•方法:深度学习–多层神经网络(NN)–无人监管的数据–原始数据,而非特征量HowManyComputerstoIdentifyaCat?16,000–NewYorkTime大数据,强计算,新方法=0模型真的没有用吗?数据总是不够–样本空间太大•机器翻译例子中所有可能的句子–样本空间变化•查询结果排序例子中,新的查询和新的网页在不停出现模型需要和数据结合,提供适当的泛化能力数据、平台、模型传统方法:少的数据+复杂的模型性能已经很难提升大数据方法:多的数据+简单的模型更好的结果多的数据+复杂的模型更好的结果?多的数据好的平台BigDataMachineLearningCrowdSourcing•Systems&Infrastructure•Sparseness-abundanceofdataprovidessufficientsignalsforML•Data-drivenbusinessesanddataeconomics•Sciences&Algorithms•Text&DataMining•NaturalLanguageProcessing•Informationretrieval•Analytics•Humancomputation•Socialsharing•HumantaskingoIncentivesoNetworkeffectVirtuouscycle&ReinforcementWei-YingMa,MSRA小结三个趋势:Research2.0以互联网为平台WEBASARESEARCHPLATFORM有史以来最大的数据库,还在不断的增长–连接上了“数据”最大的计算平台–连接上了“智能”最大的社交网络–连接上了“人”每个研究领域都需要以网络为落脚点–data资源–Idea资源–用于部署或实验的渠道–集体智能解决了很多难题•具有最大的互相审阅群体•新的研究和商业模型–SNS社区效应•口口相传的效应–接受度•点到点网络&超级分布式–交付•社会化排名、忠诚度、粘性–健壮性以数据为中心DATACENTRICCOMPUTING大数据:Thereisnodatalikemoredata数据=信息=价值–内容,Metadata,链接/关联分析,程序网络数据是活的,并且在不断演进–数据获取和更新以数据为中心的计算–查找,聚集,理解&分享对研究的影响–有史以来最大的数据源(文本,图片,视频,…)–数据挖据&知识发现–未结构化知识的交叉影响–新应用的mashups以部署为推动DEPLOYMENTDRIVENRESEARCH形成创新的良性循环把用户当作共同的开发者实现原型,然后快速迭代充分听取用户的反馈对做研究所带来的影响–缩短创新周期–减少了用于公开发表或者走向市场的时间–用专研的眼光互相审阅研究的成果建立原型评估/发表改进原型产品化四点关于研究的随机思考•VideoParsing:Structurization•RelevanceFeedback:BacktoSemantics•AdaptiveContentDelivery:HeterogeneousInternetEnvironment•AttentionModel:TheSenseofImportance•AnnotationMiningandLearning:DataExplosion发现和定义问题往往更具影响力建立体系,持续耕耘把握崩溃点(Fa

1 / 41
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功