什么是大数据?Wiki百科:bigdataisacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtools大数据意指一个超大的、难以用现有常规的数据库管理技术和工具处理的数据集第十章大数据概论IDC报告:Bigdatatechnologiesdescribeanewgenerationoftechnologiesandarchitectures,designedtoeconomicallyextractvaluefromverylargevolumesofawidevarietyofdata,byenablinghigh-velocitycapture,discovery,and/oranalysis.大数据技术描述了一种新一代技术和构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值第十章大数据概论第十章大数据概论大数据第十章大数据概论第十章大数据概论大数据第十章大数据概论大数据大数据第十章大数据概论Veracity真实性:分析并过滤资料有偏差、伪造、异常的部分,防止这些「dirtydata」损害到资料系统的完整跟正确性,进而影响决策。大数据研究的挑战–数据规模导致难以应对的存储和计算量–数据规模导致传统算法失效–大数据复杂的数据关联性导致高复杂度的计算第十章大数据概论大数据研究的基本途径–寻找新算法降低计算复杂度–降低大数据尺度,寻找数据尺度无关算法–大数据并行化处理第十章大数据概论第十章大数据概论第十章大数据概论搜索引擎综合应用GoogleKnowledgeGraph基于搜索关键词语义理解和信息关联性的智能化搜索功能,可提供搜索对象相关的综合性和多样化信息(文字和媒体信息)基于语义分析理解基于信息关联网络分析多样化排名与推荐基于图片内容的搜索有五亿个信息“对象”包括35亿个属性和相互关系第十章大数据概论第十章大数据概论第十章大数据概论排名与推荐系统–常规排名(Ranking)–多样性排名(DiversifiedRanking)–基于内容的推荐(Content-basedRecommendation)–基于标签的推荐(Tag-basedRecommendation)–协同过滤推荐(CollaborativeFilteringRecommendation)第十章大数据概论Web搜索与数据挖掘–深度Web搜索(DeepWebSearch,精确化、智能化、综合化信息搜索)–页面分类(DocumentClassification)–页面聚类(DocumentCluster)–网页摘要(DocumentAutomaticSummarization)第十章大数据概论自然语言处理–机器翻译(MachineTranslation)–情感分析(SentimentAnalysis)–舆情分析(PublicOpinionAnalysis)–智能输入(SmartInput)–问答系统(QA)第十章大数据概论第十章大数据概论机器人WatsonWatson收集了2亿页知识文本数据,并基于HadoopMapReduce并行处理集群进行数据分析,采用了优化的并行体系结构和优化的知识和自然语言处理算法,可在1秒内完成对大量非结构化信息的检索,并实时回答知识竞赛问答题。第十章大数据概论一、大数据存储管理和索引查询问题二、Hadoop性能优化问题三、图数据并行计算模型和框架四、并行化机器学习和数据挖掘算法五、社会网络分析六、排名和推荐七、Web信息挖掘和检索八、媒体分析检索九、自然语言处理十、大数据可视化计算与分析第十章大数据概论SingleNodeArchitectureMemoryDiskCPUMachineLearning,Statistics“Classical”DataMining第十章大数据概论ClusterArchitecture第十章大数据概论MemDiskCPUMemDiskCPU…SwitchEachrackcontains16-64nodesMemDiskCPUMemDiskCPU…SwitchSwitch第十章大数据概论1GFSGoogle文件系统(GoogleFileSystem,GFS)是一个大型的分布式文件系统。它为Google云计算提供海量存储。第十章大数据概论1GFS客户端在访问GFS时,首先访问Master节点,获取将要与之进行交互的ChunkServer信息,然后直接访问这些ChunkServer完成数据存取。GFS的这种设计方法实现了控制流和数据流的分离。Client与Master之间只有控制流,而无数据流。Client与ChunkServer之间直接传输数据流,同时由于文件被分成多个Chunk进行分布式存储,Client可以同时访问多个ChunkServer,从而使得整个系统的I/O高度并行第十章大数据概论1采用中心服务器模式GFS采用中心服务器模式来管理整个文件系统,Master管理了分布式文件系统中的所有元数据。文件划分为Chunk进行存储,对于Master来说,每个ChunkServer只是一个存储空间。Client发起的所有操作都需要先通过Master才能执行。ChunkServer之间无任何关系。如果采用完全对等的、无中心的模式第十章大数据概论1容错机制Master容错Master上保存了GFS文件系统的三种元数据。命名空间(NameSpace),也就是整个文件系统的目录结构。Chunk与文件名的映射表。Chunk副本的位置信息,每一个Chunk默认有三个副本。ChunkServer容错GFS采用副本的方式实现ChunkServer的容错。每一个Chunk有多个存储副本(默认为三个),分布存储在不同的ChunkServer上。第十章大数据概论第十章大数据概论C0C1C2C5Chunkserver1D1C5Chunkserver3C1C3C5Chunkserver2…C2D0D0C0C5ChunkserverNC2D0Bringcomputationdirectlytothedata!Chunkserversalsoserveascomputeservers第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论数出一摞牌中有多少张黑桃第十章大数据概论MapReduce方法:•给在座的所有玩家中分配这摞牌•让每个玩家数自己手中的牌有几张是黑桃,然后把这个数目汇报给你•你把所有玩家告诉你的数字加起来,得到最后的结论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论Allphasesaredistributedwithmanytasksdoingthework第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论第十章大数据概论内容推荐系统第十章大数据概论门户新闻数量急剧膨胀,但是新闻利用率很低:新闻门户每天新发布的文章数量约为10万篇,但是有PV的文章不足10%。大量的文章成为长尾而沉没,得不到展示的机会。用户期望在web端和移动端能即时快捷地看到自己感兴趣的文章和话题。内容推荐系统第十章大数据概论内容推荐系统第十章大数据概论内容推荐系统第十章大数据概论内容推荐系统第十章大数据概论内容推荐系统第十章大数据概论内容推荐系统第十章大数据概论内容推荐系统第十章大数据概论内容推荐系统第十章大数据概论内容推荐系统第十章大数据概论内容推荐系统第十章大数据概论内容推荐系统第十章大数据概论内容推荐系统第十章大数据概论内容推荐系统第十章大数据概论