大数据调研报告 (2)

零度畜生
2 ℃
2020-02-23

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

大数据调研报告2017大数据与机器学习大数据处理系统大数据系统框架CONTENTSPAGE目录页大数据概念与特征大数据概念与特征01•大数据概念•大数据四个特征•大数据与传统数据的比较“大数据”概念最早由维克托·迈尔·舍恩伯格和肯尼斯·库克耶在编写《大数据时代》中提出，指不用随机分析法（抽样调查）的捷径，而是采用所有数据进行分析处理。大数据（BigData）又称为巨量资料，指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据概念4．速度快（Velocity）第四个特征是数据处理速度快，数据产生快，如果海量数据未能实时处理，将失去其应有价值。1.数据量大（Volume）第一个特征是数据量大。大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）。特征2.数据类型多（Variety）第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等，多类型的数据对数据的处理能力提出了更高的要求。3．价值密度低，商业价值高（Value）第三个特征是数据价值密度相对较低。以视频为例，连续不间断监控过程中，可能有用的数据仅有一两秒大数据特征5．数据真实性（Veracity）高质量的数据是大数据发挥效能的前提和基础。之后专业的数据分析工具才能从海量数据中提取出隐含的、准确的、有用的信息。大数据与传统数据的比较大数据处理系统02•处理数据理念•大数据处理形式•静态数据批处理•在线数据实时处理•图数据综合处理要全体不要抽样要效率不要绝对精确要相关不要结果0103处理数据理念处理数据理念批量数据处理系统流式数据处理系统在线数据实时处理静态数据批处理大数据处理与系统处理形式交互式数据处理系统图数据综合处理1.数据体量巨大（从TB跃升到PB级别）2.数据精确度高（企业应用中沉淀下来的数据）3.数据价值密度低（例如视频数据）批量数据处理系统互联网领域：社交网络（Facebook）:文本、图片、音视频电子商务（淘宝）:购买历史记录搜索引擎（Google）公共服务领域：能源、医疗保健特征：典型应用：Hadoop是典型的大数据批量处理架构,由HDFS负责静态数据的存储，并通过MapReduce将计算逻辑分配到各数据节点进行数据计算和价值发现.MapReduce采用无共享大规模集群系统，集群系统具有良好的性价比和可伸缩性；MapReduce模型简单、易于理解、易于使用；MapReduce能够提供良好的数据处理性能。特性：高可靠性、高扩展性、高效性、高容错性、低成本代表性处理系统：数据连续不断、来源众多、格式复杂、物理顺序不一、数据的价值密度低.实时数据处理之流式处理系统（a）数据采集应用：数据采集应用通过主动获取海量的实时数据，及时地挖掘出有价值的信息。（b）金融银行业的应用：发现隐含数据的内在特征,可以帮助金融银行进行实时决策。流式数据特征：典型应用：Twitter的Storm：一套分布式、可靠、可容错的用于处理流式数据的系统，其流式处理作业被分发至不同类型的组件，每个组件负责一项简单的、特定的处理任务。代表性处理系统：批处理和流处理比较实时数据处理之交互式处理系统特征：交互式数据处理灵活、直观、便于控制.操作人员提出请求,数据以对话的方式输入,系统便提供相应的数据或提示信息,引导操作人员逐步完成所需的操作,直至获得最后处理结果.(a)在信息处理系统领域中,主要体现了人机间的交互.例如，网络日志分析(b)互联网领域.主要体现了人际间的交互.如搜索引擎、电子邮件、即时通讯工具等典型应用：代表性处理系统：Berkeley的Spark系统Spark是一个基于内存计算的可扩展的开源集群计算系统，是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有MapReduce所具有的优点，针对MapReduce的不足,即大量的网络传输和磁盘I/O使得效率低效,Spark使用内存进行数据计算以便快速处理查询,实时返回分析结果，能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法图数据中主要包括图中的节点以及连接节点的边,通常具有3个特征.第一,节点之间的关联性.第二,图数据的种类繁多.第三,图数据计算的强耦合性.图数据综合处理特征：典型应用：(a)互联网领域的应用：搜索引擎中,可以用图表示网页之间相互的超链接关系,从而计算一个网页的PageRank得分；图表示如E-mail中的人与人之间的通信关系,从而可以研究社会群体关系等问题；在微博中,通过图研究信息传播与影响力最大化等问题.(b)自然科学领域的应用：图可以用来在化学分子式中查找分子,在蛋白质网络中查找化合物,在DNA中查找特定序列等.(c)交通领域的应用：图可用来在动态网络交通中查找最短路径,在邮政快递领域进行邮路规划等.实时数据处理之交互式处理系统代表性处理系统：Google的Pregel系统Pregel是Google提出的基于BSP(Bulksynchronousparallel)模型的分布式图计算框架，主要用于图遍历(BFS)、最短路径(SSSP)、PageRank计算等.特性：(a)采用主/从(Master/Slave)结构来实现整体功能(b)有很好的容错机制。(c)使用GFS或BigTable作为持久性的存储。BSP模型是并行计算模型中的经典模型,采用的是“计算-通信-同步”的模式.它将计算分成一系列超步(superstep)的迭代.从纵向上看,它是一个串行模式,而从横向上看.它是一个并行的模式,每两个超步之间设置一个栅栏,即整体同步点,确定所有并行的计算都完成后再启动下一轮超步大数据系统框架03•数据生成•数据采集•数据存储•数据分析•数据生成•数据获取•数据存储•数据分析大数据可进一步细分为大数据科学(bigdatascience)和大数据框架(bigdataframeworks).大数据科学是涵盖大数据获取、调节和评估技术的研究，大数据框架是在计算单元集群间解决大数据问题的分布式处理和分析的软件库及算法.一个或多个大数据框架的实例化即为大数据基础设施。大数据系统框架社交网络应用Facebook则每天需存储、访问和分析超过30PB的用户创造数据;Twitter每月会处理超过3200亿的搜索日益增长的需要使用高效的实时分析工具挖掘其价值.例如,Amazon每天要处理几百万的后端操作和来自第三方销售超过50万的查询请求.沃尔玛每小时要处理上百万的客户事务,这些事务被导入数据库,约有超过2.5PB的数据量光学观测和监控、计算生物学、天文学、高能物理等。这些领域不但要产生海量的数据,还需要分布在世界各地的科学家们协作分析数据数据生成商业数据网络数据科学研究数据数据采集数据传输数据预处理数据获取数据获取阶段的任务是以数字形式将信息聚合,以待存储和分析处理获取信息的过程步骤数据获取之数据采集数据采集是指从特定数据生产环境获得原始数据的专用数据采集技术爬虫传感器日志数据采集方法爬虫是指为搜索引擎下载并存储网页的程序Web传感器常用于测量物理环境变量并将其转化为可读的数字信号以待处理日志是广泛使用的数据采集方法之一,由数据源系统产生,以特殊的文件格式记录系统的活动三种数据采集方式的比较数据获取之数据传输(1)IP骨干网传输IP骨干网提供高容量主干线路将大数据从数据源传递到数据中心.传输速率和容量取决于物理媒体和链路管理方法.(2)数据中心传输数据传递到数据中心后,将在数据中心内部进行存储位置的调整和其他处理,这个过程称为数据中心传输,涉及到数据中心体系架构和传输协议原始数据采集后必须将其传送到数据存储基础设施如数据中心等待进一步处理.数据传输两个阶段：数据获取之数据预处理数据预处理方法数据清洗数据集成冗余消除数据清洗是指在数据集中发现不准确、不完整或不合理数据,并对这些数据进行修补或移除以提高数据质量的过程数据集成技术在逻辑上和物理上把来自不同数据源的数据进行集中,为用户提供一个统一的视图数据冗余是指数据的重复或过剩,这是数据集的常见问题.数据冗余会增加传输开销,浪费存储空间,导致数据不一致,降低可靠性.数据存储数据管理框架：数据管理框架解决的是如何以适当的方式组织信息以待有效地处理。从层次上划分为三层：1.文件系统2.数据库技术3.编程模型数据管理软件：硬件基础设施：硬件基础设施实现信息的物理存储,可以从不同的角度理解存储基础设施，典型存储技术：1.随机存取存储器（RAM）2.磁盘和磁盘阵列3.存储级存储器数据存储解决的是大规模数据的持久存储和管理，数据采集完成后,需要高速的数据传输机制将数据传输到合适的存储系统,供不同类型的分析应用使用。数据管理框架文件系统：Google为大型分布式数据密集型应用设计和实现了一个可扩展的分布式文件系统GFS.GFS运行在廉价的商用服务器上,为大量用户提供容错和高性能服务.GFS适用于大文件存储和读操作远多于写操作的应用.但是GFS具有单点失效和处理小文件效率低下的缺点。淘宝则设计了两种类似的小文件分布式文件系统:TFS和FastFS数据库技术：NoSQL数据库有模式自由、易于复制、提供简单API、最终一致性和支持海量数据的特性,逐渐成为处理大数据的标准。三种主流的NoSQL数据库:键值(key-value)存储数据库、列式存储数据库和文档存储数据库编程模型：NoSQL数据库没有插入操作的声明性表述,对查询和分析的支持也不够，编程模型可以有效提高NoSQL数据库的性能,缩小了NoSQL和关系型数据库性能的差距。主要有三种编程模型:通用处理模型、图处理模型以及流处理模型。数据分析目的：•推测或解释数据并确定如何使用数据;•检查数据是否合法;•给决策制定合理建议;•诊断或推断错误原因;•预测未来将要发生的事情.根据数据分析深度将数据分析分为三个层次:描述性(descriptive)分析预测性分析规则性(prescriptive)分析数据分析描述性分析：基于历史数据描述发生了什么.例如,利用回归技术从数据集中发现简单的趋势,可视化技术用于更有意义地表示数据,数据建模则以更有效的方式收集、存储和删减数据.描述性分析通常应用在商业智能和可见性系统预测性分析：预测性分析:用于预测未来的概率和趋势.例如,预测性模型使用线性和对数回归等统计技术发现数据趋势,预测未来的输出结果,并使用数据挖掘技术提取数据模式(pattern)给出预见规则性分析:解决决策制定和提高分析效率.例如,仿真用于分析复杂系统以了解系统行为并发现问题,而优化技术则在给定约束条件下给出最优解决方案数据分析常用方法数据可视化:与信息绘图学和信息可视化相关.数据可视化的目标是以图形方式清晰有效地展示信息Tabusvis则是一个轻型的可视化系统,提供对多维数据的灵活、可定制的数据可视化统计分析:基于统计理论,是应用数学的一个分支.在统计理论中,随机性和不确定性由概率理论建模.统计分析技术可以分为描述性统计和推断性统计.描述性统计技术对数据集进行摘要(summa-rization)或描述,而推断性统计则能够对过程进行推断.更多的多元统计分析包括回归、因子分析、聚类和判别分析数据挖掘:是发现大数据集中数据模式的计算过程.许多数据挖掘算法已经在人工智能、机器学习、模式识别、统计和数据库领域得到了应用包括k-means（k均值聚类）,SVM（支持向量机）,EM（最大期望）,AdaBoost,kNN,PageRank，朴素贝叶斯和CART,覆盖了分类、聚类、回归和统计学习数据分析分类1.结构化数据分析2.文本分析3.web数据分析4.多媒体数据分析5.社交网络数据分析6.移动数据分析文本分析又称为文本挖掘,是指从无结构的文本中提取有用信息或知识的过程.文本挖掘是一个跨学科的领域,涉及信息检索、机器学习、统计、计算语言和数据挖掘.大部分的文本挖掘系统建立在文本表达和自然语言处理(NLP)的基础上。文本分析：数据分析分类Web数据分析：Web数据分析的目标是从web文档和服务中自动检索、提取和评估信息以发现知识,涉及数据库、信息检