2012年8月愿景文件分布式数据挖掘与大数据英特尔对于网络前端设备的数据的观点为什么应该阅读本文档本文介绍了英特尔对于在网络前端的传感器和设备所生成的大数据进行分析的观点。讨论的主要内容包括:•在网络前端生成的大数据的重要性,包括某些“超级庞大”的数据•大数据与被传统数据管理或BI管理的数据的本质区别在哪里,它为何至关重要•新兴技术纵览:包括ApacheHadoop*框架和Apache*MapReduce分布式框架等•四个关于政府、零售、汽车和制造行业的应用案例—两个案例使用Hadoop*框架,另外两个案例注重智能系统数据2012年8月愿景文件分布式数据挖掘与大数据英特尔对于网络前端设备的数据的观点英特尔IT中心愿景文件|分布式数据挖掘与大数据2目录3457912前端设备数据:大数据的新机遇大数据与新兴技术:删节版前端设备的大数据:深入了解有效利用智能系统和传感设备产生的数据前端设备数据的应用案例前端设备数据:下一步发展英特尔IT中心愿景文件|分布式数据挖掘与大数据3前端设备数据:大数据的新机遇大数据的爆炸式增长考验着包括最先进的分析工具的处理能力。IT正在受到大量复杂的结构化、半结构化和非结构化数据在容量、多样性和增长速度方面的挑战—同时,这些数据也为企业提供了为其业务获取更丰富、更深入和更准确洞察信息的大好机会。对于大多数企业来说,能够有大量机会从大数据中获得令人兴奋的全新价值都是很有吸引力的,但是它们也面临着对大数据进行管理并将之转换为洞察力的挑战,这就要求其使用一种新的、对IT基础设施具有深远影响的方法来分析大数据。即使他们想使用传统的系统,这类系统也无法经济高效地处理面向大数据的全新动态数据源和多样的环境。Hadoop*框架等新兴技术则全面展示了捕获、管理和分析大数据的全新方法。大数据挑战与新技术的结合带来了标志性的转变,从而推动企业重新审视他们的IT基础设施和分析能力。英特尔观点:前端设备数据的重要性英特尔认为要想进行大数据分析,就必须在数据存在的位置对其进行捕获和处理。本文解释了为什么在网络前端设备生成的大数据如此重要,包括某些“超级庞大”的数据。随着传感器、设备以及智能系统应用的持续扩展,从来自这些源头的大量数据中获取洞察力就成为了极具吸引力的新机遇。可以管理前端设备的大数据并挖掘其价值的企业就能够拥有更为强大的能力从事前所未有的创新并解决之前无法解决的复杂问题,从而超越竞争对手。什么是大数据?对于大数据的描述通常使用以下的前三个特性—它们有时衩称之为“3V”。但是,企业需要第四个V(价值),来让大数据真正发挥作用。•容量。比传统存储和分析解决方案所管理的数据大几个数量级的巨型数据集。其以PB而不是TB为单位。•多样性。以电子邮件、社交媒体、视频、图像、博客、传感器数据以及“影子数据”(如访问日志和Web搜索历史记录)等不同格式生成的异构、复杂和多样化的数据。•生成速度。数据是生成为一个可实时查询的连续数据流,可根据需求提供有用信息,而不是批量生成。•价值。能够从基于机器学习、统计模型以及图算法的深入、复杂的数据分析中获取可对未来趋势和模式提供预测性分析的重要洞察力。这些预测性分析要胜过传统商业智能查询和报告的结果。英特尔IT中心愿景文件|分布式数据挖掘与大数据4大数据与新兴技术:删节版大数据管理与数据管理或商业智能平台的传统关系型模式有着本质上的区别。而在描述这一区别时通常使用的措辞是“结构化对阵非结构化”,但这样的描述并不够精确。例如,日志数据(一个不断增长的大数据源)就具有结构。因此,用另一种方式来描述这一区别会更为合适,即:不同于基于关系的数据,大数据可以管理任意格式的数据,而且不需要首先花费时间和精力创建一个用于捕获、处理和分析数据的模式。一些新技术的出现使得大数据分析成为可能,而且经济高效。ApacheHadoop*框架就正在发展为最佳的新方法。通过充分利用计算资源分布式网格的能力,Hadoop框架重新定义了管理和分析数据的方式。Hadoop开源框架使用一个简单的编程模型,以支持在计算机集群上对大数据集进行分布式处理。其完整的技术堆栈包含了通用实用程序、一个分布式文件系统、分析和数据存储平台以及一个用于管理分布式处理、并行计算、工作流程与配置管理的应用层。除了提供高可用性外,Hadoop框架还能比传统方法更为经济高效地处理大型的、复杂的或非结构化的数据集,可带来出色的可扩展性与速度。MapReduce是Hadoop堆栈中的软件编程框架,能够简化大型数据集的处理工作,并为编程人员在计算机集群中定义和协调复杂的处理任务提供了一种通用方法。MapReduce应用通过安排任务、监控活动和重新执行失败的任务来协调集群节点的处理任务。输入和输出信息均存储在Hadoop分布式文件系统(HadoopDistributedFileSystem,简称HDFS*)中。这一系统通常在相同的节点上处理和存储数据,从而能够更高效地在数据驻留的节点上安排任务,并在节点间实现更高的聚合带宽。有关Hadoop框架和MapReduce的更多详细信息,请访问:intel.cn/bigdata分布式框架:ApacheHadoop*框架和MapReduce应用基于关系的数据大数据数据处理可通过更出色的CPU进行扩展的单一计算机平台;集中式处理可扩展至数千节点的集群平台;分布式处理数据管理关系型数据库(SQL);集中式存储可管理多种数据类型和格式的非关系型数据库(NoSQL和HBase*数据库);分布式存储分析批量;描述;中央实时;预测性和直观;分布式分析英特尔IT中心愿景文件|分布式数据挖掘与大数据5前端设备的大数据:深入了解目前大部分对于大数据分析的讨论都注重的是管理和分析企业和社会资源,如电子邮件、视频、推特、Facebook*帖子、评论以及Web行为中的非结构化数据。虽然这种类型的大数据分析可以为企业提供重要价值,但是在网络前端设备,那些从传感器和其他设备生成的数据则展示了另一个巨大的、未开发的资源,其可提供能够转化为公共和私营机构运营与战略计划的洞察力。前端设备数据是一些拥有最大容量、最快流动速度和/或最复杂特性的大数据。其数据源散布于整个网络之上,其数据信息是通过各种设备,如电表、交通和安全摄像头、RFID阅读器、工厂生产线上的传感器、健身器械以及医疗设备采集而来。无处不在的连接以及传感器和智能系统的发展开启了这样一个重要信息的全新仓库。与过去相比,前端设备数据可作为拥有巨大潜力的资源,能够更快、更加经济高效地提供更深入和更丰富的洞察力,从而为公共和私营机构带来重要价值。在许多情形中,前端设备数据分析能够帮助企业响应事件并解决之前无法解决的问题。英特尔IT中心愿景文件|分布式数据挖掘与大数据6作为前端设备数据大小和范围的示例,让我们来看一下来自波音*喷气式飞机引擎的机器生成型数据。其每个引擎每小时可生成20TB传感器数据,因此拥有四个引擎的大型喷气式飞机在飞越大西洋上空时会快速生成640TB的数据。每天都有超过25,000次商业航班运行在美国上空,其每一天产生的传感器数据都可以EB来计量。1人类也会生成传感数据。麻省理工大学媒体实验室认知机器小组负责人DebRoy自从儿子出生后,就对自己家庭中的活动和声音进行了为期三年的追踪。通过对90,000多小时视频和140,000小时音频的分析,他绘制出了他的儿子形成表达能力的图谱,从而为人类如何成长和学习提供了重要洞察信息。21Rogers,Shawn.“BigDataIsScalingBIandAnalytics.”InformationManagement(2011年9月1日)。information-management.com/issues/21_5/big-data-is-scaling-bi-and-analytics-10021093-1.html?zkPrintable=true2Roy,Deb.“TheBirthofaWord.”TEDtalk(2011年3月)。ted.com/talks/deb_roy_the_birth_of_a_word.html英特尔IT中心愿景文件|分布式数据挖掘与大数据7显然,位于前端设备的大数据的范围极其庞大。预计2015年时联网设备的数量将达到150亿3,从前端设备生成的数据在容量、多样性和增长速度上也将持续增加。企业如何管理和利用这一高速发展的数据流呢?有效利用智能系统和传感设备产生的数据利用传感数据和电网基础设施位于前端设备的大数据是由物理对象中的嵌入式传感器和致动器生成,并通过连接它们的有线或无线网络(通常使用连接至互联网的同一协议)传输的。这一捕获和传输数据的流程通常被称之为“物联网”(lnternetofThings,简称为IoT)。物联网是传感数据的主要来源。大量的传感数据通过网络流向本地计算机或云计算环境,来进行分析并生成信息,供致动器在物理环境中实现控制。通过使用MapReduce,这些数据将在网络前端设备其所驻留的位置被捕获和处理,然后将被发送至任何一个需要它的位置。如果使用了致动器,结果将提供即时反馈,使得设备能够修改自身的活动。此外,这些数据还可被聚合并转发,以进行更多分析。物联网(loT)概述•传感设备•智能处理与控制•通信互联3“GlobalInternetTrafficProjectedtoQuadrupleby2015.”TheNetwork(新闻稿)(2011年6月1日)。=webcontent&articleId=324003英特尔IT中心愿景文件|分布式数据挖掘与大数据8技术含义如要在数据驻留的位置对其进行分析,计算和存储功能必须实现“本地化”,置于前端设备并在云中。这种本地化的基础设施必须解决数据特性及相关问题所带来的一系列独特挑战。•传感数据量庞大且还在24-7全天候地产生和传输。•这些数据杂乱无章,需要进行预处理。•这些数据具有极强的本地特性,也就是说设备需要在本地运行和使用。•数据所有权、互操作性、安全和隐私性都是大问题。如何将其转化为真实案例?此处介绍了一个交通和公共安全方面的实例。•道路上的传感器可能属于不同的部门。•某些摄像头为公共安全部门所有,而另外一些则属于公共交通部门。•数据则由私家车辆上生成。问题:可以将这些来自多个系统的数据进行集成和分析,以生成重要的洞察信息吗?谁拥有这些由私家车辆生成的数据?这些数据又够安全吗?这些问题值得去解决。多个数据流能够显示内联关系,这在整体上具有重要意义。近期对中国某个城市的调查显示:如果你可以从供水子系统检测到人们早晨的洗漱时间,那么你就可以推断出早高峰时间;同样的,如果你可以检测到办公室晚间断电时间,那么你可以推断出晚高峰时间。了解这些关系可以帮助城市更好地管理高峰时段的交通,并在人们最需要水电资源时提高它们的利用率。对于在前端设备生成的数百PB数据,将其迁移至集中式的云环境成本高昂,而且效率低下。此外,集中式的云还面临着为前端设备提供实时信息的挑战。回到我们的道路传感器实例:前端等不及集中式的云来判定是否有汽车闯了红灯。即时性:您需要多快速获得洞察力?所有洞察信息都需要实时提供,以供企业从数据中挖掘价值吗?事实上,并非所有应用场景都需要实时的分析。前端设备应用可能需要即时反馈,以调整设备;而基于数据整合获取洞察力的速度也许并不需要这么快。近乎实时、近线(定期批量处理)甚至是批量处理都已足够及时。目前,新兴市场中的企业更喜欢实施Hadoop*框架来处理基于关系的数据和非结构化数据。而在欧洲和美国等更为成熟的市场,传统数据管理系统已经就位,它们更喜欢通过批量处理和近线分析进入大数据分析领域。最终,一些公司(甚至是大型互联网公司)将演进为综合使用实时、近乎实时、近线和批量处理的方式来应对大数据应用需求。智能联网系统IDC将智能系统描述为配备高性能微处理器、网络连接能力和高级操作系统的系统。嵌入式处理器不再执行独立的固定功能,而是要