大数据技术学习路线指南:大数据是什么[日期:2014-11-18]来源:百度经验作者:icantwish[字体:大中小]大数据技术作为决策神器,日益在社会治理和企业管理中起到不容忽视的作用,美国,欧盟都已经将大数据研究和使用列入国家发展的战略,类似谷歌,微软,百度,亚马逊等巨型企业也同样把大数据技术视为生命线以及未来发展的关键筹码。这个系列的教程将从技术和应用的角度解读大数据与云计算里的具体内容,和你一起拔高人生的视野。大数据是什么?首先,大数据技术是什么?简而言之,从大数据中提取大价值的挖掘技术。专业的说,就是根据特定目标,从数据收集与存储,数据筛选,算法分析与预测,数据分析结果展示,以辅助作出最正确的抉择,其数据级别通常在PB以上,复杂程度前所未有。关键作用是什么?挖掘出各个行业的关键路径,帮助决策,提升社会(或企业)运作效率。最初是在怎样的场景下提出?在基础学科经历信息快速发展之后,就诞生了“大数据”的说法。但其实是随着数据指数级的增长,尤其是互联网商业化和传感器移动化之后,从大数据中挖掘出某个事件现在和未来的趋势才真正意义上被大众所接触。大数据技术包含的内容概述?非结构化数据收集架构,数据分布式存储集群,数据清洗筛选架构,数据并行分析模拟架构,高级统计预测算法,数据可视化工具。大数据技术的具体内容?分布式存储计算架构(强烈推荐:Hadoop)分布式程序设计(包含:ApachePig或者Hive)分布式文件系统(比如:GoogleGFS)多种存储模型,主要包含文档,图,键值,时间序列这几种存储模型(比如:BigTable,Apollo,DynamoDB等)数据收集架构(比如:Kinesis,Kafla)集成开发环境(比如:R-Studio)程序开发辅助工具(比如:大量的第三方开发辅助工具)调度协调架构工具(比如:ApacheAurora)机器学习(常用的有ApacheMahout或H2O)托管管理(比如:ApacheHadoopBenchmarking)安全管理(常用的有Gateway)大数据系统部署(可以看下ApacheAmbari)搜索引擎架构(学习或者企业都建议使用Lucene搜索引擎)多种数据库的演变(MySQL/Memcached)商业智能(大力推荐:Jaspersoft)数据可视化(这个工具就很多了,可以根据实际需要来选择)大数据处理算法(10大经典算法)大数据中常用的分析技术?A/B测试、关联规则挖掘、数据聚类、数据融合和集成、遗传算法、自然语言处理、神经网络、神经分析、优化、模式识别、预测模型、回归、情绪分析、信号处理、空间分析、统计、模拟、时间序列分析大数据未来的应用趋势预测?每个人健康和生活都需要的个性化建议;企业管理中的选择和开拓新市场的可靠信息来源;社会治理中大众利益的发现与政策满足。大数据技术学习路线指南:实践原型[日期:2014-11-18]来源:百度经验作者:icantwish[字体:大中小]大数据的目的在于挖掘价值,而它的本质与OODA循环决策模型非常相似。用OODA这个原型来理解大数据是最合适的了!在战场上,OODA循环决策的周期越短,胜算越大;在市场中,大数据收集和反馈信息最快,效果越好!OODA原型概而论之,OODA指的是在充分观察了解你和对手的环境的前提下,模拟对手在特定环境下的行为,进而做出一系列的对策,并且快速响应执行!之后又迅速收集反馈信息,进入下一个OODA循环决策。观察:指的是通过多角度了解你与对手目前的真实处境。要做的事情就是尽可能全面地收集过去和现在的信息。以求足够了解对手正在所使用的策略和战术。调整:利用观察到的信息来感知和分析对手,并且根据对手的历史信息模拟其后续的决策行为,对目前自己的行为作出最优的调整建议。这一步骤也最为关键!决策:根据自己的现状,从多种调整方案中筛选权衡出最行之有效的执行方案。这一步其实依赖对己方所有大小情况的掌握。胜利属于作出正确决策的一方!执行:这个毋庸置疑,没有执行的方案就是一纸空文。这与平时训练养成的素质有关。中国俗语说,“养兵千日,用兵一时。”这个时候就是生死存亡见分晓的时候了。同时也是在校验决策的正确性!ENDOODA与大数据OODA的整个处理流程,其实就是一个运动控制系统。大数据也是类似,从手机信息、处理分析到决策执行,这些都与OODA有异曲同工之妙!大数据的运算速度与OODA的循环速度一样,都提前决定着结果。OODA强调的是根据对手的行为作出决策;大数据的核心是依据分析结果指导策略的制定!而这都严重地依赖对海量环境数据的研究分析,以求找到最佳的应对方案!OODA曾经是只为军事服务。如今这个思想工具已经开始在各个行业中应用开来。这就好比大数据在各行各业中都有不同程度的用武之地,并且逐步发挥关键性的作用!OODA的发明者认为并不一定要按照顺序来完成(观察/调整/决策/执行),允许基于文化和新的经验跳跃式自由组合着使用,同样的,大数据也不能按照固定模式来使用,而是根据具体环境和应用场景来做预测分析的工作!也正因为如此,大数据才前途无量!!大数据技术学习路线指南:大数据的内幕[日期:2014-11-18]来源:百度经验作者:icantwish[字体:大中小]接着前两篇对大数据的介绍之后,本篇从实际操作的角度分享大数据内部关键的运作机制,这是在真正开始学习大数据之前对大数据的一个概览。为的是让我们成为大数据的主人。大数据运行机制1.这是对大数据运行机制的概览,如果你阅读过上一篇(OODA),就会感觉非常熟悉。不错,他们在概念上是如出一撤的!不过实际操作却又有巨大的不同。2.收集数据:大数据的第一站就是收集和存储海量数据(公开/隐私)。现在每个人都是一个巨大的数据源,通过智能手机和个人笔记本释放出大量的个人行为信息。获取数据似乎已经变得越来越容易,数据收集这一模块最大的挑战在于获取海量数据的高速要求以及数据的全面性考虑。3.清洗数据:传统商业智能在数据清洗处理的做法(ETL)是,把准确的数据放入定义好的格式中,通过基础的抽取统计生成高维度的数据,方便直接使用。然而大数据有个最突出的特征——数据非结构化或者半结构化。因为数据有可能是图片,二进制等等。数据清洗的最大挑战来了——如何转化处理大量非结构数据,便于分布式地计算分析。4.硬件:这是大家都很熟悉的概念,和大数据相关的是虚拟化。主要包括存储虚拟化,计算虚拟化。因此又说虚拟化存储和云计算是大数据的“左膀右臂”!!大数据还需要支持多种类型的数据库,因此一个支持扩展的数据仓库是大数据中的基础。5.多平台与多架构并行使用:大数据处理需要多平台和多架构。这是由大数据的快速响应以及多维度分析所决定的特征。通常大数据会把一个任务拆分成多个极小的子任务交由不同的服务器来并行处理,最终由任务调度系统负责汇总分析计算结果。这也是美国谷歌公司需要用到上百万服务器的原因。6.机器学习与人类判断:“一拳难敌众手”,面对似乎处理不完的海量数据,需要机器来帮助我们一起处理。机器学习指的是不断从大数据分析中吸收特征数据,成为我们用来分析数据的关键参考指标!当然很多时候机器学习有可能会被误导,因此需要人类来判断机器学习的结果是否符合预期,以及进一步完善机器学习的结果!!7.分享与反馈:随着大数据分析结果的产生,决策者需要的旺旺不是一堆僵硬的数据,而是一张直观动态的决策建议视图。并且在决策之后,需要一个执行反馈系统来评估大数据分析结果的准确性。不断地去优化大数据分析的架构和算法!使得大数据架构更加智能!!8.8最后请你再次阅读这个系列的上一篇文章,对比大数据与OODA之间的异同点,并且在图纸上画出你对大数据的理解!