大数据概论大数据技术简介1大数据的采集和预处理2大数据分析概论3大数据可视化简介4大数据概论云计算与大数据51大数据技术简介半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念。如今,这个概念几乎应用到了所有人类智力与发展的领域中。1.1大数据的时代背景20世纪90年代,数据仓库之父的BillInmon就经常提及BigData。1.1大数据的时代背景互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念。1.1大数据的时代背景数据的本质是生产资料和资产数据爆炸式增长--每分钟1.2大数据定义数据量增加TBPBZBEB根据IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。数据结构日趋复杂大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临…1.2大数据的定义•大数据(bigdata),又称巨量数据集合,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。•对于“大数据”研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。•大数据加上云计算被认为是继信息化和互联网后整个信息产业的第三次革命。1.3大数据的4V特征1.Volume2.Variety3.value4.Velocity结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,订单、日志、音频,多类型的数据对数据处理能力提出了更高的要求沙里淘金,价值密度低以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题实时获取需要的信息大数据区分于传统数据最显著的特征。如今已是ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命数据量巨大全球在2010年正式进入ZB时代,IDC预计到2020年,全球将总共拥有35ZB的数据量大数据的4V特征大数据的4V特征大数据的4V特征大数据的4V特征大数据的4V特征体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长•占总数据量的80~90%•比结构化数据增长快10倍到50倍•是传统数据仓库的10倍到50倍大数据的异构和多样性•很多不同形式(文本、图像、视频、机器数据)•无模式或者模式不明显•不连贯的语法或句义•大量的不相关信息•对未来趋势与模式的可预测分析•深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析•数据输入、处理与丢弃•立竿见影而非事后见效“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。大数据的构成大数据=海量数据+复杂类型的数据大数据包括:交易数据和交互数据集在内的所有数据集海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的ApacheHadoop。大数据的特点传统数据大数据数据产生方式被动采集数据主动生成数据数据采集密度采样密度较低,采样数据有限利用大数据平台,可对需要分析事件的数据进行密度采样,精确获取事件全局数据数据源数据源获取较为孤立,不同数据之间添加的数据整合难度较大利用大数据技术,通过分布式技术、分布式文件系统、分布式数据库等技术对多个数据源获取的数据进行整合处理数据处理方式大多采用离线处理方式,对生成的数据集中分析处理,不对实时产生的数据进行分析较大的数据源、响应时间要求低的应用可以采取批处理方式集中计算;响应时间要求高的实时数据处理采用流处理的方式进行实时计算,并通过对历史数据的分析进行预测分析1.4大数据的数据格式结构化信息:这种信息可以在关系数据库中找到,多年来一直主导着IT应用,是关键任务OLTP(联机事务处理)系统业务所依赖的信息。另外,这种信息还可对结构数据库信息进行排序和查询。例如VF中的表。半结构化信息:包括电子邮件、文字处理文件及大量保存和发布在网络上的信息。非结构化信息:该信息在本质形式上可认为主要是位映射数据。大数据需要解决的问题Volume海量的数据规模Variety多样的数据类型ValueVelocity快速的数据流转发现数据价值1.5大数据的处理流程1.6大数据的技术架构大数据的四层堆栈式技术架构1.7大数据的整体技术一般包括:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。大数据的相关技术•ETL•数据众包(CrowdSouring)•结构化、非结构化和半结构化数据•分布式文件系统•关系数据库•非关系数据库(NoSQL)•数据仓库•云计算和云存储•实时流处理•A/BTesting•关联规则分析•分类•聚类•遗传算法•神经网络•预测模型•模式识别•时间序列分析•回归分析•系统仿真•机器学习•优化•空间分析•社会网络分析•自然语言分析•MapReduce•R语言•标签云(TagCloud)•聚类图(Clustergram)•空间信息流(Spatialinformationflow)•热图(Heatmap)数据采集数据存储与管理数据分析与挖掘计算结果展示大数据的相关技术1.8大数据分析的四种典型工具简介1.HadoopHadoop是一个能够对大量数据进行分布式处理的软件框架,是一个能够让用户轻松架构和使用的分布式计算平台。2.SparkSpark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。大数据分析的四种典型工具简介3.StormStorm是一种开源软件,一个分布式、容错的实时计算系统。4.ApacheDrill为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会发起了一项名为Drill的开源项目。ApacheDrill实现了Google’sDremel。大数据的相关技术Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop是以分布式文件系统(HadoopDistributedFileSystem,简称HDFS)和MapReduce等模块为核心,为用户提供细节透明的系统底层分布式基础架构。大数据的相关技术MapReduce是面向大数据并行处理的计算模型、框架和平台。MapReduce由Map和Reduce两部分用户程序组成,利用框架在计算机集群上根据需求运行多个程序实例来处理各个子任务,然后再对结果进行归并输出。大数据的相关技术MapReduce举例:“统计54张扑克牌中有多少张♠?”最直观的做法:你自己从54张扑克牌中一张一张地检查并数出13张♠。而MapReduce的做法及步骤如下:1.给在座的所有牌友(比如4个人)尽可能的平均分配这54张牌;2.让每个牌友数自己手中的牌有几张是♠,比如老张是3张,老李是5张,老王是1张,老蒋是4张,然后每个牌友把♠的数目分别汇报给你;3.你把所有牌友的♠数目加起来,得到最后的结论:一共13张♠。这个例子告诉我们,MapReduce的两个主要功能是Map和Reduce。Map:把统计♠数目的任务分配给每个牌友分别计数。Reduce:每个牌友不需要把♠牌递给你,而是让他们把各自的♠数目告诉你。1.9大数据带来的变革大数据带来全新变革购物、旅行、信息、社交生活方式商业模式教育变革哲学变革总体思维、容错思维、相关思维、智能思维思维方式以数据/数据产品为输入,数据/数据产品为输出的新商业模式大数据让教育真正面对每一个独立的个体管理模式利用数据进行决策数据挖掘与认识论挑战数据资源与价值观转变数据足迹与伦理观危机大数据带来的思维变革大数据时代的思维方式大数据时代,人们对待数据的思维方式变化:•从样本思维转向总体思维:带来更全面的认识,可以更清楚地发现样本无法揭示的细节信息;•从精确思维转向容错思维:当拥有海量即时数据时,绝对的精准不再是追求的主要目标,适当忽略微观层面上的精确度,容许一定程度的错误与混杂,反而可以在宏观层面拥有更好的知识和洞察力;•从因果思维转向相关思维:努力颠覆千百年来人类形成的传统思维模式和固有偏见,才能更好地分享大数据带来的深刻洞见。•从自然思维转向智能思维,不断提升机器或系统的社会计算能力和智能化水平,从而获得具有洞察力和新价值的东西,甚至类似于人类的“智慧”。1.10大数据的应用领域大数据应用案例之:医疗行业•IBM最新沃森医疗保健内容分析预测技术,该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。•在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。•为了让更多的创业者更方便地开发产品,比如可以通过社交网络来收集数据的健康类App。也许未来数年后,这些搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。大数据的应用案例大数据应用案例之:能源行业•智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。•维斯塔斯风力系统,依靠的是BigInsights软件和IBM超级计算机,对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足1小时便可完成。大数据的应用案例大数据应用案例之:通信行业•XOCommunications通过使用IBMSPSS预测分析软件,减少了将近一半的客户流失率。XO现在可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而帮助公司及时采取措施,保留客户。此外,IBM新的Netezza网络分析加速器,将通过提供单个端到端网络、服务、客户分析视图的可扩展平台,帮助通信企业制定更科学、合理决策。•电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的