2015/5/111互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在大数据的产生21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。疯狂产生着数据。大数据= 海量数据+ 复杂类型的数据大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于各种网络和社交媒体。它包括了呼叫详细记录、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web文本和点击流数据、评价数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据的构成大数据的大小1ZB=1021= 270Bytes(十万亿亿字节)1ZB=1021= 270Bytes(十万亿亿字节)1EB=1018= 260Bytes(百亿亿字节)1EB=1018= 260Bytes(百亿亿字节)1PB=1015= 250Bytes(千万亿字节)1PB=1015= 250Bytes(千万亿字节)1TB=1012=240Bytes(万亿字节)1TB=1012=240Bytes(万亿字节)1GB=106= 230Bytes(十亿字节)1GB=106= 230Bytes(十亿字节)1MB= 220Bytes(百万字节)1MB= 220Bytes(百万字节)1KB= 210Bytes(一千字节)1KB= 210Bytes(一千字节)1Byte(字节)= 8 bit(位)1Byte(字节)= 8 bit(位)2GB:2小时720p高清电影的大小(20亿)500GB:个人电脑的硬盘容量(5千亿)10-100TB:传统数据库的有效工作数据大小100TB:大数据的门槛(100万亿)10PB:电信和金融业的数据量100PB:Facebook、Yahoo的数据量1EB:谷歌,百度的数据量一个数:138图像的一个点5EB(5百亿亿字节)从人类文明到2003年里一共产生信息量2.8ZB(28万亿亿字节)2012年创建和复制的信息量560倍全球互联网1分钟传输1.2亿亿个字符1分钟发出2亿封邮件Amazon公司1分钟销售8.3万美元苹果的应用1分钟下载20万次Pandora新增加6万多首歌曲Google发生200万次搜索查询Facebook新增27万多用户,发生600万次访问Twitter上载35万条新微博TouTube上载100小时视频,发生130万次观看2015年,你要用5年时间才能看完互联网上一秒内所上传的视频互联网的一分钟内发生了什么?2015/5/1122012年:2015年:全球联网设备的数量[1]美国人口调查局的数据显示全球人口在2012年3月12日突破70亿;[2]而联合国人口基金会则显示全球人口在2011年10月31日达到70亿。预计2040年前,世界人口将达到80亿在2012年,全球联网设备的数量等于全球人口数量(70亿)[1]在2015年,全球联网设备的数量将等于全球人口数量的两倍(145亿)在2017年,全球联网设备的数量将等于全球人口数量的三倍(220亿)2009年,甲型H1N1流感在全球爆发传播,为了发现和控制疫情,各国政府和卫生相关部门付出了巨大努力,但得到的数据仍然滞后一两周。而Google对人们的搜索的历史记录进行处理,建立合理的数学模型后,得到的预测结果与官方的数据相关性高达97%,能够立刻判断出流感是从哪里传播出来的,没有一两周的滞后。Google处理了5000万条历史记录、4.5亿个不同的数学模型。大数据早期的一个成功例子人们在网上搜索相关病症,发烧头痛,药品,治疗。查询的人群所在地区…大数据的4V特性数量Volume多样性Variety多样性Variety真实性Veracity真实性Veracity速度Velocity速度Velocity存储量大增长量大来源多(搜索、社交网络、通话记录、传感器)格式多(结构化数据、非结构化数据)大量的不相关信息资料可靠度低分析结果存在误差实时分析立竿见影而非事后见效大数据和传统数据的主要区别在于结构化程度传统数据库保存的是结构化或者半结构化的数据,以二维表或者标准XML文件的方式存储数据,由于结构清晰,处理相对容易;大数据面向的是一切计算机可以存储的数据格式,包括互联网上的各种网页、图片、音频、视频,包括办公文档,人们在搜索引擎中输入的关键词、在社交网络中的留言,显然不同的格式处理起来更加困难。结构化数据非结构化数据大数据与传统数据的区别2015/5/113Veracity真实性差的数据Volume海量的数据规模Variety多样的数据类型大数据技术要解决的问题Velocity快速的数据流转发现数据价值Value大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity) 地采集、发现和分析,从大量(volumes)、多类别(variety)真实性差(Veracity)的数据中提取价值(value),将是IT 领域新一代的技术与架构。企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。大数据技术要解决的问题技术领域的挑战传统的数据库部署不能处理数TB 级别的数据,也不能很好的支持高级别的数据分析,急速膨胀的数据体量即将超越传统数据库的管理能力。因此,需要构建全球级的分布式数据库,可以扩展到数百万的机器,数已百计的数据中心,上万亿的行数据。经典数据库技术并没有考虑数据的多类别(variety),SQL在设计的一开始是没有考虑非结构化数据的。一般而言,像数据仓库、BI等,对处理时间的要求并不高。因此这类应用如果运行1、2天获得结果依然可行的。但大数据应用要求实时处理,这是其区别于传统数据仓库技术、BI技术的关键差别之一。•处理的对象往往是全部数据,而不是部分数据的采样–采样的不合理会导致预测结果的偏差,在大数据时代,依靠强大的数据处理能力,应该去处理全部的数据。•不再执迷于精确性–精确的、规范化的、可以被传统数据库处理的数据只占全部数据的5%,必须接受不精确性才能处理另外95%的数据;–错误的数据是客观存在的,竭力避免它就失去了应有的客观性和公平性;–大数据的简单算法比小数据的复杂算法更有效。•更加关注相关性,而不是因果性–预测依靠的是相关性;–很多情况下知道“是什么”即可,不必知道“为什么”。大数据带来的思维方式的变化2015/5/114如何处理大数据?分析技术:•数据处理:自然语言处理技术•统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析•数据挖掘:关联规则分析;分类;聚类•模型预测:预测模型;机器学习;建模仿真大数据技术:•数据采集:ETL工具•数据存取:DFS;HDFS;NoSQL等•基础架构支持:云存储;分布式文件系统等•计算结果展现:云计算;标签云;关系图等解决方案:•Hadoop(MapReduce技术)•流计算(twitter的storm和yahoo!的S4)存储:•结构化数据:–海量数据的查询、统计、更新等操作效率低•非结构化数据:–图片、视频、word、pdf、ppt等文件存储,不利于检索、查询和存储•半结构化数据:–转换为结构化存储–按照非结构化存储如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的神器。云计算和大数据是一个硬币的两面:云计算是大数据的基础分析手段;大数据是云计算的一个重磅应用。云计算与大数据的关系是动与静的关系:云计算强调的是计算,这是动的概念;大数据是计算的对象,这是静的概念。没有云计算,大数据的价值无法被提取;没有大数据,云计算空无用武之地。大数据与云计算数据采集数据储存与管理数据分析与挖掘计算结果展示大数据的相关技术•ETL•数据众包(CrowdSouring)•结构化、非结构化和半结构化数据•分布式文件系统•关系数据库•非关系数据库(NoSQL)•数据仓库•云计算和云存储•实时流处理•社会网络分析•A/BTesting•关联规则分析•分类•聚类•遗传算法•神经网络•预测模型•模式识别•时间序列分析•回归分析•系统仿真•机器学习•优化•空间分析•自然语言分析•MapReduce•R语言•标签云(TagCloud)•聚类图(Clustergram)•空间信息流(Spatialinformationflow)•热图(Heatmap)数据采集数据储存与管理数据分析与挖掘计算结果展示大数据的相关技术•ETL•数据众包(CrowdSouring)Extract, Transform and Load (ETL) refers to a process in database usage and especially in data warehousing that: Extracts data from homogeneous or heterogeneous data sources. Transforms the data for storing it in proper format or structure for querying and analysis purpose.2015/5/115数据众包数据众包是一种新的数据采集方式,由企业方通过平台把数据采集任务外包给非特定的大众网络。众包是一种分布式的问题解决和生产模式。众包指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法。数据采集数据储存与管理数据分析与挖掘计算结果展示大数据的相关技术•ETL•数据众包(CrowdSouring)•结构化、非结构化和半结构化数据•分布式文件系统•关系数据库•非关系数据库(NoSQL)•数据仓库•云计算和云存储•实时流处理分布式文件系统分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统(例1)Google文件系统(Google File System,GFS)是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,将服务器故障视为正常现象,通过软件的方式自动容错,在保证系统可靠性和可用性的同时,大大减少了系统的成本。GFS使用廉价的商用机器构建分布式文件系统,将容错的任务交由文件系统来完成,利用软件的方法解决系统可靠性问题,这样可以使得存储的成本成倍下降。由于GFS中服务器数目众多,在GFS中服务器死机是经常发生的事情,甚至都不应当将其视为异常现象,那么如何在频繁的故障中确保数据存储的安全、保证提供不间断的数据存储服务是GFS最核心的问题。GFS的精彩在于它采用了多种方法,从多个角度,使用不同的容错措施来确保整个系统的可靠性。2015/5/116主服务器客户端数据块服务器GFS将整个系统分为三类角色:Client(客户端)、Master(主服务器)、Chunk Server(数据块服务器)。客户端Client是GFS提供给应用程序的访问接口。主服务器Master是GFS的管理节点,是GFS文件系统中的“大脑”。数据块服务器Chunk Server负责具体的存储工作。客户端在访问GFS时,首先访问Master节点,获取将要与之进行交互的Chunk Server信息,然后直接访问这些Chunk Server完成数据存取分布式文件系统(例2)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进