大数据概述目录第一章大数据的定义..........................................................................................................31、大数据时代的背景.............................................................................................................32、大数据时代的到来.............................................................................................................33、大数据的特征.....................................................................................................................4第二章大数据的相关技术...................................................................................................51、对现有技术的挑战.............................................................................................................52、大数据处理技术.................................................................................................................53、大数据与云计算.................................................................................................................64、大数据与分布式技术.........................................................................................................8第三章大数据在各个领域的应用......................................................................................101、大数据在互联网企业的应用...........................................................................................102、大数据在政府机构的应用...............................................................................................113、银行业在大数据的应用...................................................................................................11第四章大数据在未来的展望..............................................................................................14第一章大数据的定义1、大数据时代的背景半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快,创造出了“大数据(BigData)”这个概念。如今,这个概念几乎应用到了所有人类智力与发展的领域中。BigData是近来的一个技术热点,历史上,数据库、数据仓库、数据集市等信息管理领域的技术,很大程度上也是为了解决大规模数据的问题。被誉为数据仓库之父的BillInmon早在20世纪90年代就经常提及BigData。2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念。21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。2、大数据时代的到来近年来互联网、云计算、移动和物联网的迅猛发展。无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据,数以亿计用户的互联网服务时时刻刻在产生巨量的交互。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据:1)全球每秒钟发送2.9百万封电子邮件;2)每天会有2.88万个小时的视频上传到Youtube;3)推特上每天发布5千万条消息;4)每天亚马逊上将产生6.3百万笔订单;4)每个月网民在Facebook上要花费7千亿分钟;5)Google上每天需要处理24PB的数据。根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律),并且大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长,这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量,预计到2020年,全球将总共拥有35亿GB的数据量,相较于2010年,数据量将增长近30倍。这不是简单的数据增多的问题,而是全新的问题。大数据时代的到来,使我们要处理的数据量实在是太大、增长太快了,而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求,传统的常规技术手段根本无法应付。3、大数据的特征1)数据量大(Volume)大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。非结构化数据的超大规模和增长,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍。2)类型繁多(Variety)大数据的类型可以包括网络日志、音频、视频、图片、地理位置信息等等,具有异构性和多样性的特点,没有明显的模式,也没有连贯的语法和句义,多类型的数据对数据的处理能力提出了更高的要求。3)价值密度低(Value)大数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,存在大量不相关信息。因此需要对未来趋势与模式做可预测分析,利用机器学习、人工智能等进行深度复杂分析。而如何通过强大的机器算法更迅速地完成数据的价值提炼,是大数据时代亟待解决的难题。4)速度快时效高(Velocity)处理速度快,时效性要求高,需要实时分析而非批量式分析,数据的输入、处理和分析连贯性地处理,这是大数据区分于传统数据挖掘最显著的特征。面对大数据的全新特征,既有的技术架构和路线,已经无法高效地处理如此海量的数据,而对于相关组织来说,如果投入巨大采集的信息无法通过及时处理反馈有效信息,那将是得不偿失的。可以说,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。第二章大数据的相关技术1、对现有技术的挑战1)对现有数据库管理技术的挑战传统的数据库部署不能处理数TB级别的数据,也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。如何构建全球级的分布式数据库(Globally-DistributedDatabase),可以扩展到数百万的机器,数已百计的数据中心,上万亿的行数据。2)对经典数据库技术的挑战经典数据库存并没有考虑数据的多类别(variety),SQL(结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的。3)实时性的技术挑战传统的数据仓库系统和各类BI应用,对处理时间的要求并不高。因此这类应用往往运行1、2天获得结果依然可行的。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。4)对网络架构、数据中心、运维的挑战人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,我们的技术改进不大,而数据丢失的可能性却不断增加。如此庞大的数据量首先在存储上就会是一个非常严重的问题,硬件的更新速度将是大数据发展的基石。2、大数据处理技术面对大数据时代的到来,技术人员纷纷研发和采用了一批新技术,主要包括分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等。充分地利用这些技术,加上企业全面的用以分析的数据,可更好地提高分析结果的真实性。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。以下是一些目前应用较为广泛的技术:1)分析技术:数据处理:自然语言处理技术;统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析;数据挖掘:关联规则分析;分类;聚类;模型预测:预测模型;机器学习;建模仿真;2)大数据技术:数据采集:ETL工具;数据存取:关系数据库;NoSQL;SQL等;基础架构支持:云存储;分布式文件系统等;计算结果展现:云计算;标签云;关系图等;3)数据存储技术结构化数据:海量数据的查询、统计、更新等操作效率低;非结构化数据:图片、视频、word、pdf、ppt等文件存储;不利于检索、查询和存储半结构化数据:转换为结构化存储;按照非结构化存储;4)解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4)3、大数据与云计算云计算的模式是业务模式,本质是数据处理技术。大数据是资产,云为数据资产提供存储、访问和计算。大数据与云计算是相辅相成的。1)云计算及其分布式结构当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。大数据处理技术正在改变目前计算机的运行模式,正在改变着这个世界:它能处理几乎各种类型的海量数据,无论是微博、文章、电子邮件、文档、音频、视频,还是其它形态的数据;它工作的速度非常快速:实际上几乎实时;它具有普及性:因为它所用的都是最普通低成本的硬件,而云计算它将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算力、存储空间和信息服务。云计算及其技术给了人们廉价获取巨量计算和存储的能力,云计算分布式架构能够很好地支持大数据存储和处理需求。这样的低成本硬件+低成本软件+低成本运维,更加经济和实用,使得大数据处理和利用成为可能。2)云数据库NoSQL被广泛地称为云数据库,因为其处理数据的模式完全是分布于各种低成本服务器和存储磁盘,因此它可以帮助网页和各种交互性应用快速处理过程中的海量数据。它采用分布式技术结合了一系列技术,可以对海量数据进行实时分析,满足了大数据环境下一部分业务需求,但是还无法彻底解决大数据存储管理需求。云计算对关系型数据库的发展将产生巨大的影响,而绝大多数大型业务系统(如银行、证券交易等)、电子商务系统所使用的数据库还是基于关系型的数据库,随着云计算的大量应用,势必对这些系统的构建产生影响,进而影响整个业务系统及电子商务技术的发展和系统的运行模式。基于关系型数据库服务的云数据库产品将是云数据库的主要发展方向,云数据库(CloudDB),提供了海量数据的并行处理能力和良好的可伸缩性等特性,提供同时支持在在线分析处理(OLAP)和在线事务处理(OLTP)能力,提供了超强性能的数据库云服务,并成为集群环境和云计算环境的理想平台。它