《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版厦门大学计算机科学系2013年新版林子雨厦门大学计算机科学系E-mail:ziyulin@xmu.edu.cn主页:(2013年新版)厦门大学计算机科学系研究生课程《大数据技术基础》《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版提纲•大数据概念•大数据的产生和应用•大数据作用•大数据与大规模数据、海量数据的区别•典型的大数据应用实例•从数据库到大数据•大数据与云计算•大数据与物联网•对大数据的错误认识•大数据技术•大数据存储和管理技术•大数据生态系统《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版大数据•“大数据”是时下最火热的IT行业词汇•早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。•大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版大数据无处不在•科学研究–基因组–LHC加速器–地球与空间探测•企业应用–Email、文档、文件–应用日志–交易记录•Web1.0数据–文本–图像–视频•Web2.0数据–查询日志/点击流–Twitter/Blog/SNS–Wiki《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版大数据的四个特征《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版Volume—数量大根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量,预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍。《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版数据的度量《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版进入大数据时代•2011年,中国互联网行业持有数据总量达到1.9EB(1EB字节相当于10亿GB)•2011年,全球被创建和复制的数据总量为1.8ZB(1.8万亿GB)•2013年,我们生成这样规模的信息量只需10分钟•2015年,全球被创建和复制的数据总量将增长到8.2EB以上•2020年,全球电子设备存储的数据将暴增30倍,达到35ZB《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版Velocity—速度快•从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少•1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同。《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版Variety—多样化•大数据是由结构化和非结构化数据组成的–10%的结构化数据,存储在数据库中–90%的非结构化数据,它们与人类信息密切相关•非结构化数据类型多样–邮件、视频、微博–位置信息、链接信息–手机呼叫、网页点击–―长微博”《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版Value—价值化•价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的商业价值–科学研究–企业应用–社会网络《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版《大数据时代》作者舍恩伯格提出的三个特征•舍恩伯格的《大数据时代》受到了广泛的赞誉,他本人也因此书被视为大数据领域中的领军人物。•在舍恩伯格看来,大数据一共具有三个特征:–(1)全样而非抽样;–(2)效率而非精确;–(3)相关而非因果。《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版•人类社会的数据产生方式大致经历了3个阶段,而正是数据产生方式的巨大变化才最终导致大数据的产生。•运营式系统阶段–数据库的出现使得数据管理的复杂度大大降低,数据往往伴随着一定的运营活动而产生并记录在数据库中的,这种数据的产生方式是被动的•用户原创内容阶段–数据爆发产生于Web2.0时代,而Web2.0的最重要标志就是用户原创内容–以博客、微博为代表的新型社交网络的出现和快速发展–以智能手机、平板电脑为代表的新型移动设备的出现–这个阶段数据的产生方式是主动的•感知式系统阶段–感知式系统的广泛使用–人类社会数据量第三次大的飞跃最终导致了大数据的产生大数据的产生《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版大数据的应用《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版大数据作用•变革价值的力量–让我们从前10年的意义混沌时代,进入未来10年意义明晰时代•变革经济的力量–大数据帮助我们从消费者这个源头识别意义,从而帮助生产者实现价值。这就是启动内需的原理•变革组织的力量–大数据将推动网络结构产生无组织的组织力量《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版1.4大数据与大规模数据、海量数据的差别•从对象角度看,大数据是大小超出典型数据库软件采集、储存、管理和分析等能力的数据集合。大数据并非大量数据的简单无意义的堆积,数据量大并不意味着一定具有可观的利用前景。数据间是否具有结构性和关联性,是“大数据”与“大规模数据”的重要差别。•从技术角度看,大数据技术是从各种各样类型的大数据中,快速获得有价值信息的技术及其集成。“大数据”与“大规模数据”、“海量数据”等类似概念间的最大区别,就在于“大数据”这一概念中包含着对数据对象的处理行为。为了能够完成这一行为,从大数据对象中快速挖掘更多有价值的信息,使大数据“活起来”,就需要综合运用灵活的、多学科的方法,包括数据聚类、数据挖掘、分布式处理等,而这就需要拥有对各类技术、各类软硬件的集成应用能力。可见,大数据技术是使大数据中所蕴含的价值得以发掘和展现的重要工具。•从应用角度看,大数据是对特定的大数据集合、集成应用大数据技术、获得有价值信息的行为。正由于与具体应用紧密联系,甚至是一对一的联系,才使得“应用”成为大数据不可或缺的内涵之一。《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版1.5典型的大数据应用实例•从谷歌流感趋势看大数据的应用价值谷歌有一个名为“谷歌流感趋势”的工具,它通过跟踪搜索词相关数据来判断全美地区的流感情况(比如患者会搜索流感两个字)《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版1.6从数据库到大数据•池塘捕鱼(数据库)vs.大海捕鱼(大数据)•1、数据规模:“池塘”的处理对象通常以MB为基本单位,而“大海”则常常以GB,甚至是TB、PB为基本处理单位。•2、数据类型:过去的“池塘”中,数据的种类单一,往往仅仅有一种或少数几种,这些数据又以结构化数据为主。而在“大海”中,数据的种类繁多,数以千计,而这些数据又包含着结构化、半结构化以及非结构化的数据,并且半结构化和非结构化数据所占份额越来越大。•3、模式(Schema)和数据的关系:传统的数据库都是先有模式,然后才会产生数据。这就好比是先选好合适的“池塘”,然后才会向其中投放适合在该“池塘”环境生长的“鱼”。而大数据时代很多情况下难以预先确定模式,模式只有在数据出现之后才能确定,且模式随着数据量的增长处于不断的演变之中。这就好比先有少量的鱼类,随着时间推移,鱼的种类和数量都在不断的增长。鱼的变化会使大海的成分和环境处于不断的变化之中。《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版1.6从数据库到大数据•4、处理对象:在“池塘”中捕鱼,“鱼”仅仅是其捕捞对象。而在“大海”中,“鱼”除了是捕捞对象之外,还可以通过某些“鱼”的存在来判断其他种类的“鱼”是否存在。也就是说传统数据库中数据仅作为处理对象。而在大数据时代,要将数据作为一种资源来辅助解决其他诸多领域的问题。•5、处理工具:捕捞“池塘”中的“鱼”,一种渔网或少数几种基本就可以应对,也就是所谓的OneSizeFitsAll。但是在“大海”中,不可能存在一种渔网能够捕获所有的鱼类,也就是说NoSizeFitsAll。《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版科学研究四种范式•图灵奖获得者、著名数据库专家JimGray博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论和计算三种范式。当数据量不断增长和累积到今天,传统的三种范式在科学研究,特别是一些新的研究领域已经无法很好的发挥作用,需要有一种全新的第四种范式来指导新形势下的科学研究。基于这种考虑,JimGray提出了一种新的数据探索型研究方式,被他自己称之为科学研究的“第四种范式”(TheFourthParadigm)。《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版大数据与云计算dataStorageasaServiceInfrastructureasaServicePlatformasaServiceSoftwareasaServiceSaaSPaaSIaaSdSaaSGoogleApps,Microsoft“Software+Services”IBMITfactory,GoogleAppEngine,Force.comAmazonEC2,IBMBlueCloud,SunGridNirvanixSDN,AmazonS3,CleversafedsNetServerStorageServerStorageVisualizationInfrastructurePlatformApplication从一个集中的系统部署软件,使之在一台本地计算机上(或从云中远程地)运行的一个模型。由于是计量服务,SaaS允许出租一个应用程序,并计时收费IaaS将基础设施(计算资源和存储)作为服务出租PaaS类似于IaaS,但是它包括操作系统和围绕特定应用的必需的服务SaaS《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版1.7大数据与云计算•从整体上看,大数据与云计算是相辅相成的•从技术上看,大数据根植于云计算–云计算关键技术中的海量数据存储技术、海量数据管理技术、MapReduce编程模型,都是大数据技术的基础。《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版大数据技术与云计算有相同,也有差异《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版大数据技术与云计算相结合会带来什么《大数据技术基础》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn2013年9月第一版1.8大数据与物联网•物联网就是“物物相连的互联网”。物联网通过智能感知、识别技术与普适计算、泛在网络的融合应用,被称为继计算机、互联网之后世界信息产业发展的第三次浪潮•物联网架构可分为三层,包括感知层、网络层和应用层•物联网,移动互联网再加上传统互联网,每天都在产生海量数据,而大数据又通过云计