南京理工大学经济管理学院王曰芬大数据发展及其应用主要内容1、大数据的兴起与来源2、大数据的定义与特征3、大数据受关注的程度与演变4、大数据的应用及挑战1大数据的兴起与来源1.1大数据兴起的背景信息技术的进步互联网的诞生与发展云计算的发展与应用物联网的发展社交网络的发展智能终端的普及From:《2014-2018年中国大数据产业发展战略规划及投资前景分析报告》目录.中研信息研究所,20141大数据的兴起与来源1.1大数据兴起的背景信息技术的进步互联网的诞生与发展云计算的发展与应用物联网的发展社交网络的发展智能终端的普及From:《2014-2018年中国大数据产业发展战略规划及投资前景分析报告》目录.中研信息研究所,2014云计算(cloudcomputing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。•1983年,太阳电脑(SunMicrosystems)提出“网络是电脑”(“TheNetworkistheComputer”),2006年3月,亚马逊(Amazon)推出弹性计算云(ElasticComputeCloud;EC2)服务。•2006年8月9日,Google首席执行官埃里克·施密特(EricSchmidt)在搜索引擎大会(SESSanJose2006)首次提出“云计算”(CloudComputing)的概念。Google“云端计算”源于Google工程师克里斯托弗·比希利亚所做的“Google101”项目。云计算(CloudComputing)是分布式计算(DistributedComputing)、并行计算(ParallelComputing)、效用计算(UtilityComputing)、[4]网络存储(NetworkStorageTechnologies)、虚拟化(Virtualization)、负载均衡(LoadBalance)、热备份冗余(HighAvailable)等传统计算机和网络技术发展融合的产物。1大数据的兴起与来源1.1大数据兴起的背景信息技术的进步互联网的诞生与发展云计算的发展与应用物联网的发展社交网络的发展智能终端的普及From:《2014-2018年中国大数据产业发展战略规划及投资前景分析报告》目录.中研信息研究所,2014目前广为接受的是美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。云计算的服务形式,三个层次:基础设施即服务(IaaS,(Infrastructure-as-a-Service),平台即服务(PaaS,Platform-as-a-Service)和软件即服务(SaaS,Software-as-a-Service)。1大数据的兴起与来源1.1大数据兴起的背景信息技术的进步互联网的诞生与发展云计算的发展与应用物联网的发展社交网络的发展智能终端的普及From:《2014-2018年中国大数据产业发展战略规划及投资前景分析报告》目录.中研信息研究所,2014物联网(TheInternetofthings),最初在1999年提出的定义:即通过射频识别(RFID)(RFID+互联网)、红外感应器、全球定位系统、激光扫描器、气体感应器等信息传感设备,按约定的协议,把任何物品与互联网连接起来,进行信息交换和通讯,以实现智能化识别、定位、跟踪、监控和管理的一种网络。简而言之,物联网就是“物物相连的互联网”。1990年物联网的实践最早可以追溯到1990年施乐公司的网络可乐贩售机——NetworkedCokeMachine。1991年美国麻省理工学院(MIT)的KevinAsh-ton教授首次提出物联网的概念。1大数据的兴起与来源1.1大数据兴起的背景信息技术的进步互联网的诞生与发展云计算的发展与应用物联网的发展社交网络的发展智能终端的普及From:《2014-2018年中国大数据产业发展战略规划及投资前景分析报告》目录.中研信息研究所,20141大数据的兴起与来源1.1大数据兴起的背景信息技术的进步互联网的诞生与发展云计算的发展与应用物联网的发展社交网络的发展智能终端的普及From:《2014-2018年中国大数据产业发展战略规划及投资前景分析报告》目录.中研信息研究所,2014社交网络源自英文SNS(SocialNetworkService)的翻译,中文直译为社会性网络服务或社会化网络服务,意译为社交网络服务。社交网络含义包括硬件、软件、服务及应用,由于四字构成的词组更符合中国人的构词习惯,因此人们习惯上用社交网络来代指SNS(SocialNetworkService)。这个名词是1954年由J.A.Barnes首先使用(HumanRelations,在章节ClassandCommitteesinaNorwegianIslandParish内)。一个社交网络的大小最大约为150人左右(Dunbar'snumber),平均大小约为124人左右(HillandDunbar,2002)。中国社交网络的发展1、大数据的兴起与来源20世纪90年代,数据仓库之父的BillInmon就经常提及BigData2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念1.2大数据的来源科学研究产生大数据物联网产生大数据海量网络信息产生大数据1、大数据的兴起与来源1.2大数据的来源1、大数据的兴起与来源3亿用户,每天上亿条微博2015年全球移动终端产生的数据量6300PBFacebook每天要存储大约100TB的用户数据;NASA美国宇航局每天要处理约24TB的数据微信国内用户4亿,国外用户突破7千万,每天产生数据过亿条百度每天处理数据量100PB1、大数据的兴起与来源大数据的各部分组成大数据技术:图像、音频、视频、非结构化、社交关系数据处理技术商;现有IT系统改造商:大数据咨询公司、集成商、ERP、商务智能、客户关系管理系统;终端提供商向数据提供商演进:对现有客户数据的深度把握、建立客户之间的社交和联系;From:大数据引领我们走向数据智能化时代,http:、大数据的兴起与来源在多样性、体量、速度三大特征的指引下,大数据将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。展现方式:大型控制中心、移动终端From:大数据引领我们走向数据智能化时代,http:、大数据的兴起与来源2、大数据的定义与特征3、大数据受关注的程度与演变4、大数据的应用及挑战2、大数据的定义与特征Google精确掌握用户行为、获取需求15谷歌是免费经济的最佳代表,对于个人用户而言,所有的应用都是免费的。Gmail、日历、照片、联系人、文档编辑等等,产品众多。有好事者整理了一副Google产品间的关系图。谷歌如何盈利呢?答案在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等信息业免费的送给了Google。因此Google的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。广告的价值就越高。这是正向的循环,谷歌好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道。颠覆了微软卖软件拷贝赚钱的模式。成为互联网的巨擘。热图用户的视觉注意力图。Google用这个图来决定广告位置的价格,左边的价格高于右边,显然是因为左边获得的用户注意力远远高于右边。2、大数据的定义与特征2、大数据的定义与特征TBPBZBEB大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长根据IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量数据量增加数据结构日趋复杂由人们主动创造的信息,呈指数增长,所形成的数据量早已经远远超越目前人力所能处理的范畴,大数据时代正在来临……1TB=1024GB1PB=1024TB1EB=1024PB1ZB=1024EB182003人类文明开始大数据爆炸式增长5exabytes13.5zeffabytes2015年1Byte相当於一个英文字母,您的名字相当6Bytes(6B)。Kilobyte(KB)=1024B相当於一则短篇故事的内容。Megabyte(MB)=l024KB相当於一则短篇小说的文字内容。Gigabyte(GB)=1024MB相当於贝多芬第五乐章交响曲的乐谱内容。Terabyte(TB)=1024GB相当於一家大型医院中所有的X光图片资讯量。Petabyte(PB)=l024TB相当於50%的全美学术研究图书馆藏书资讯内容。Exabyte(EB)=1024PB;5EB相当於至今全世界人类所讲过的话语。Zettabyte(ZB)=1024EB如同全世界海滩上的沙子数量总和。Yottabyte(YB)=1024ZB相当於7000位人类体内的微细胞总和。2、大数据的定义与特征2、大数据的定义与特征大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。(原文:“Bigdata”referstodatasetswhosesizeisbeyondtheabilityoftypicaldatabasesoftwaretoolstocapture,store,manage,andanalyze.)----麦肯锡2、大数据的定义与特征20体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长•占总数据量的80~90%•比结构化数据增长快10倍到50倍•是传统数据仓库的10倍到50倍大数据的异构和多样性•很多不同形式(文本、图像、视频、机器数据)•无模式或者模式不明显•不连贯的语法或句义大量的不相关信息•对未来趋势与模式的可预测分析•深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析•数据输入、处理与丢弃•立竿见影而非事后见效“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。主要内容1、大数据的兴起与来源2、大数据的定义与特征3、大数据受关注的程度与演变4、大数据的应用及挑战从Gartner的技术成熟度曲线(HypeCycle)谈起3、大数据受关注的程度与演变一是萌芽期(TechnologyTrigger)又称感知期,人们对新技术产品和概念开始感知,并且表现出兴趣;二是过热期(PeakofInflatedExpectations),人们一拥而上,纷纷采用这种新技术,讨论这种新技术。典型成功的案例往往会把人们的这种热情加上把催化剂;三是低谷期(TroughofDisillusionment),又称幻想破灭期。过度的预期,严峻的现实,往往会把人们心理的一把火浇灭;四是复苏期(SlopeofEnlightenment),又称恢复期。人们开始反思问题,并从实际出发考虑技术的价值。相比之前冷静不少;五是成熟期(PlateauofProductivity),又称高原期。该技术已经成为一种平常。3、大数据受关注的程度与演变Gartner2011年技术成熟度曲线,大数据正从萌芽朝向高速发展期3、大数据受关注的程度与演变Gartner2012年技术成熟度曲线,大数据刚走入高速发展期3、大数据受关注的程度与演变Gartner2013年技术成熟度曲线,大数据处于高速发展期3、大数据受关注的程度与演变Gartner2014年技术成熟度曲线:大数据已由过热