S大数据技术张博士2015年5月10/9/2020目录S大数据技术概论S云数据库技术S数据挖掘技术S商业智能10/9/2020BigData名词由来20世纪90年代,数据仓库之父的BillInmon就经常提及BigData2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念10/9/2020大数据的产生S21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。S互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。10/9/2020数量级概念S1KB=2(10)B=1024B;S1MB=2(10)KB=1024KB=2(20)B;S1GB=2(10)MB=1024MB=2(30)B。S1TB=2(10)GB=1024GB=2(40)BS1PB=2(10)TB=1024TB=2(50)BS1EB=2(10)PB=1024PB=2(60)B10/9/2020数量级概念SKilobyte(KB)=1024B相当于一则短篇故事的內容。SMegabyte(MB)=l024KB相当于一則短篇小說的文字內容。SGigabyte(GB)=1024MB相当于贝多芬第五交响乐的演奏视频內容。STerabyte(TB)=1024GB相当于一家大型医院中所有的X光照片信息。SPetabyte(PB)=l024TB相当于50%的全美学术图书馆信息內容。SExabyte(EB)=1024PB;5EB相当于至今全世界人类所讲过的话语。10/9/2020信息通讯进入新时代10/9/2020摩尔定律10/9/2020后摩尔时代10/9/2020计算机演进10/9/2020信息计算体系演进10/9/2020软件技术网络化演进10/9/2020传输技术的发展10/9/2020从移动数据到移动流媒体10/9/2020移动通信峰值速率的提升10/9/2020互联网发展:从电信到泛在服务10/9/2020联网主机数量10/9/2020电视网络化智能化与三网合一10/9/2020视频流量成为主流10/9/2020全球骨干网流量10/9/2020中国互联网干线带宽10/9/2020中国互联网用户10/9/2020移动终端功能的演进10/9/2020移动互联网加快普及10/9/2020智能终端引领后PC时代10/9/2020移动数据流量超过话音10/9/2020全球移动数据流量10/9/2020移动互联网流量10/9/2020互联网上1分钟10/9/2020互联网上的1天10/9/2020照片10/9/2020大数据时代到来10/9/2020大数据定义10/9/2020大数据例子10/9/2020科学研究催生大数据10/9/2020物联网催生大数据10/9/2020安全监控的数据量10/9/2020环境监测催生大数据10/9/2020医疗病历隐藏大数据10/9/2020国际关注大数据10/9/2020大数据的4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效10/9/2020大数据的4V10/9/2020大数据的划分10/9/2020大数据技术挑战10/9/2020大数据技术挑战10/9/2020大数据平台技术10/9/2020分布式存储与架构10/9/2020大数据的并行处理10/9/2020大数据并行处理分析10/9/2020大数据可视化分析10/9/2020虚拟化与可视化10/9/2020大数据可视化10/9/2020目录S大数据技术概论S云数据库技术S数据挖掘技术S商业智能10/9/2020Google云数据库10/9/2020Google云数据库10/9/2020Google云数据库10/9/2020Google云数据库SGFS架构10/9/2020Google云数据库10/9/2020Google云数据库10/9/2020Google云数据库10/9/2020Google云数据库10/9/2020Google云数据库10/9/2020Google云数据库10/9/2020GoogleVsHadoop10/9/2020SHaddop是什么10/9/2020Hadoop发展编年10/9/202010/9/2020Hadoop子项目10/9/2020Hadoop特性10/9/202010/9/2020Hadoop物理部署10/9/2020Hadoop集群10/9/2020Hadoop用户10/9/2020HDFS10/9/2020HDFS10/9/2020HDFS能做什么S适合S不适合10/9/2020HDFS组件10/9/2020HDFS主要组件功能10/9/2020HDFS架构10/9/2020HDFS文件10/9/2020HDFSNameNode10/9/202010/9/2020HDFSDataNode10/9/2020HDFS可靠性保障10/9/2020HDFS可靠性保障10/9/2020HDFS可靠性保障10/9/2020提升性能的措施10/9/2020HDFS:节点失效是常态10/9/2020DataNode磁盘挂了10/9/2020DataNode机器挂了10/9/2020NameNode挂了10/9/202010/9/2020Client挂了10/9/2020MR+HBase10/9/2020WhyMapReduce?10/9/2020大规模数据分析10/9/2020大规模数据处理10/9/2020MR特性10/9/2020M+R10/9/202010/9/2020MR编程10/9/202010/9/202010/9/202010/9/202010/9/2020单一Reduce处理10/9/2020多个Reduce处理10/9/2020MR流程10/9/202010/9/2020目录S大数据技术概论S云数据库技术S数据挖掘技术S商业智能10/9/2020数据挖掘技术的由来大量信息在给人们带来方便的同时也带来了一大堆问题:第一:是信息过量,难以消化;第二:是信息真假难以辨识;第三:是信息安全难以保证;第四:是信息形式不一致,难以统一处理。网络之后的下一个技术热点10/9/2020数据挖掘技术的由来“要学会抛弃信息”“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?”数据开采和知识发现(DMKD)技术应运而生网络之后的下一个技术热点10/9/2020数据挖掘技术的由来随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。数据爆炸但知识贫乏10/9/2020数据挖掘技术的由来•海量数据搜集•强大的多处理器计算机•数据挖掘算法支持数据挖掘技术的基础10/9/2020数据挖掘技术的由来从商业数据到商业信息的进化进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机,磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS),结构化查询语言(SQL),ODBC,Oracle,Sybase,Informix,IBM,MicrosoftOracle,Sybase,Informix,IBM,Microsoft在记录级提供历史性的、动态数据信息数据仓库;决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP),多维数据库,数据仓库Pilot,Comshare,Arbor,Cognos,Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法,多处理器计算机,海量数据库Pilot,Lockheed,IBM,SGI,其他初创公司提供预测性的信息10/9/2020数据挖掘技术的由来数据挖掘逐渐演变的过程算法学习专家系统机器学习10/9/2020数据挖掘的定义数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。技术上的定义及含义10/9/2020数据挖掘的定义•数据源必须是真实的、大量的、含噪声的;•发现的是用户感兴趣的知识;•发现的知识要可接受、可理解、可运用;•并不要求发现放之四海皆准的知识,仅支持特定的发现问题技术上的定义及含义10/9/2020数据挖掘的定义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。商业角度的定义10/9/2020数据挖掘的定义数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先未知,有效和可实用三个特征.数据挖掘与传统分析方法的区别10/9/2020数据挖掘的定义数据仓库是为决策支持而不是为事务处理所设计的数据库,它是将不同来源的事务处理数据库中对决策有用的数据提取出来而建立。数据仓库的发展是数据挖掘的动力之一。但数据挖掘既可以在数据仓库中进行,也可以在传统的事务型数据库中进行。数据挖掘和数据仓库10/9/2020数据挖掘的定义数据挖掘和数据仓库数据源数据仓库各分公司数据集分析数据集数据挖掘数据集10/9/2020数据挖掘的定义•在线分析处理(OLAP,On-Lineanalyticalprocessing)是一种增强的查询技术,是决策支持领域的一部分。但又不同于传统的查询技术。•传统的查询和报表工具是告诉你数据库中都有什么(whathappened),OLAP则更进一步告诉你下一步会怎么样(Whatnext)、和如果我采取这样的措施又会怎么样(Whatif)。用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。数据挖掘和在线分析处理10/9/2020数据挖掘的定义比如,一个分析师想找到什么原因导致了贷款拖欠,他可能先做一个初始的假定,认为低收入的人信用度也低,然后用OLAP来验证他这个假设。如果这个假设没有被证实,他可能去察看那些高负债的账户,如果还不行,他也许要把收入和负债一起考虑,一直进行下去,直到找到他想要的结果或放弃。数据挖掘和在线分析处理10/9/2020数据挖掘的定义数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。数据挖掘和在线分析处理比如,一个用数据挖掘工具的分析师想找到