大数据架构云南机场集团有限责任公司范怀炜2017年3月未来10年最具经济影响力的颠覆性技术1.移动互联网(大数据、BI、自然人机接口)2.知识工作自动化3.物联网4.云5.先进机器人6.自动汽车7.下一代基因组学8.储能技术9.3D打印10.先进油气勘探及开采11.先进材料12.可再生能源024681012未来10年最具经济影响力的颠覆性技术(资料来源《麦肯锡研究报告》)至2025年的预估潜在经济影响上限(单位:万亿美元)大数据分析系统的思维逻辑数据计算数据存储数据采集数据展示数据展示数据采集数据计算数据存储系统使用思维系统建设思维——以系统建设思维,交流讨论大数据系统体系建设规划搭平台采数据建模型编代码图呈现第一阶段一次建设逐步扩展可查询简应用——巧妇有米可炊第二阶段重复迭代持续滚动可分析展现深入应用——巧妇百变花样主要内容1.大数据的基本概念2.大数据存储体系(云计算平台)3.大数据的计算体系(分布式计算)4.大数据的数据采集体系5.大数据的典型应用6.大数据可视化7.大数据与安全本PPT用于教学研讨,引用文档较多且并未全部列出来源,在此一并谢过!大数据是什么?大数据(BigData)一词正式出现是在2011年麦肯锡全球研究院发布的《大数据:下一个创新、竞争和生产力的前沿》研究报告中。大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术则特指新一代的创新型技术,能够突破常规软件的限制,是对大数据进行采集、存储、和处理的技术的统称。——大数据需要特殊的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统、流计算、深度学习、数据可视化等。——这些年来,大数据先是被神化,继而被“泛华”化。目前,其实谁也不知道别人所谓的大数据指的是什么。有时候大数据的定义里既有平台(硬件)又有分析技术,有时候只是一个硬件平台或者是一个互联网上的应用或者是传统的BI(数据仓库+统计分析)。——大数据的主要作用是还原过去事实,预测未来变化。大数据的特征①数据量大(Volume):通常指10TB以上规模的数据量。②数据种类多(Variety):来源包括传感器、智能设备、社交网络数据;结构包括结构化、半结构化、非结构化,如文本、图片、音频、视频、地理位置等类型数据。③数据增长及处理速度快(Velocity):大数据的处理要求是在线的,1秒定律。④数据的隐藏价值大(Value):数据的单位价值密度低,但大数据的战略意义不在于掌握庞大的数据,而在于对这些含有意义的数据进行专业化处理,通过“加工”实现数据的“增值”。⑤准确性(Veracity):IBM提出,强调数据质量。(5V)⑥可视性(Visualization):⑦合法性(Validity):大数据技术栈技术分类技术与工具产品举例基础架构支持云计算平台OpenStack,CloudStack,ApacheHadoop,10genMongoDB;GoogleAppEngine,微软Azure,AmazonEC2/S3/SimpleDB,EMCAtoms云存储,阿里云数据采集数据采集工具Flume,Scribe,Chukwa,Kafka,网络爬虫ETL工具AscentialDatastage,InformaticaPowercenter,NCRTeradataETLAutomation;KETTLE;Sqoop数据总线(ESB)OracleServiceBus,IBMWebSphereESB,MicrosoftESB,JBOSSSOAPlatform数据存储分布式文件系统GoogleGFS,HadoopHDFSSQL数据库ORACLE,DB2,MSSQLServer,MySQLNoSQL数据库HBase,MongoDB,Hypertable,Cassandra,CouchDBNewSQL数据库H-Store,VoltDB,NuoDB,TokuDB,MemSQL数据计算查询、统计、分析……数据预测与挖掘……深度学习……社交计算、计算广告……虚拟现实、增强现实……展现与交互图形与报表……可视化工具……主要内容1.大数据的基本概念2.大数据存储体系(云计算平台)3.大数据的计算体系(分布式计算)4.大数据的数据采集体系5.大数据的典型应用6.大数据可视化7.大数据与安全云计算的概念提交请求硬件软件服务存储网络云用户按需付费服务数据在云端:不怕丢失,不必备份,可以任意点恢复;软件在云端:不必下载自动升级;无所不在的计算:在任何时间,任意地点,任何设备登录后就可以进行计算服务;无限强大的计算:具有无限空间,无限速度。现阶段广为接受对云计算的定义是美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。云计算的特征:①超大规模②按需服务③高可用性④高可扩展性⑤高可靠性⑥虚拟化⑦高性价比云计算的发展线路并行计算集群计算网格计算云计算云计算的产生和发展大数据与云计算的关系大数据应用运行在云平台之上云计算是硬件资源的虚拟化,而大数据是海量数据的高效处理。云计算与大数据是一对相辅相成的概念,而他们的关系则是静与动的关系:云计算强调的是计算和存储,这是动的概念;而数据是计算的对象,是静的概念。如果数据是财富,那么大数据就是宝藏。云计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花。没有大数据的存储和积淀,云计算也只能是杀鸡用的宰牛刀!大数据的信息隐私保护是云计算大数据快速发展和运用的重要前提。没有信息安全也就没有云服务的安全。产业及服务要健康、快速的发展就需要得到用户的信赖,就需要科技界和产业界更加重视云计算的安全问题,更加注意大数据挖掘中的隐私保护问题。大数据是数据资产,云计算则为盘活数据资产提供了手段。传统IT“烟囱”模式部署架构云计算融合模式部署架构云计算平台框架结构基于云计算总体架构下的大数据分析云解决方案示例云计算基础——两种虚拟化方案即虚拟机与容器1.虚拟机(VM):基于Hypervisor(运行在物理服务器和操作系统之间的中间软件层,可以看作是虚拟环境中的“元”操作系统),代表产品如Vmware,XEN,KVM,Hyper-V。2.容器(Container):一种轻量级虚拟方案,又称操作系统级虚拟化,要求在一个操作系统实例里,将系统资源(CPU、内存、网卡、磁盘等)按照类型和需求分割给多个对象独立使用,对象之间保持独立。VM虚拟化与Container各有优势,区别如下:1)VM虚拟化的对象是虚拟机,即把一台物理机虚拟成多台虚拟子机;Container的操作对象是进程,为每个进程分配不同系统资源,进程与进程之间独立。产品如Docker2)VM虚拟化组件可以直接运行在硬件上,Container只能运行在操作系统之上。3)VM虚拟组件负责管理物理机或虚拟子机的硬件资源,Container环境中,硬件资源由操作系统自身负责管理。虚拟机与容器对比特性容器虚拟机启动秒级分钟级硬盘使用一般为MB一般为GB性能接近原生弱于原生系统支持单机支持上千个容器一般几十个云计算基础——软件定义网络(SDN)软件定义网络(SoftwareDefinedNetwork)是一种新型网络架构,核心技术OpenFlow通过将网络设备控制面与数据面分离开来,从而实现网络流量的灵活控制,使网络作为管道变得更加智能。传统IT架构中的网络,根据业务需求部署上线以后,如果业务需求发生变动,重新修改相应网络设备(路由器、交换机、防火墙)上的配置是一件非常繁琐的事情。SDN所做的事是将网络设备上的控制权分离出来,由集中的控制器管理,无须依赖底层网络设备(路由器、交换机、防火墙),屏蔽了来自底层网络设备的差异。而控制权是完全开放的,用户可以自定义任何想实现的网络路由和传输规则策略,从而更加灵活和智能。假如网络中有SIP、FTP、流媒体几种业务,网络的总带宽是一定的,那么如果某个时刻流媒体业务需要更多的带宽和流量,在传统网络中很难处理,在SDN改造后的网络中这很容易实现,SDN可以将流量整形、规整,临时让流媒体的“管道”更粗一些,让流媒体的带宽更大些,甚至关闭SIP和FTP的“管道”,待流媒体需求减少时再恢复原先的带宽占比。正是因为这种业务逻辑的开放性,使得网络作为管道的发展空间变为无限可能。如果未来云计算的业务应用模型可以简化为云-管-端,那么SDN就是管这一环的重要技术支撑。目前,包括HP、IBM、Cisco、NEC以及国内的华为和中兴等传统网络设备制造商都已纷纷加入到OpenFlow的阵营,同时有一些支持OpenFlow的网络硬件设备已经面世。云计算基础——软件定义存储(SDS)软件定义存储(SDS)是一种数据存储方式,所有存储相关的控制工作都仅在相对于物理存储硬件的外部软件中,主要实现的功能就是整合散落的硬盘或者磁盘阵列,提高存储服务。软件定义存储的三种选择:1)第一种就是与Hypervisor集成或作为其堆栈的一部分存在。VMware目前开发了VirtualSAN,该公司所谓的软件定义存储层正是作其软件堆栈的一部分存在。Hyper-V则拥有所谓的集群存储空间并且直接集成进微软的Hyper-V堆栈。2)第二种包含了第三方与hypervisor无关的产品,它们能够与VMware、Hyper-V、KVM或是思杰的产品协同,有一些软件产品功能完备,甚至在某些方面超越领先厂商,像是Maxta、StarwindSoftware、StoreMagic。它们提供同样的功能,但并非致力于某一特定Hypervisor。它们创建的存储仓库能够在多个不同的hypervisor间共享。3)第三种是虚拟存储,应用已久,包含IBMSpectrumVirtualize、DataCoreSANsymphony产品,它们将虚拟所有的硬件资源,将其抽象为软件层以更高效的分配资源。当某个应用负载需要配置具有特定数据保护机制的存储,只需要从管理界面选择配置,它将随存储自动分配。云计算基础——超融合架构(软件定义数据中心)超融合基础架构(Hyper-ConvergedInfrastructure,或简称“HCI”)也被称为超融合架构,是指在同一套单元设备(x86服务器)中不仅仅具备计算、网络、存储和服务器虚拟化等资源和技术,而且还包括缓存加速、重复数据删除、在线数据压缩、备份软件、快照技术等元素,而多节点可以通过网络聚合起来,实现模块化的无缝横向扩展,形成统一的资源池。是实现“软件定义数据中心”(SDDC)的终极技术途径。与传统SAN存储结构不同,超融合架构不用把数据从存储端取出来,然后通过网络传输到计算端,而是将计算直接分发到存储上运行,将计算作为传输单元进行传输,这样大量的存储数据都是本地访问,不需要再跨网络传输了,“计算”和“存储”融合在了一台服务。超融合特点:以软件为核心,软件定义一切1)通用的X86节点融合存储、计算、网络、虚拟化于一身2)通过增加节点的方式横向扩容3)高度自动化,部署、维护简便4)众多节点组成一个整体,统一管理分配资源5)有统一的数据保护策略包括系统级别和虚拟机级别6)由单独的厂商进行设计、提供和维护开源云管理平台OpenStackOpenStack覆盖了网络、虚拟化、操作系统、服务器等各个方面,右图是系统的服务架构图,包括以下服务:①计算:Nova②对象存储:Swift③镜像服务:Glance④身份服务:Keystone。⑤网络&地址管理:Neutron⑥块存储:Cinder⑦UI界面:Horizon⑧测量:Ceilometer⑨部署编排:Heat⑩数据库服务:Trove四大开源云管理平台简介1.OpenStack是一个由NA