1云计算、大数据与智慧城市建设2中国联通青海省分公司2012.08——引领城市信息化新发展3•1.云计算概述•2.什么是大数据•3.智慧城市建设思路讲解大纲4云计算(cloudcomputing)定义•维基百科“云计算,是这样一种计算方式,计算资源是动态易扩展而且虚拟化的,往往通过互联网提供。用户不需要了解‘云’中基础设施的细节,不必具有相应的专业知识,也无需直接进行控制”。•Baidu百科云计算是网格计算(GridComputing)、分布式计算(DistributedComputing)、并行计算(ParallelComputing)、效用计算(UtilityComputing)、网络存储(NetworkStorageTechnologies)、虚拟化(Virtualization)、负载均衡(LoadBalance)等传统计算机技术和网络技术发展融合的产物。云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。云计算本质上是计算池5云计算的概念模型6云计算的类别将基础设施作为服务IaaS(InfrastructureasaService)将平台作为服务PaaS(PlatformasaService)将软件作为服务SaaS(SoftwareasaService)如:GoogleAppEngineMicrosoftWindowsAzure如:SalesforceonlineCRM如:AmazonEC2/S3专用通用云计算服务模式速响应能力提供的是“服务”市场成功案例应用、流程和信息作为服务(SaaS)(行业应用,CRM,ERP,OA等)平台作为服务(PaaS)(优化的中间件–应用服务器、数据库服务器等)基础架构作为服务(IaaS)(虚拟的服务器、存储、网络)面向企业内部应用私有云提升资源利用率,降低运行成本提升管理效率,提高运维管理质量提高基础资源部署速度,提高对业务的快混合云公共云面向社会公众;提供面向客户的多种商业服务模式;8进一步理解PaaS•PaaS(Platformasaservice):平台即服务。•所谓PaaS实际上是指将软件研发的平台(业务基础平台)作为一种服务,以SaaS的模式提交给用户。因此,PaaS也是SaaS模式的一种应用。但是,PaaS的出现可以加快SaaS的发展,尤其是加快SaaS应用的开发速度。•PaaS之所以能够推进SaaS的发展,主要在于它能够提供企业进行定制化研发的中间件平台,同时涵盖数据库和应用服务器等。•PaaS能将现有各种业务能力进行整合,具体可以归类为应用服务器、业务能力接入、业务引擎、业务开放平台,向下根据业务能力需要测算基础服务能力,通过IaaS提供的API调用硬件资源,向上提供业务调度中心服务,实时监控平台的各种资源,并将这些资源通过API开放给SaaS用户。9云计算发展现状•Amazon研发了弹性计算云EC2(ElasticComputingCloud)和简单存储服务S3(SimpleStorageService)为企业提供计算和存储服务。•诞生两年时间,Amazon上的注册开发人员就多达44万人,其中包括为数众多的企业级用户。Google搜索引擎建立在分布在30多个站点、超过200万台服务器构成的云计算设施的支撑之上,这些设施的数量正在迅猛增长。Google的一系列成功应用,包括Google地球、地图、Gmail、Docs等也同样使用了这些基础设施。目前,Google已经允许第三方在Google的云计算中通过GoogleAppEngine运行大型并行应用程序。Hadoop模仿了Google的实现机制。10云计算发展现状•IBM在2007年11月推出了“改变游戏规则”的“蓝云”计算平台,为客户带来即买即用的云计算平台。•IBM正在与17个欧洲组织合作开展名为RESERVOIR云计算项目,以“无障碍的资源和服务虚拟化”为口号。欧盟提供了1.7亿欧元作为部分资金。•2008年8月,IBM宣布将投资约4亿美元用于其设在北卡罗来纳州和日本东京的云计算数据中心改造。IBM在2009年在10个国家投资3亿美元建13个云计算中心。11云计算实现机制12云计算技术体系结构管理中间件资源管理任务管理用户管理负载均衡故障检测映像部署和管理使用计费用户环境配置用户交互管理故障恢复监视统计帐号管理安全管理访问授权综合防护安全审计服务接口服务注册服务查找服务访问服务工作流SOA构建层计算资源池资源池计算机存储器数据库物理资源存储资源池网络资源池数据资源池软件资源池软件网络设施身份认证任务执行任务调度生命期管理13•云计算(CloudComputing)是能够提供动态资源池、虚拟化和高可用性的下一代计算模式。如果把一个计算的资源,比如一台服务器,看成一个小水滴,当很多资源汇聚在一起的时候,它就形成了计算的云,正如我们不关心水滴是怎么产生的,用户也不需要关心计算资源位于哪台物理的服务器上。用户关心的是需要什么样的计算能力,需要什么时刻拥有这些计算能力。云计算管理平台可以为用户提供“按需计算”服务。•云计算的主要特点是分布式、虚拟化、动态的可扩展性、灵活性。云计算平台使用的物理节点是分布的。每一个应用部署的环境和物理平台是没有关系的。通过虚拟平台进行管理达到对应用进行扩展、进行迁移、进行备份,种种操作通过虚拟化层次完成。通过动态的扩展虚拟化的层次达到对以上应用进行扩展的目的。可以把各种IT资源虚拟化,放在云计算平台中统一管理。•云计算主要是针对现有的以及即将出现的大规模数据密集型工作负载,它将能够动态地分配资源、调整负载。与传统以PC为中心的计算不同,云计算把计算资源和数据资源分布在大量的分布式计算机上,这使计算和存储获得很强的可扩展能力,并方便用户通过多种接入方式,例如电脑、手机等方便地接入网络获得应用和服务。理解云计算14•1.云计算概述•2.什么是大数据•3.智慧城市建设思路讲解大纲15不知道BIGDATA?你out了!16雅虎提供静态的导航信息Google分析用户搜索信息,满足用户需求Facebook用户产生内容,创造需求。前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。它在满足你需求的同时,也在创造新的需求。前者的代表是Google,后者的典型则是Facebook。谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等信息也免费的送给了Google。因此Google的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。广告的价值就越高。这是正向的循环,谷歌通过好用的、免费的软件产品,换取对用户的理解;然后通过精准的广告,找到生财之道。颠覆了微软卖软件拷贝赚钱的模式。成为互联网的巨擘。互联网越来越智能Google精确掌握用户行为、获取需求17微博为新浪带来巨大价值马云的判断来自于数据分析“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;而我们提前半年时间从询盘上推断出世界贸易发生变化了。”马云对未来的预测,是建立在对用户行为分析的基础上。通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。腾讯在天津投资建立亚洲最大的数据中心;百度也在投资建立大数据处理中心;新浪推出企业微博产品,提供精准的数据分析服务。18•大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取XIEQU、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。•大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。•大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。采用SOA的体系架构。•大数据当前的主流实现平台———并行数据库(分布式数据库)、MapReduce及基于两者的混合架构.•MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念Map(映射)和Reduce(化简),和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。•我们可以把MapReduce理解为,把一堆杂乱无章的数据按照某种特征归纳起来,然后处理并得到最后的结果。什么是大数据19什么是大数据何为大?—数据度量1Byte=8Bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes1EB=1,024PB=1,048,576TB=1,152,921,504,606,846,976Bytes1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes大数据的4V特性体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效21大数据与云计算22大数据与云计算•云计算的模式是业务模式,本质是数据处理技术。(肉体+灵魂)•数据是资产,云为数据资产提供存储、访问和计算。•盘活资产,使其为国家治理、企业决策、个人生活服务,是大数据核心议题,也是云计算的最终方向。23大数据不仅仅是“大”多大?PB级比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值24软件是大数据的引擎•和数据中心(DataCenter)一样,软件是大数据的驱动力.•软件改变世界!25大数据生态:软件是引擎26大数据的应用不仅仅是精准营销•通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景消费行业金融服务食品安全医疗卫生军事交通环保电子商务气象27管理大数据“易”,理解大数据“难”•目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心.•非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等.28大数据相关技术数据处理:自然语言处理技术统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真分析技术大数据技术数据采集:ETL工具(数据提取、转换和加载)数据存取:关系数据库;NoSQL(非关系型数据库);SQL等基础架构支持:云存储;分布式文件系统(DistributedFileSystem)等计算结果展现:云计算;标签云;关系图等29大数据相关技术存储结构化数据:•海量数据的查询、统计、更新等操作效率低非结构化数据•图片、视频、w