云计算技术与大规模数据并行处理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

云计算与大规模数据并行处理技术黄宜华南京大学计算机科学与技术系软件新技术国家重点实验室主要内容第一部分:云计算技术简介简要介绍云计算及其主要特点,云计算发展背景与现状,云计算的关键技术第二部分:MapReduce大规模数据并行处理技术简要介绍Google和HadoopMapReduce大规模数据并行处理技术第三部分:大规模数据并行处理技术研究与应用介绍大规模数据并行处理技术研究,主要讨论大规模数据并行算法研究、大规模数据索引查询技术、以及Hadoop改进和优化技术研究第一部分云计算技术云计算技术简介什么是云计算?CloudComputing,UtilityComputing,ServiceComputing……通过集中式远程计算资源池,以按需分配方式,为终端用户提供强大而廉价的计算服务能力工业化部署、商业化运作的大规模计算能力一种新的、可商业化的计算和服务模式计算能力像水电煤气一样,按需分配使用资源池物理上对用户透明就像在云端一样云计算的主要特点透明的云端计算服务“无限”多的计算资源,强大的计算能力按需分配,弹性伸缩,取用方便,成本低廉资源共享,降低企业IT基础设施建设维护费用应用部署快速而容易软件/应用功能更新方便快捷节省能源,绿色环保集计算技术之大成,具有很强的技术性、工程型特点云计算的分类按云计算服务层面进行分类SaaS:SoftwareasaService提供各种应用软件服务PaaS:PlatformasaService提供软件支撑平台服务IaaS:InfrastructureasaService提供接近于裸机(物理机或虚拟机)的计算资源和基础设施服务云计算硬件平台云计算的分类云计算软件支撑平台云计算应用服务软件SaaS如腾讯云词典PaaS如GoogleAppEngIaaS如AmazonEC2云计算应用按云计算服务层面进行分类云计算的分类按云计算系统类型进行分类美国联邦云计算战略报告中,定义了4中云:公用云:提供面向社会大众、公共群体的云计算服务如Amazon云平台,GoogleAppEng公有云有很多优点,但最大的一个缺点是难以保证数据的私密性私有云:提供面向应用行业/组织内的云计算服务如政府机关、移动通信、学校等内部使用的云平台私有云可较好地解决数据私密性问题,对移动通信、公安等数据私密性要求特别高的企业或机构,建设私有云将是一个必然的选择云计算的分类按云计算系统类型进行分类社区云:提供面向社团组织内用户使用的云计算平台如美国航天局(NASA)Nebula云平台为NASA内的研究人员提供快速的IT访问服务混合云:包含以上2种以上云计算类型的混合式云平台云计算发展背景云计算技术的争议反方:云计算是业界的商业性行为正方:云计算是计算技术的重大发展趋势个人认为:云计算技术有其发展的必然性和必要性云计算发展背景集中分散集中60-70’s:大型机(mainframe),集中式、终端用户共享80-90’s:个人计算机,人手一台95-06:互联网/网格/集群07-现在:云计算“天下大势,合久必分,分久必合”“否定之否定,螺旋式上升”云计算发展背景应用需求背景大粒度应用系统的规模越来越大应用系统数据量越来越大–中国移动全国每天的电话短信通联记录数据达到500TB;而中国移动一个流量最大的省每天的通联记录数据可达到65TB–阿里巴巴电子商务平台日处理数据量将达到500TB–百度存储100-1000PB数据,每日处理10-100PB;存储1千-1万亿网页,索引100-1000亿网页–2009年eBays数据仓库,一个有2PB用户数据,另一个6.5PB用户数据包含170TB记录且每天增长150GB个记录–Facebook:2.5PB用户数据,每天增加15TB–仅2011年,全世界产生1.8ZB(1.8万亿GB)数据,相当于每位美国人每分钟写3条Twitter,不停地写2.7万年–YouTube每分钟有13h视频上传,每天数据10TB相当于好莱坞每周发行57000部电影云计算发展背景应用需求背景大粒度应用系统的规模越来越大超大的计算量和计算复杂度–用SGI工作站进行电影渲染时,每帧一般需要1~2小时–一部2小时的电影渲染需要:2小时x3600秒x24帧x(1~2小时)/24小时=20~40年!–特殊场景每帧可能需要60个小时(影片“星舰骑兵”中数千只蜘蛛爬行的场面),用横向4096象素分辨率进行渲染时,如果以每帧60个小时的速度,则1秒的放映量(24帧)需要60天的渲染时间,1分钟则需要100年!云计算发展背景应用需求背景小粒度应用系统资源重复、无法共享企业内大量的小粒度应用系统需要添置独立的硬件资源,但忙闲不均,忙时资源不够,闲时资源空置,资源无法相互调配和共享,造成资源和资金浪费淘宝网案例:后台设置约15万台服务器,服务于不同的应用系统;而不同应用系统的负载不同,忙闲不均;据淘宝测算,如能在不同应用间合理调配计算资源,大约可省去2/3约10万台服务器,以每台3万元计算,约可节省30亿元!云计算发展背景技术发展背景贯穿整个计算机技术发展历史的两条主线:计算能力角度:不断追求计算性能提升无论是微处理器还是巨型机,近20年性能提高3千多倍使用角度:不断追求易用性和灵活性可获得性、易用性、可扩展性和灵活性不断提升Intel微处理器每秒1千8百亿次浮点运算!近20年性能提高3千多倍不断追求计算性能提升巨型机:中国天河一号,2010年底世界TOP500强第1名每秒2千5百多万亿次浮点运算,近20年性能提高3千多倍亿亿千万亿百万亿十万亿万亿千亿百亿十亿亿TOP500系统体系结构演化向量机=SMP=MPP=ClusterCluster以高获得性、高可扩展性优势成为发展主流不断追求方便性和灵活性云计算发展背景云计算发展背景技术发展背景虽然新的计算技术在易用性和灵活性上有不断提高,但仍然存在很大不足:计算能力仍取决于硬件计算资源,计算能力不够时,需要不断增加硬件资源;空闲时,硬件资源闲置浪费,不能共享;计算能力的获取和使用上仍然存在较大的制约。云计算正是一种解决这一问题的新的计算服务模式,其基本思路是集中计算资源提供巨大的计算能力的同时,提供使用上的方便性和灵活性云计算发展背景技术发展背景云计算是诸多计算技术发展成熟与自然进化的产物计算机虚拟化技术、大规模并行计算、分布式存储、面向服务构架、公用服务计算等诸多技术广泛应用计算机系统规模和处理能力迅速扩大技术发展成熟与自然进化的结果云计算发展背景“Thecomputationandthedataandsoforthareintheservers.…Wecallitcloudcomputing.”(ErickSchmidt,2006)“computationmaysomedaybeorganizedasapublicutility”(JohnMcCarthy,1960)“云计算”的概念在2006年由Google公司正式提出但最初的思想雏形可追溯到更早的时间云计算发展背景云计算发展意义云计算出现的意义,可与20世纪电力工业的变革相比20世纪初电力工业变革的几项关键技术•发电容量大幅提升•交流电的出现(1888)•电表的发明和使用(1894)20世纪初私有电厂向公共电力服务转化过程•1900:美国有5万多个私有小型电厂,3千6百个中心电站•1907:40%并入了公共电力服务系统•1920:70%并入了公共电力服务系统•1930:80%~90%并入了公共电力服务系统云计算发展背景云计算发展意义云计算的一个重要目标是,把计算能力变成像水电等公用服务一样,随用随取,按需使用。故此也有人把云计算称为“UtilityComputing”这里Utility不是效用、实用的意思,在英文里Utility有一个专门的含义,专指类似于水电煤气的公用服务,故UtilityComputing应译为“公用服务计算”云计算发展背景云计算发展意义2011年2月8日美国奥巴马总统签署了联邦云计算战略报告,制定该报告的目的:•TheFederalGovernment’scurrentInformationTechnology(IT)environmentischaracterizedbylowassetutilization,afragmenteddemandforresources,duplicativesystems,environmentswhicharedifficulttomanage,andlongprocurementleadtimes.TheseinefficienciesnegativelyimpacttheFederalGovernment’sabilitytoservetheAmericanpublic.•Cloudcomputinghasthepotentialtoplayamajorpartinaddressingtheseinefficienciesandimprovinggovernmentservicedelivery.Thecloudcomputingmodelcansignificantlyhelpagenciesgrapplingwiththeneedtoprovidehighlyreliable,innovativeservicesquicklydespiteresourceconstraints.美国联邦政府部门计划用全部的800亿美元IT预算中的200亿作为云计算平台开发建设的费用。美国联邦云计算战略报告,2011/2/8云计算发展背景云计算发展意义美国联邦云计算战略报告认为:•CloudisafundamentalshiftinITCloudcomputingenablesITsystemstobescalableandelastic.Endusersdonotneedtodeterminetheirexactcomputingresourcerequirementsupfront.Instead,theyprovisioncomputingresourcesasrequired,on-demand.Usingcloudcomputingservices,aFederalagencydoesnotneedtoowndatacenterinfrastructuretolaunchacapabilitythatservesmillionsofusers•CloudcomputingcansignificantlyimprovepublicsectorITAnumberofgovernmentagenciesareadoptingcloudtechnologiesandarerealizingconsiderablebenefits.Forinstance,NASANebula,throughacommunitycloud,givesresearchersaccesstoITservicesrelativelyinexpensivelyinminutes.Priortoadoptingthisapproach,itwouldtakeresearchersmonthstoprocureandconfigurecomparableITresourcesandsignificantmanagementoversighttomonitorandupgradesystems.ApplyingcloudtechnologiesacrosstheentireFederalGovernmentcanyieldtremendousbenefitsinefficiency,agility,andinnovation.云计算发展现状与趋势业界云计算技术的发展自2006年Google公司提出云计算技术的概念后,全球IT著名企业纷纷予以极大关注,并投入了巨大力量进行云计算技术的研究开发。GoogleCloudInfrastructureSchedulerC

1 / 168
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功