第一部分:云计算与大数据技术简介简要介绍云计算和大数据技术的发展背景、主要技术特点、现状与趋势第二部分:大数据研究涉及的层面和主要研究内容主要介绍大数据研究所涉及的各个层面以及各层面下的主要研究内容和热点问题第三部分:大数据并行处理技术研究简要介绍在大数据方面所开展的一些工作第一部分云计算与大数据技术简介云计算发展的背景从计算模式的演变看计算技术发展的趋势•计算技术发展的历史就是不同层面上计算模式发展和演变的历史;而相关支撑技术的成熟为计算模式的演变和实现提供了基础和条件•计算模式的演进过程是受到一定的发展规律支配的,存在一定的必然性云计算发展的背景从计算模式的演变看计算技术发展的趋势•计算模式变革的两大根本目标:–更方便快捷的使用方式–更强大的计算能力在提供更强大计算能力的同时,提供更加方便快捷的使用方式,是贯穿整个计算技术发展的主线云计算发展的背景集中分散集中60-70’s:大型机(mainframe),集中式、分时共享80-90’s:个人计算机人手一台95-06:互联网/网格/集群/数据中心从计算模式的演变看计算技术发展的趋势云计算发展的背景60-70’s:大型机(mainframe),集中式、分时共享IBM创始人托马斯·沃森(ThomasJ.Watson):“我认为全球大概只需要五台计算机就够了。”60年代,比尔盖茨读中学时需要以每小时40美金的费用租用大型机终端做程序设计。从计算模式的演变看计算技术发展的趋势云计算发展的背景80-90’s:个人计算机(PC)人手一台因此,比尔盖茨产生了一个伟大的梦想:“让每一张桌子上有一台电脑!”这个梦想成就了微软,推动了个人计算时代的来临。比尔盖茨,1981年表示:“640KB内存应该对任何人都够用了。”1980年微软开发DOS时曾认为:“DOS只能管理1MB的空间,因为我们无法想象还有什么应用软件会需要更多的内存。”从计算模式的演变看计算技术发展的趋势云计算发展的背景95-06:互联网/网格/集群/数据中心分离的PC需要互连以交换信息共享资源互联网连接更多的计算资源以解决大的计算问题网格计算用很多微处理器构建具有大型机处理能力的系统集群很多的集群存储处理大量的信息数据中心Yahoo,Amazon,Google……从计算模式的演变看计算技术发展的趋势云计算发展的背景2006年至今“更分散同时也更集中”–前端更加分散:2006年后,一方面前端更加分散,以智能手机和IPad为代表的智能移动终端,推动移动计算技术发展“PC太大了,每个人口袋里应该放一台!”传感网络、普适计算、物联网概念和技术“每一粒沙子都应该是一台计算机!”从计算模式的演变看计算技术发展的趋势移动计算和物联网云计算发展的背景2006年至今“更分散同时也更集中”–后端更加集中:另一方面,后端更加集中,出现云计算概念和技术,让计算成为像水电一样的公共服务,便于资源共享,以及提供超大的计算能力从计算模式的演变看计算技术发展的趋势云计算云计算发展的背景从计算模式的演变看计算技术发展的趋势从信息处理及其模式看物联网的发展•信息是物理世界中对象和事物状态属性的抽象和表示•信息处理是借助于计算机对信息进行加工处理的过程•信息处理完成后将反作用于物理世界中的对象和事物计算机物理世界信息云计算发展的背景从计算模式的演变看计算技术发展的趋势从信息处理及其模式看物联网的发展按照从物理对象获取和反馈信息的方式和对象与计算系统之间的耦合度,信息处理可分为4种模式:早期计算模式主要是离线获取、离线反馈的松耦合模式,信息处理和使用的效率不高离线获取在线反馈云计算发展的背景从计算模式的演变看计算技术发展的趋势从信息处理及其模式看物联网的发展而现在越来越强调对物理对象信息处理的普遍性、时效性和方便性,因此越来越需要在线获取和在线反馈的紧耦合模式,这就产生“物联网”的概念和计算模式人作为物理世界中一类特殊对象、以及控制和使用计算系统的主体,如果我们综合考虑人、计算系统和物理世界对象三者间的交互作用,这就产生“人机物系统”的概念和计算模式云计算发展的背景从计算模式的演变看计算技术发展的趋势云计算与物联网•物联网是前端计算能力向物理世界的前伸,使得计算系统与物理世界对象深度融合,获取信息更加快速和多样,信息量迅猛增长•云计算则是计算系统后端处理能力的拓展,为快速有效处理大量物理世界的信息提供有效的计算手段和计算能力•两者将相互结合,推动新的计算模式和计算技术发展什么是云计算?工业化部署、商业化运作的大规模计算能力一种新的、可商业化的计算和服务模式计算能力像水电煤气一样,按需分配使用资源池物理上对用户透明就像在云端一样云计算概念的由来“Thecomputationandthedataandsoforthareintheservers.…Wecallitcloudcomputing.”(ErickSchmidt,2006)“computationmaysomedaybeorganizedasapublicutility”(JohnMcCarthy,1960)“云计算”的概念在2006年由Google公司正式提出但最初的思想雏形可追溯到更早的时间云计算的发展目标云计算的一个重要目标是,把计算能力变成像水电等公用服务一样,随用随取,按需使用。故此也有人把云计算称为“UtilityComputing”这里Utility不是效用、实用的意思,在英文里Utility有一个专门的含义,专指类似于水电煤气的公用服务,故UtilityComputing应译为“公用服务计算”云计算的主要特点透明的云端计算服务“无限”多的计算资源,提供强大的计算能力按需分配,弹性伸缩,取用方便,成本低廉资源共享,降低企业IT基础设施建设维护费用应用部署快速而容易软件/应用功能更新方便快捷节省能源,绿色环保集计算技术之大成,具有很强的技术性、工程型特点云计算的分类按云计算服务层面进行分类SaaS:SoftwareasaService提供各种应用软件服务PaaS:PlatformasaService提供软件支撑平台服务IaaS:InfrastructureasaService提供接近于裸机(物理机或虚拟机)的计算资源和基础设施服务云计算硬件平台云计算的分类云计算软件支撑平台云计算应用服务软件SaaS如腾讯云词典PaaS如GoogleAppEngIaaS如AmazonEC2云计算应用按云计算服务层面进行分类云计算的分类按云计算系统类型进行分类美国联邦云计算战略报告中,定义了4中云:公用云:提供面向社会大众、公共群体的云计算服务如Amazon云平台,GoogleAppEng公有云有很多优点,但最大的一个缺点是难以保证数据的私密性私有云:提供面向应用行业/组织内的云计算服务如政府机关、移动通信、学校等内部使用的云平台私有云可较好地解决数据私密性问题,对移动通信、公安等数据私密性要求特别高的企业或机构,建设私有云将是一个必然的选择云计算的分类按云计算系统类型进行分类社区云:提供面向社团组织内用户使用的云计算平台如美国航天局(NASA)Nebula云平台为NASA内的研究人员提供快速的IT访问服务混合云:包含以上2种以上云计算类型的混合式云平台云计算发展的推动力应用需求推动力大粒度应用系统日益增多,系统规模日益扩大应用系统数据量爆炸性增长–中国移动全国每天的电话短信通联记录数据达到500TB;而中国移动一个流量最大的省每天的通联记录数据可达到65TB–阿里巴巴电子商务平台日处理数据量将达到500TB,目前淘宝交易总数据量已经达到1500PB–百度存储100-1000PB数据,每日处理10-100PB;存储1千-1万亿网页,索引100-1000亿网页–仅2011年,全世界产生1.8ZB(1.8万亿GB)数据,相当于每位美国人每分钟写3条Twitter,不停地写2.7万年–YouTube每分钟有13h视频上传,每天数据10TB相当于好莱坞每周发行57000部电影云计算发展的推动力应用需求推动力大粒度应用系统日益增多,系统规模日益扩大超大的计算量和计算复杂度–用SGI工作站进行电影渲染时,每帧一般需要1~2小时–一部2小时的电影渲染需要:2小时x3600秒x24帧x(1~2小时)/24小时=20~40年!–特殊场景每帧可能需要60个小时(影片“星舰骑兵”中数千只蜘蛛爬行的场面),用横向4096象素分辨率进行渲染时,如果以每帧60个小时的速度,则1秒的放映量(24帧)需要60天的渲染时间,1分钟则需要100年!云计算发展的推动力应用需求推动力小粒度应用系统资源重复、无法共享企业内大量的小粒度应用系统需要添置独立的硬件资源,但不同应用系统忙闲不均,忙时资源不够,闲时资源空置,资源无法相互调配和共享,造成资源和资金浪费淘宝网案例:后台设置约15万台服务器,服务于不同的应用系统;而不同应用系统的负载不同,忙闲不均;据淘宝测算,如能在不同应用间合理调配计算资源,大约可省去2/3约10万台服务器,以每台3万元计算,可节省约30亿元!云计算发展的推动力技术发展推动力云计算是诸多计算技术发展成熟与自然进化的产物计算机虚拟化技术、大规模并行计算、分布式存储、面向服务构架、公用服务计算等诸多技术广泛应用计算机系统规模和处理能力迅速扩大技术发展成熟与自然进化的结果云计算发展的重要性“从美国来讲,云计算已经是无可争议的主流……,美国整个信息工业都是以云计算为主流往前推动的。云计算对整个信息技术和整个社会将带来非常非常大的影响。”微软全球副总裁陆奇,2012年10月29日,“中国云·移动互联网创新大奖赛决赛颁奖典礼暨创新创业论坛”主题报告云计算发展的重要性“是什么样的推动力产生云计算?什么样的大浪潮可以把云计算继续往前推动?我个人的体会,就是计算模式……。一种计算模式,真正有强大生命力的话,是必须要产生强大的社会经济价值,市场价值,同时对社会造成公益。”微软全球副总裁陆奇,2012年10月29日,“中国云·移动互联网创新大奖赛决赛颁奖典礼暨创新创业论坛”主题报告云计算发展的重要性2011年2月8日美国奥巴马总统签署了联邦云计算战略报告,制定该报告的目的:•TheFederalGovernment’scurrentInformationTechnology(IT)environmentischaracterizedbylowassetutilization,afragmenteddemandforresources,duplicativesystems,environmentswhicharedifficulttomanage,andlongprocurementleadtimes.TheseinefficienciesnegativelyimpacttheFederalGovernment’sabilitytoservetheAmericanpublic.•Cloudcomputinghasthepotentialtoplayamajorpartinaddressingtheseinefficienciesandimprovinggovernmentservicedelivery.Thecloudcomputingmodelcansignificantlyhelpagenciesgrapplingwiththeneedtoprovidehighlyreliable,innovativeservicesquicklydespiteresourceconstraints.美国联邦政府部门计划用全部的800亿美元IT预算中的200亿作为云计算平台开发建设的费用。美国联邦云计算战略报告,2011/2/8云计算发展的重要性美国联邦云计算战略报告认为:•CloudisafundamentalshiftinITCloudcomputingenablesITsystemstobescalableandelastic.Endusersdonotneedtodeterm