云计算与云数据管理――陆嘉恒

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

云数据管理技术与挑战陆嘉恒中国人民大学云计算与云数据管理概述各大公司的云数据管理技术人民大学研究团队的工作云数据管理的研究挑战云数据管理的新思维云数据管理准则(1)•PartitionEverythingandkey-valuestorage•切分万物以治之•数据库的第一范式无法满足云数据管理准则(2)•EmbraceInconsistency•容不同乃成大同•数据库的ACID的属性无法满足云数据管理准则(3)•Backupeverythingwiththreecopies•狡兔三窟方高枕•每个数据都有三个备份,达到99.999999%的保障度云数据管理准则(4)•Scalableandhighperformance•运筹沧海量兼容•提供一个可伸缩的,处理和分析海量数据的平台拨云见日•切分万物以治之•容不同乃成大同•狡兔三窟方高枕•运筹沧海量兼容主要内容11云计算与云数据管理概述各大公司的云数据管理技术人民大学研究团队的工作云数据管理的研究挑战主要内容Google文件系统(GFS)•适用于大规模数据密集型应用程序的可扩展分布式文件系统•多个部署GFS的集群已经建成•目前最大的集群为:–10000多个存储节点–300+PB的存储容量–可供不同机器上的上百用户同时读取介绍:观察1•控件的故障时常发生–系统集成了实时监控、错误检测、容错性和自动恢复等功能•超大文件(与普通文件相比)–GB大小的文件很正常介绍:观察2•大部分文件修改都是添加新的内容–需要考虑优化性能和保证原子性•协同设计应用程序和API有利于增加整个系统的灵活性设计•集群包含一个master和多个chunkservers,并且可供多个用户读取GAEWeb应用GAEWeb服务基础设施分布式存储服务应用程序运行时环境应用开发套件管理控制台GoogleAppEngine分布式存储服务•GAE提供的分布式存储服务基于BigTable技术•通过JavaJDO/JPA接口或Python数据库标准接口访问和操作数据库•优势:成本低、支持伸缩、并发性好、易管理•采用乐观的并发控制应用程序运行时环境•GAE的应用程序运行时环境是一个可伸缩的Web程序运行平台•目前支持Python和Java•可以使用Google提供的丰富的应用服务,如分布式存储服务、网页抓取、邮件、图像、Google账户等云端应用•GoogleDocs是基于Web的文字处理和电子表格程序,支持在线协作、文档恢复、文档检索•Gmail是有效的电子邮件工具,支持即时消息、视频聊天、会话检索等IBMEnsemblesIBMTSAMIBMWebSphereCloudBurstIBMLotusLiveIBMRC2云环境管理解决方案IBMTSAM•IBMTivoliServiceAutomationManager(TSAM)•管理应用服务生命周期的方案IBMWebSphereCloudBurst•IBMWebSphereCloudBurstApplication(WCA)•帮助用户创建和管理面向服务的私有云平台•有效整合了云基础设施层和云平台层Web控制台基础设施管理虚拟化解决方案部署用户合格组管理虚拟器件镜像模板管理监控、审计和计费脚本包管理数据中心资源管理CRM系统ERP系统网上银行…WebSphereApplicationServerWebSphereProcessServerWebSpherePorialDB2数据中心管理员应用系统SOA环境WebSphereCloudburstApplianceIBMLotusLive•通过Web方式交付的服务•会议服务–LotusLiveMeetings–LotusLiveEvents•办公协作服务–LotusLiveEngage–LotusLiveConnections•电子邮件服务–LotusLiveNotesIBMRC2•IBMResearchComputeCloud东京北京新德里海法苏黎世纽约奥斯丁阿尔玛登AmazonWebServiceAmazonS3AmazonEC2AmazonSimpleDBAmazonSQSAmazonS3•AmazonSimpleStorageService(S3)•云计算平台提供的可靠的网络存储服务•通过互联网访问和管理•安全性–账户认证–访问控制列表–查询字符串认证•可靠性–冗余备份的存储机制AmazonSimpleDB•AmazonSimpleDB是一种支持结构化数据存储和查询操作的轻量级数据库服务•存储模型:域(Domain)、项(Item)、属性(Attribute)•现有不足–延迟较大–不能保证顺序执行用户更新–与关系型数据库兼容有限AmazonEC2•AmazonEC2是一种云基础设施服务•用户根据业务的需求自由地申请或者终止资源使用•优势–可伸缩性–节省成本–使用灵活–安全可靠–容错基础服务数据库服务应用开发服务应用打包服务基础服务•Force.com基础服务为上层服务和应用提供了安全、可靠的支撑环境•三个关键技术–多租户–元数据–安全架构数据库服务•Force.com数据库服务–数据模型•数据对象持久化•采用关系属性定义数据对象间的关系–数据操作•Web页面接口•编程接口–访问控制•管理安全•记录安全WindowsAzure.NET服务SQLAzureLive服务MicrosoftWindowsAzureAzureFabric控制器存储服务计算服务开发环境WindowsLiveOfficeLiveExchangeOnlineSharePointOnlineDynamicCRMOnlineLive服务.NET服务SQL服务SharePoint服务DynamicCRM服务应用Azure服务平台WindowsAzureMicrosoftSQLAzure•云环境的数据管理系统•不支持CLR、空间数据及一些系统管理功能(如启动、停止SQLServer)•优势–无需对数据库进行定期备份–提供统一数据访问接口–提供更健壮的服务主要内容36云计算与云数据管理概述各大公司的云数据管理技术人民大学研究团队的部分工作云数据管理的研究挑战人大—阿里巴巴云•项目简介:–由人大多个学院和教授共同合作–针对淘宝—阿里巴巴海量的交易数据进行分析和挖掘研究任务–适合研究任务:•宏观经济指数分析-参照人大三大发布项目•开发指数平台,集成多种统计算法模型,提供横向对比分析•设计周期性自动指数计算系统,可以按月、周、天自动计算指数,发布类似K线图的动态指数38人民大学新开的《分布式系统与云计算》课程(2010年教育部IBM精品课程)39分布式系统概述分布式云计算技术综述分布式云计算平台分布式云计算程序开发已编写教材介绍《分布式系统及云计算概论》清华大学出版社《Hadoop实战》机械工业出版社Comingsoon课程网站•网址:datasearch.ruc.edu.cn/xnh下载教学课件下载模拟试卷观看课程视频获取课程内容主要内容42云计算与云数据管理概述各大公司的云数据管理技术人民大学研究团队的工作云数据管理的研究挑战基于云上的数据管理的特点•计算资源是可伸缩的•数据具有备份•数据存储在大量分布的结点之上基于云上的数据管理的挑战(一)•数据的自我管理和自调优基于云上的数据管理的挑战(二)•基于大量节点的查询优化算法•基于大量节点的索引结构基于云上的数据管理的挑战(三)•资源调度和负载均衡•多租户情况中总结47海量数据管理:新的挑战和机遇;企业和学术界共同面对的课题云数据管理技术方兴未艾国产数据库企业发展的一个新的机遇和挑战FurtherReadingF.Changetal.Bigtable:Adistributedstoragesystemforstructureddata.InOSDI,2006.J.DeanandS.Ghemawat.MapReduce:Simplifieddataprocessingonlargeclusters.InOSDI,2004.G.DeCandiaetal.Dynamo:Amazon’shighlyavailablekey-valuestore.InSOSP,2007.S.Ghemawat,H.Gobioff,andS.-T.Leung.TheGoogleFileSystem.InProc.SOSP,2003.D.Kossmann.Thestateoftheartindistributedqueryprocessing.ACMComputingSurveys,32(4):422–469,2000.FurtherReadingEfficientBulkInsertionintoaDistributedOrderedTable(SIGMOD2008)AdamSilberstein,BrianCooper,UtkarshSrivastava,ErikVee,RamanaYerneni,RaghuRamakrishnanPNUTS:Yahoo!'sHostedDataServingPlatform(VLDB2008)BrianCooper,RaghuRamakrishnan,UtkarshSrivastava,AdamSilberstein,PhilBohannon,Hans-ArnoJacobsen,NickPuz,DanielWeaver,RamanaYerneniAsynchronousViewMaintenanceforVLSDDatabases,ParagAgrawal,AdamSilberstein,BrianF.Cooper,UtkarshSrivastavaandRaghuRamakrishnanSIGMOD2009CloudStorageDesigninaPNUTShellBrianF.Cooper,RaghuRamakrishnan,andUtkarshSrivastavaBeautifulData,O’ReillyMedia,2009FurtherReadingF.Changetal.Bigtable:Adistributedstoragesystemforstructureddata.InOSDI,2006.J.DeanandS.Ghemawat.MapReduce:Simplifieddataprocessingonlargeclusters.InOSDI,2004.G.DeCandiaetal.Dynamo:Amazon’shighlyavailablekey-valuestore.InSOSP,2007.S.Ghemawat,H.Gobioff,andS.-T.Leung.TheGoogleFileSystem.InProc.SOSP,2003.D.Kossmann.Thestateoftheartindistributedqueryprocessing.ACMComputingSurveys,32(4):422–469,2000.谢谢!

1 / 51
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功