本科生毕业论文题目:(中文)MapReduce的系统性能评估与Backup调度策略(英文)PerformanceEvaluationandBackuptasksforMapReduce姓名:陈日闪学号:00548179院系:信息科学技术学院专业:计算机科学与技术指导教师:彭波二〇一一年九月十四日北京大学本科生学位论文2北京大学本科毕业论文导师评阅表学生姓名陈日闪学生学号00548179论文成绩学院(系)信息科学技术学院学生所在专业计算机导师姓名彭波导师单位/所在研究所网络与信息系统导师职称讲师论文题目(中、英文)MapReduce的系统性能评估与Backup调度策略PerformanceEvaluationandBackuptasksforMapReduce导师评语(包含对论文的性质、难度、分量、综合训练等是否符合培养目标的目的等评价)陈日闪同学的论文选题是海量数据处理基础设施中的MapReduce分布式计算平台的性能评估和优化。这个方向是目前云计算热潮中重要的技术问题之一,也是本实验室在研究和开发MapReduce实现环境TPlatform中面临亟需解决的问题,是进一步工作的基础。其选题合理,是一个探索和工程结合的工作,其难度和工作量适中。陈日闪以系统性能分析,寻找系统性能优化点为目标,讨论了MapReduce运行系统的性能评估指标和方法,设计了基准测试程序集,在TPlatform系统上开展了若干评估实验。通过实验结果分析,给出了若干系统改进的建议,并在落后者问题上,具体通过修改任务调度算法来实现了一个优化改进。这一系列工作连贯,工作内容包括论文阅读,查考文献,系统和算法设计,性能评估实验,编码调试,分布式系统运行和部署等。本论文工作,作为一个科研综合训练完成得很好,符合培养目标。同时,本论文工作也存在一些不足,在深度和系统性上还可以更加深入,比如加入相关系统的对比实验,扩展更多的实验设计和分析等,这些可以在陈日闪同学进一步工作中来完善。导师签名:年月日北京大学本科生学位论文i摘要MapReduce是一个在海量数据上进行数据处理的并行编程模型,它特别适合于海量非结构化和结构化数据的搜索、分析和挖掘任务,已经开始被人们广泛使用。对于兴起的众多类似MapReduce系统来说,如何有效地评估和分析对比这些系统,成为当前一个需要解决的问题。本文详细讨论了针对MapReduce运行系统的性能评估指标和方法,设计和选择一系列具有代表性的程序和数据作为基准,用来评估和分析MapReduce系统。在这一评估方法指导下,本文在我们自己实现的MapReduce运行系统——Tplatform平台上扩展了Profiling功能,然后进行了一系列评估实验,来分析和寻找系统性能瓶颈,为未来系统优化提供依据。通过实验我们发现了我们系统的一些可改进的问题如任务调度、落后者问题等等。我们选择了针对导致提交任务延迟增加的落后者问题,通过实现后备任务策略来尝试改进。经模拟实验结果显示,我们提出的改进策略能够有效地改进落后者问题的性能问题。关键词:MapReduce,性能评估,落后者问题,后备任务策略北京大学本科生学位论文iAbstractMapReduceisbecominganimportantparallelprogrammingparadigmforprocessingInternetscaledata.Itiswidelyusedtoprocessjobssuchassearching,analyzing,andminingonlargescalestructuredandsemi-structureddata.ItisstillaproblemfortheemergingMapReduce-likesystemstoanalyzeandevaluatesystematicallyandefficiently.ThispaperdiscussedtheissuesinperformanceevaluationforMapReduceruntimesystem.Wedesignedandchoseaseriesofrepresentativeprogramsanddataasbenchmark.AndthenweimplementprofilinginourhomemadeMapReducesystemwhichnamedTplatform.Wedidtheevaluationexperimentforfindingthebottleneckofthesystem.Throughtheexperiment,wefoundsomeperformanceproblemssuchasschedulingandstragglersetc.Weimplementedbackuptasksforimprovingtheproblemscausedbystragglers.Oursimulationresultsrevealthatweimprovetheperformanceefficiently.Keywords:MapReduce,PerformanceEvaluation,Stragglers,Backuptasks北京大学本科生学位论文ii目录第1章 引言....................................................................................................4 第2章 MapReduce框架...............................................................................6 2.1 MapReduce模型介绍...........................................................................6 2.2 系统实现............................................................................................6 2.3 Tplatform的实现..................................................................................8 第3章 系统评估..........................................................................................10 3.1 评估目标..........................................................................................10 3.2 基准程序和数据..............................................................................10 3.2.1 基准程序集合...........................................................................11 3.2.2 评估目标...................................................................................13 第4章 系统监控和程序概要分析..............................................................15 4.1 实现细节..........................................................................................15 第5章 评估实验..........................................................................................17 5.1 机群配置..........................................................................................17 5.2 实验结果..........................................................................................17 5.2.1 单任务延迟和总机器时间.......................................................17 5.2.2 平均结束时间...........................................................................18 5.2.3 加速比.......................................................................................18 5.2.4 公平性.......................................................................................20 5.2.5 故障恢复稳定性.......................................................................20 5.3 实验结果和性能问题分析..............................................................20 5.4 开销分析..........................................................................................22 第6章 后备任务调度策略..........................................................................24 6.1 问题描述..........................................................................................24 6.2 相关工作..........................................................................................24 6.2.1 MapReduce.................................................................................24 6.2.2 Hadoop.......................................................................................25 6.2.3 异构环境中后备任务调度.......................................................25 6.3 实现细节..........................................................................................26 6.3.1 整体框架...............................