基于Hadoop的海量数据处理系统的设计与实现

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

硕士学位论文(工程硕士)基于Hadoop的海量数据处理系统的设计与实现DESIGNANDIMPLEMENTATIONOFSYSTEMMASSIVEDATAPROCESSINGBASEDONHADOOP李云桃2009年06月国内图书分类号:TP311学校代码:10213国际图书分类号:620密级:公开工程硕士学位论文基于Hadoop的海量数据处理系统的设计与实现硕士研究生:李云桃导师:王玲副教授副导师:张立中架构师申请学位:工程硕士学科、专业:软件工程所在单位:软件学院答辩日期:2009年06月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP311U.D.C.:620DissertationfortheMaster’sDegreeinEngineeringDESIGNANDIMPLEMENTATIONOFSYSTEMMASSIVEDATAPROCESSINGBASEDONHADOOPCandidate:Supervisor:AssociateSupervisor:AcademicDegreeAppliedfor:Speciality:Affiliation:DateofDefence:Degree-Conferring-Institution:LiYuntaoAssociateProfessorWangLingArchitectZhangLizhongMasterofEngineeringSoftwareEngineeringSchoolofSoftwareJune,2009HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文-I-摘要在互联网高速发展和上网人群急剧增长的今天,对于提供网络服务的互联网公司来说,每天都有大量的信息需要处理,以分析用户的需求以及各种产品的效果等,而且某些数据处理还有时间上的要求,而传统的数据库已经不能满足其对于存储空间和处理时间的要求。本文的主要目的是构建一个成本较低的分布式海量数据处理系统来存储和处理这些数据。本文基于一个开放源代码的分布式处理平台(Hadoop)来搭建一个分布式的海量数据处理系统。系统通过对该开源平台进行封装,建立基于插件的任务开发与调度机制,实现任务之间的相同的操作共用,提高系统的工作效率,而且由于任务都是即插即用的插件,任务的上下线也能得到比较方便的管理。对于简单的应用,比如统计,分组统计等,系统提供自动代码生成工具,实现任务代码的自动生成,减少开发的工作量,对于复杂的应用来说,系统提供了一些基本的处理方法的实现,由此组合即可解决大部分的数据处理的应用。当然,很少有任务是一次计算可以完成的,大部分的任务都是需要多次计算并综合他们的结果来给出的,而且任务的运行存在着失败的危险,所以一个方便易用的任务调度与监控模块是非常必需的。对于大部分的应用来说,任务之间的关系分为依赖和并行,调度系统将基于这两种类型的任务关系来对任务进行调度并监控其运行状态,来实现稳定的数据处理。关键词:海量数据处理;插件;调度;监控哈尔滨工业大学工程硕士学位论文-II-AbstractNowadays,asthenetworkandthepeopleon-lineexplode,thereisalotofdatatoprocessforcompanieswhoareprovidingnetworkservices.Theyhavetoanalyzetherequirementsofthecustomersandtheeffectofallkindsofproductsandsoon.Ofcourse,somedatamayrequiretobeprocessedinagiventime.Traditionaldatabasecan’tprovideenoughstoragetokeepallthedata,orprovideenoughcomputationalabilitytofinishtheprocessingontime.Now,wearegoingtobuildacheapdistributedsystemtokeepandprocessthemassivedata.ThedataprocessingsystemisbasedonanopensourceprojectnamedHadoop.Thesystembuildsaframeworktomanageallthetasksrunonthesystem.Allthetasksintheframeworkaredevelopedasplug-in.Somecommonoperationscanbesharedbythetasks,soefficiencycanbeimproved.Andtheplug-incanbeaddedorremovedwhenneeded,soit’sconvenienttomaintainthesystem.Forsomesimpleprocessing,likethestatisticorstatisticingroups,thesystemcanprovidetoolstogeneratecodeforspecialformatofinput,soyoucanfinishthetaskwithnocodewrite.Andforsomecomplicatedprocessing,wewilldiscusstheimplementsforsomebasicmethods.Youcancombinethesemethodssomostofthedataprocessingcanberesolved.Ofcause,littletaskcanbefinishedinonetimecomputation.Mosttaskneedtocomputeseveraltimes,andcombinetheirresultstogetthefinalresult.Andsometaskmaygetfailed,soaschedulingandmonitoringmoduleisneeded.Formostcases,thetaskscanbeserialorcollateral.Andtherearetwokindsofrelationshipbetweenthetasksinthesystem,serialandcollateral.Theschedulingandmonitoringmodulecanhelpthedatatobeprocessedmorestably.Keywords:massivedataprocessing,plug-in,scheduling,monitoring哈尔滨工业大学工程硕士学位论文-III-目录摘要.......................................................................................................................IAbstract.......................................................................................................................II第1章绪论................................................................................................................11.1课题来源及意义..............................................................................................11.2与本课题有关的国内外研究状况..................................................................21.2.1数据处理研究现状...................................................................................21.2.2分布式计算研究现状...............................................................................31.2.3分布式系统模型介绍...............................................................................31.3本课题研究的主要内容..................................................................................61.4本论文主要工作内容......................................................................................7第2章系统需求分析和概要设计...........................................................................82.1相关技术介绍...................................................................................................82.1.1HDFS..........................................................................................................82.1.2HadoopMapReduce...................................................................................92.1.3插件技术..................................................................................................112.2系统定位.........................................................................................................122.3系统需求分析.................................................................................................122.4系统体系结构.................................................................................................142.4.1分布式文件管理.....................................................................................142.4.2分布式任务管理......................................................................................152.4.3任务调度管理.....................................................

1 / 65
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功