基于Hadoop的海量广告日志分析系统的设计与实现

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

硕士学位论文(工程硕士)基于Hadoop的海量广告日志分析系统的设计与实现THEDESIGNANDIMPLEMENTATIONOFMASSIVEADVERTISINGLOGANALYSISSYSTEMBASEDONHADOOP章伟星2013年6月国内图书分类号:TP311学校代码:10213国际图书分类号:621.3密级:公开工程硕士学位论文基于Hadoop的海量广告日志分析系统的设计与实现硕士研究生:章伟星导师:苏统华高级讲师副导师:戚佳音高级工程师申请学位:工程硕士学科、专业:软件工程所在单位:软件学院答辩日期:2013年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP311U.D.C.:621.3DissertationfortheMaster’sDegreeinEngineeringTHEDESIGNANDIMPLEMENTATIONOFMASSIVEADVERTISINGLOGANALYSISSYSTEMBASEDONHADOOPCandidate:Supervisor:AssociateSupervisor:AcademicDegreeAppliedfor:Speciality:Affiliation:DateofDefence:Degree-Conferring-Institution:ZhangWeixingSeniorLecturerSuTonghuaSeniorEngineerQiJiayinMasterofEngineeringSoftwareEngineeringSchoolofSoftwareJune,2013HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文--I摘要百度凤巢是百度推出的全新广告拍卖系统,其以每天数以亿计的网页搜索量为强大后盾,为推广商户带来巨大经济效益的同时也为百度带来了巨大的经济收入,截至2010年第三季度末,来自凤巢的营收已占百度总营收的20%以上。然而从线上运行以及用户反馈情况来看,凤巢在广告质量度计算、展现以及广告优化等功能方面仍存在较多问题,这些问题不仅会给用户带来经济损失还会为凤巢造成负面影响。为此,本论文针对凤巢的重要业务点,设计并实现了基于Hadoop的海量广告日志分析系统,旨在从海量的广告日志中分析挖掘出异常数据,并从不同维度对异常数据进行统计以及可视化展示,以帮助凤巢有效发现潜在的问题,对异常产生的内因进行深入分析研究,找出问题来源以提出有效的解决方案。首先,本文基于凤巢的业务功能确定了日志分析系统的实际需求;然后针对该需求,设计了本海量日志分析系统的功能结构,分为日志解析模块、日志分析挖掘模块以及Web展示模块。日志解析模块完成原始日志的数据预处理操作。日志分析挖掘模块作为系统的核心部分,为不同的业务监控项建立计算规则模型,从经过预处理的海量日志数据中分析挖掘出各个业务点的异常数据,然后对异常数据进行多维度的过滤统计,该模块主要包括广告质量度、广告审核以及广告优化建议三个业务专题。Web展现模块通过动态趋势图以及表格等形式在网页上对分析统计结果进行可视化展现。在系统的实现技术上,日志解析和日志分析挖掘模块充分利用了Hadoop在处理海量数据方面的优势,将海量的原始日志及分析结果存储于HDFS(HadoopDistributedFileSystem)中,基于Hadoop的MapReduce算法建立不同的MapReduce计算程序集来实现数据的处理。Web展现模块使用LAMP(Linux+Apache+MySQL+PHP)技术,采用较流行的Web应用程序开源框架CakePHP实现。最后,系统从功能和非功能上进行了测试并得到验证。从商用效果来看,通过本系统及时发现了潜在问题,有效减少了凤巢的线上错误率,为决策发展提供了有效依据。关键词:日志分析;海量数据;Hadoop;MapReduce哈尔滨工业大学工程硕士学位论文--IIAbstractBaiduFengChaoisanewlypromotedadvertisementauctionsystem,exploitingthedailybillionsofwebsearches,whichbringshugeincomeforbothbusinesscustomersandBaidu.Till2010,theincomefromFengChaooccupiesmorethan20%ofBaidu’stotalincome.However,accordingtotheonlinerunningandcustomerfeedbacks,FengChaostillfacesmanyproblemsinadvertisementqualitymeasuring,presenceandoptimization.TheseproblemswillcauseeconomiclossforcustomersandbringsbadeffectsforFengChao.Toaddresstheseproblems,thispaperdesignsandimplementedamassiveadvertisingloganalysissystembasedonHadoop,aimingtomineabnormaldatafrommassiveadvertisementlog,andfurtherprovidevisualstatisticsontheabnormaldatafromdifferentviewstohelpFengChaofindpotentialproblems,afterathoroughanalysisofthereasonsfortheabnormaldata,finallyproposeeffectivesolutions.First,thispaperdeterminestherequirementofthisloganalysissystembasedonFengchao’sbusinessfunctionalities,thendesignsthefunctionstructureofthisloganalysissystem,whichcanbedividedinto:logparsingmodule,loganalysisandminingmoduleandwebpresentationmodule.Logparsingmodulecompletethepreprocessingoftheoriginallogdata.Loganalysisandminingmoduleisthekeypartofthissystem.Itbuildscomputationmodelfordifferentbusinessmonitoringandmineabnormaldataindifferentbusiness,thendoamulti-viewstatisticsontheabnormaldata.Theloganalysisandminingmodulemainlyconsistsofthreebusinessthemes:advertisementquality,advertisementcensusandadvertisementoptimization.Thewebpresentationmoduleprovidesstatisticsresultonawebpagewithdynamictrendgraphandtables.Inimplementation,logparsingandlogminingmodulesfullyutilizedtheadvantagesofHadoopinprocessingbigdata.ThemassiveoriginallogdataandanalysisresultarebothstoredinHDFS(HadoopDistributedFileSystem),establishingadifferentsetofMapReducecomputingprogramtorealizethedataprocessingbasedonHadoopMapReducealgorithm.ThewebmoduleadoptsLAMP(Linux+Apache+MySQL+PHP)andapopularwebapplicationopensourceframeworkCakePHP.Finally,theloganalysissystem’sfunctionandperformancearetestedandverifiedFromcommercialeffect,theloganalysissystemcanhelpFenchaofindpotentialproblems,effectivelyreducetheFengchao’sonlineerrorrate,provideseffectivebasisfordecisionmaking.哈尔滨工业大学工程硕士学位论文--IIIKeywords:loganalysis,massivedata,Hadoop,MapReduce哈尔滨工业大学工程硕士学位论文--IV目录摘要.......................................................................................................................IAbstract...................................................................................................................II目录.....................................................................................................................IV第1章绪论...........................................................................................................11.1课题的来源和背景........................................................................................11.2与课题相关的国内外研究综述....................................................................21.2.1Hadoop处理海量数据的优势分析.........................................................21.2.2国外研究应用现状..................................................................................41.2.3国内研究应用现状..................................................................................51.3本论文主要工作内容....................................................................................7第2章海量广告日志分析系统需求分析与关键技术...........................................92.1百度凤巢系统业务介绍

1 / 86
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功