分类号学号M200971717学校代码10487密级硕士学位论文海量历史数据库系统研究学位申请人:王章学科专业:通信与信息系统指导教师:王非副教授答辩日期:2012年1月AThesisSubmittedinPartialFulfillmentoftheRequirementsfortheDegreeofMasterofEngineeringResearchofMassiveHistoricalDatabaseSystemCandidate:WangZhangMajor:Communication&InformationSystemSupervisor:Ass.Prof.WangFeiHuazhongUniversityofScience&TechnologyWuhan430074,P.R.ChinaJan.,2012独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密,在年解密后适用本授权书。本论文属于不保密。(请在以上方框内打“√”)学位论文作者签名:指导教师签名:日期:年月日日期:年月日华中科技大学硕士学位论文I摘要随着社会经济发展的加快,国家对社会生产的各个方面均提出了长远的发展规划。在工业领域中,政府提出了加快信息化与工业化融合的目标,希望利用高速发展的信息技术促进我国基础行业可持续发展。实时数据库作为电力、通信、工业控制等领域主要的信息化技术被广泛运用。经济的发展促进了企业生产规模的增长,企业所需要管理的数据规模也随之水涨船高。信息数据量的增长给实时历史数据库的数据存储管理能力和数据访问能力提出了更高要求。在实时信息采集和监控过程中,实时历史数据库每天需要处理亿万级的数据,并且数据量随时间推移也在持续增长。面对庞大的数据量,实时历史数据库迫切需要解决数据处理与存储的问题,一方面保证数据处理实时性,另一方面又需要为海量数据存储提供弹性增长空间。对海量历史数据进行良好支持是当前实时历史数据库研究的主要技术方向,已有的大数据存储方案如分布式数据库和集群不能很好的满足历史数据的存储要求,本文在分析当前云计算技术为大数据处理提供的基本方法之上,设计了一套基于Hadoop平台的海量历史数据库系统。针对该海量历史数据库系统实现过程中需要解决的三个问题:数据分布存储、数据索引、数据并行查询,本文分析比较了当前的解决办法,包括理论研究十分成熟的分布式数据存储和分布式索引技术,以及在云计算框架下存储数据、建立索引和数据查询的研究成果。结合各项技术的可取之处,再根据历史数据处理的特殊应用场景,本文给出了三个关键技术点的解决方案。将历史数据进行分块存储,并建立查找数据测量点历史数据的多级索引结构,该结构适应底层分布式文件系统动态变化,最后依据该索引信息对实时历史数据查询事务进行优化调度,给出了具有时间截止期事务的调度策略。在解决关键技术点的基础上,本文给出海量历史数据库系统的总体设计结构。对组成完整系统所需的其他模块:元数据管理、数据采集、数据存储、索引管理以及事务管理等进行具体设计分析,进一步明确了海量历史数据库系统的功能组成与系统组织。关键词:历史数据库;云计算;数据存储;分布式索引;事务调度华中科技大学硕士学位论文IIAbstractWiththedevelopmentofsocialeconomicbecomingfaster,thestatemakealong-termplaninallfiledofsocialproduction.Intheindustrialfiled,thegovernmentproposesagoaltospeeduptheintegrationofinformatizationandindustrialization,hopingtoutilizeinformationtechnologytopromotesustainabledevelopmentofbasicindustry.Asamajorinformationtechnology,thereal-timehistoricaldatabasehasbeenwidelyusedintheelectricity,communications,industrialcontrolandotherareas.Enterpriseshavetodealwithmoreandmoredatawhentheirscalesofproductiongrowrapidly.Thegrowthofinformationdatabringshigherrequirementtoreal-timedatabasebothindatastoragemanagementabilityanddataaccessability.Inrealtimeinformationcollectionandmonitoringprocess,historicaldatabasehastodealwithmillionsofdataeveryday.Facinghugedataquantity,real-timedatabaseurgentlyneedstosolvethedataprocessandstorageproblem,ononehand,toensuredataprocessedundertimeconstraint,ontheotherhand,providesflexibilitystoragespaceformassivedata.Howtosupportmassivedataisthekeypointinresearchofhistoricaldatabase,theexistinglargedatastoragesolutionssuchasdistributeddatabaseandclustercannotmeetthehistoricaldatastoragerequirements.Basedontheanalysisofthecurrentcloudcomputingtechnologyforlargedataprocess,thepaperdesignsahistoricaldatabasesystemonHadoopplatform.Aimatthethreekeyproblemsinhistoricaldatabasesystemrealizationprocess:distributeddatastorage,distributeddataindex,dataparallelquery,thispaperanalyzesthecurrentsolutions,includingthedistributeddatastorageanddistributedindexingtechnology,aswellasthedatastorage,dataindexandqueryincloudcomputingframework.Accordingtothereal-timedataprocessingscenario,thispaperproposessolutionstothethreekeypointscombiningmeritsofthecurrenttechnology.StoredatainHDFSbydividingthemintoblocks,andestablishmulti-levelindexstructure,whichcandynamicallyadapttothechangeofHDFS,forsearchinghistorydataoftags.Atlast,thepaperproposesaschedulingstrategytomeettransactiondeadlineandoptimizetheschedulerforhistoricaldataqueryingtransactionusingthemulti-levelindex.Aftersolvingthekeytechnologyproblems,thispaperpresentsthegeneralstructureofmassivehistoricaldatabasesystem.Anddesigntheothermoduleswhicharenecessarytocomposeanintegratedsystem,theyare:metadatamanagement,datacollection,datastoragemanagement,indexmanagementandtransactionmanagement,thenclarifythefunctioncompositionandsystemstructureofmassivereal-timedatabasesystem.Keywords:HistoricalDatabase;CloudComputing;DataStorage;DistributedIndex;TransactionScheduling华中科技大学硕士学位论文III目录摘要..................................................................................................................IAbstract.........................................................................................................II1绪论1.1课题研究背景.....................................................................................(1)1.2研究现状.............................................................................................(2)1.3本文研究内容及章节安排.................................................................(5)2海量历史数据库相关技术2.1Hadoop云计算平台............................................................................(7)2.2海量数据存储策略.............................................................................(9)2.3数据索引机制概述...........................................................................(13)2.4事务调度策略...................................................................................(15)2.5本章小结......