云计算下基于贝叶斯分子的气象数据挖掘研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

云计算下基于贝叶斯分类的气象数据挖掘研究摘要:面对气象数据量大的问题,分析了云计算的特性和能力,最后选择较为成熟的Hadoop平台进行数据处理。本文解析了Hadoop平台的结构和功能,数据挖掘应用能够较好的运行在此平台上,简述了Hadoop平台下的基于贝叶斯分类的数据挖掘过程,将得到的天气信息进一步应用到各行各业中,各行业和部门根据分类的天气信息安排自己的工作计划。关键词:云计算;贝叶斯分类器;气象数据;数据挖掘中图法分类号:文献标识码:Abstract:inthefaceofthelargeamountofdata,analysisofthecharacteristicsandcapabilitiesofcloudcomputingandfinallythematureHadoopplatformisselectedtodealwithdata.ThispaperanalysesthestructureandfunctionofHadoopplatform,theapplicationofdataminingcanrunbetteronthisplatform.ThispaperbrieflyintroducestheprocessofdataminingbasedonBisaclassifier.Theweatherinformationwillbefurtherappliedtovariousindustriesanddepartments,andtheywillarrangetheirownworkplanaccordingtotheclassifiedweatherinformation.Keywords:cloudcomputing;Bayesianclassifier;meteorologicaldata;datamining常常利用的二十四节气已经无法满足现在快节奏的现代生活和工作,很多工作和出行都需要了解当天的天气状况,甚至是某一时段的天气情况,这些都对气象服务这项公共服务事业的要求越来越高,而精确的预报往往需要处理巨量的数据才能对未来有一个较为准确的判断,云计算的分布式技术[1]恰巧能够解决巨量数据计算的问题,将云平台应用气象数据的挖掘中,可以有效提高效率和准确率,将分类的天气信息做成各种天气预报产品服务各行各业。1云计算下的数据挖掘概况1.1数据挖掘的概念数据挖掘[2]的形成也是源于大量数据的存在,一方面是长时间的某一类型的数据积累,另一方面是由于某一方面同一时期使用量很大,庞大的数据是丰富的资源,可以从中找到某些规律,这些由以往数据形成的规律依然存在以后的发展过程中,比如,我们传统中的24节气,就是在大量记录之后总结出来的规律,并且先人们根据自己的记录和经验总结出24节气,有利于农业、经商、战争和生活等等各方面。在数据挖掘过程中,首先要获得足够多的满足实际需要的数据量,以大量数据为基础研究需要一定的科学方法,例如数学中的统计学,这样才能更有利发现存在其中的某些规律,这些规律是用来指导我们的生活、学习和生产的,需要以一种简单通俗的方式表达出来,例如电磁感应定律和勾股定理等等。在进行数据挖掘的过程中,首先是带有一定目的的,就是要明确挖掘的主体是什么,这样有利用缩小查找范围和选择合适类型的数据,然后就是对数据进行预处理,比如大量的原始数据,由于年代久远,会有缺失、冗余和格式的不同等等问题,这些都需要提前进行处理,常常借助计算机处理,要把数据转换成程序能识别的格式数据,最后要对结果做出评论,检验是否满足实际的要求,假如不满足要求,分析问题,改变处理数据或者分析模型。1.2分类分析法在数据挖掘中,包含多种类型,其中分类分析法是根据以往的积累数据进行分析,构造出良好的分类模型或者说分类器,其中包括现在影响广泛的贝叶斯分类器,它在信息搜索、金融分析和数据分析等领域的使用越来越热门[3]。分类就是根据现有的数据分析出来的某种特性,找到一种规律或者分类模式。如图1是分类分析的流程图。数据获取数据预处理测试数据训练数据分类算法分类模型模型评估重新选择数据或者分类模型分类预测文件问题定义NOYES数据准备阶段训练阶段评估阶段图1分类分析流程图这个过程主要有3部分,第一部分就是对数据的预处理,规范数据格式和类型,根据不同的问题需求和使用情景,为数据处理定义训练数据和测试用数据[4]。然后第二部分就是利用分类算法进行处理,找到数据中隐藏的规律和特征,总结分类模型。最后第三部分就是使用测试数据集对分类器进行测试,评估分类器的性能。分类器的评价指标用来判断分类器的性能,主要有:精确度,使用测试数据进行测试,可以计算出其准确率;(2)算法效率,主要是从计算时间和存储空间来考虑;(3)简单易懂程度,方便使用者快速应用。分类分析中常用的分类算法有贝叶斯算法、基于神经网络算法、蚁群算法、基于实践的爬虫算法等等,由于贝叶斯的在复杂数据系统中的优秀推理和数据分析能力和汲取过忘知识进行递归学习的性能,这些都使得贝叶斯方法成为分类分析中研究的热点。贝叶斯方法主要是应用在大量现有数据中[5],进行统计过往数据在某一个特定时段或者某一个特定区域内发生某些事件的概率,我们可以从中找出这个时间在未来发生的概率。这个特性与现在的人工智能、机器学习、云计算、计算机视觉等有密切的联系,在这些领域将会得到前所未有的发展。现行的贝叶斯方法都是源自于贝叶斯理论,这个基本理论的中心思想为概率问题,利用经验数据中的事件和条件概率计算推测未来时间概率,而后人们可以根据这个概率来判断和决策。概率是用来表达不确定性的优秀表现形式,它虽然其中有一定的不确定性,但是能起到很大的决策作用。贝叶斯公式为)()()/()/(MPnPnMPMnP(1)其中P(n)代表了再没有经过分类算法训练时,这些数据所能代表我们所需数据正确性的概率,而P(M)说明了已知数据发生的先前概率。。2云计算下的气象数据的数据挖掘2.1云计算和气象数据挖掘结合的必要性在现代社会的生产、学习、工作和娱乐中,气象事业越来越重要,尤其是现代科技的发展不断推动着气象系统不断完善。气象数据的采集量不断增加和精确度不断提高,采集点也丰富多样,包括雷达、卫星、无人机,还有人工记录和无人值守监控站,这些都使得气象数据丰富而且庞大。大气运动是一项复杂的现象,从这个现象中找出规律,判断出未来天气变化,需要大量的数据,不只是简单几个点的数据,而是需要不同时间、不同环境、不同空间、不同方位的全方位的数据,这个数据的庞大可以用我国气象中心每天需要处理的数据量360M来加以理解,巨量的数据才能更好的反映气象运动各个属性的关系。另外还要说明气象数据的多样性,地球生态的形态多样,比如陆地、海洋、冰山、江河湖泊、高原等等。这些都会对气象产生很大的影响,需要考虑在内。还有就是气象数据的各个属性值相关度很高,不仅有空间和时间的特性,还有气象数据的温度、湿度、风向、风力等属性,他们相互之间产生影响。这些特性表明了气象数据的处理是一个大型的工程,而不再单单是一两个计算机所能完成的任务,此时云计算中的大数据处理能够很好地胜任此项任务[6]。2.2云计算处理贝叶斯分类的气象数据现在最为成熟的云计算平台是Hadoop,Hadoop[7]采取的架构是分布式的,对于硬件没有特殊的要求,一般的计算机都可以,主要是利用集群的效果,处理节点增加将很快提升处理的速度和容量。分布式软件将位于相同和不同地域的计算机进行统一管理和配置资源,这些软件和硬件都可以实现共享,有利于调配更多的资源集中到某一个任务上,使得巨量数据的处理在较短时间能够得到处理。云平台说展示的强大功能与气象数据挖掘能很好的结合,解决了原来短时间无法处理大量数据而无法得到较为准确的预测结果的情况,同时成本问题也相应降低。PigHBaseHiveChukwaMapReduceHDFSZooKeeperCommonAvro图2Hadoop的结构图如图2所示,详细描述了Hadoop的框架结构:Common是Hadoop的核心,之前被称为Core,为平台开发程序提供所需的API,同时还有各种常用的I/O接口。Avro主要是对集群中的各种数据进行统计,解决不同类型数据的转化问题,还能够进行二进制数据的压缩和提供远程程序控制RPC。HDFS和MapReduce是Hadoop的核心结构,HDFS是分布式文件系统,对硬件没有过高的要求,但是它能够提供较高的容错能力,MapReduce是并行处理的的编程模型,它将并行处理的核心封装起来,而编程人员只需考虑使用的问题,MapReduce提供map函数用来键入一对键值,而进过处理的输入值通过Reduce函数输出。HDFS由服务器、数据节点和客户端几部分组成[8],采取的是C/S结构,服务器就是对文件的管理,维护数据的完整性,统一性,一致性,并能很好的协调客户端通知数据节点进行处理,将结果能够返回给客户端。数据节点是对区域上物理节点的管理中心,它负责一部分的数据管理和存储,每个大的文件被分成多份,每份有64MB,然后将数据分布在不同的数据节点上,这样方便在处理一个文件,不同节点能够同时进行,而在客户端需要数据时,首先要和服务器联系,找到每份文件的所在节点,而后取文件的过程中是客户端直接和数据节点联系。HDFS面对巨量数据,有着自己的机制来保证数据的可靠性。首先它采用的TCP/IP通信进制,TCP/IP是可靠的通信机制,定时监测机制能够保证无法工作的数据节点,服务器能够尽快知道,放弃这个数据节点,这时候数据备份机制起到作用,当某个数据节点不能工作时,备份数据起到作用。2.3利用Hadoop进行贝叶斯分类的气象数据分析针对某一地方的降雨量气象特征分析,得出当前降雨的概率。在使用贝叶斯分类器之前,将首先对数据进行预处理,然后使用贝叶斯分类器进行模型处理训练,而后评估整个过程的结果。对MapReduce输入之前,确定使用的数据类型,降雨相关的数据包括气压、气温(平均、最高和最低值)还有湿度、风向、风力的影响、平均日照时间和某一时段降雨量等等。还有一些不相关的数据,例如一些受人为因素影响的数据值。然后将这些值以Map函数输入,大量经过处理的数据将被存储在一起作为数据库,然后选取测试数据集和训练数据集,使用贝叶斯分类器进行模拟学习,在评估当前的分类器结果时仍然采用云平台进行处理。3结束语本文简要介绍了云平台Hadoop的基本架构以及其相关重要技术,重点介绍了HDFS和MapReduce的功能,研究了MapReduce编程模型在贝叶斯分类器中使用阶段和功能,主要是利用MapReduce键入数据和得到经过分类器的处理的数据,找到符合要求的分类器,帮助我们以现有数据对未来时间发生概率进行预测,再根据当前的气象服务要求,将天气信息做成符合各行各业需要的产品,旅行社可以安排合适的旅游时间,交通部门发布天气预警,农业部门适时进行农业作业等等,不同部门所需的气象信息不同,将得到的气象信息做成各类产品,服务不同行业和部门。参考文献[1]何清,庄福振,曾立,赵卫中,谭庆.PDMiner:基于云计算的并行分布式数据挖掘工具平台[J].中国科学:信息科学,2014,07:871-885.[2]陈宝学.数据挖掘技术应用于天气预报的研究[D].哈尔滨:哈尔滨工程大学,2004.[3]HaitaoCheng,TanerZ.Sen,RobertL.Jernigan.DataMiningforProteinSecondaryStructurePrediction[J].StructureandBonding,2010,(134):135-167.[4]马廷淮,穆强等.气象数据挖掘研究[J].武汉理工大学学报,2010,32(16):110-114.[5]宫秀军.贝叶斯理论及其应用研究[D].中国科学院研究生院(计算技术研究所),2002.[6]ShusakuTsumoto.Knowledgediscoveryinclinicaldatabasesandevaluationofdiscoveredknowle

1 / 4
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功