朴素贝叶斯降雨预测分类器控制科学与工程学院2011级牛景昊2015年2写在最前,一点废话,跟模板无关。2015年时值本科毕业之际,毕业答辩却没找到“世一大”的专属模板,遗憾之余,略有伤感,故根据新的标识和色调做了这个模板,不是毕设使用大概也可以。私以为毕业论文的答辩,要兼顾学术的沉稳严谨,也要在风格上有所跟进。可惜很多陈旧的分享在色调风格上已经和最新的山大标识系统相去甚远。相信山大藏龙卧虎,只是网上能看到可以分享的却不多。思忖再三还是把这个半成的版本分享出来,拍砖也好,鼓励也罢,权当一个青春的注脚。希望以开源的精神,后来者能有更多自己的分享,创作者最开心的事便是作品能被使用,有缘见到这个PPT的人,尽管去用吧,如果有额外的时间,给我发份邮件,让我也乐一乐。niujinghao@outlook.com牛景昊2015.6目录1.降雨预报与朴素贝叶斯—降雨预报的意义—应用朴素贝叶斯方法的历史2.朴素贝叶斯方法的优势3.数据的处理—地面观测数据的获取—预报因子的预处理4.分类器性能分析5.总结与展望123453目录—降雨预报的意义—应用朴素贝叶斯方法的历史2.朴素贝叶斯方法的优势3.数据的处理—地面观测数据的获取—预报因子的预处理4.分类器性能分析5.总结与展望1234541.降雨预报与朴素贝叶斯降雨预报的意义:长期降雨预测中期降雨预测分钟级降雨预测保证灌区粮食生产安全指导阶段性计划安排提醒出行是否携带雨具1234551.降雨预报与朴素贝叶斯降雨预报方法的发展史:17世纪初使用仪器测量进行预报开始使用统计学进行预报20世纪八十年代20世纪初数值预报产品开始发展1234561.降雨预报与朴素贝叶斯应用朴素贝叶斯方法的降水预报:1983年krzysztofowicz:将数值预报值作为预报因子,进行预报模型修订。2001年JamesN.K.Liu等:利用香港地区的气候数据资料作为预报因子,进行了降雨量的分级预报模拟。2013年ValmikBNikam等:利用印度气象部(IMD)的地面观测数据作为预报因子,进行了降雨强度预测,取得良好精度。123457目录1.降雨预报与朴素贝叶斯—降雨预报的意义—应用朴素贝叶斯方法的历史3.数据的处理—地面观测数据的获取—预报因子的预处理4.分类器性能分析5.总结与展望123452.朴素贝叶斯方法的优势82.朴素贝叶斯方法的优势朴素贝叶斯分类器:1234592.朴素贝叶斯方法的优势朴素贝叶斯分类器:—本文中符号设定—定义Ai是一个特征集合,其中的每个特征都有一个确定的值𝑽𝑨𝒊,𝒋,对于整个特征集合,有{i=1,2,……,n;j=1,2,……,m}其中n是特征集合的样本数,也对应某一数据集的特征维数,m等于数据集的样本个数。归为Kmax类别根据类条件概率独立的设定12345102.朴素贝叶斯方法的优势朴素贝叶斯的优势:朴素贝叶斯方法的特点气候测量数据的特点条件独立假设意味着各个特征之间分布相互独立,对于潜在的高维预报因子减少了维数灾难的风险。随着测量技术发展,降水预报因子维度增加,而且因子之间的关系很难获知。模型结构上,朴素贝叶斯具有天生的简单性,不需要很大的训练数据样本就能发挥较好的分类效果。具体精确到某种划分的有参考价值的气候历史数据可能并不多,早期的记录也很可能不全或缺少某些特征。√√12345112.朴素贝叶斯方法的优势朴素贝叶斯的优势:朴素贝叶斯分类器类条件概率独立的假设,虽然在很多实际问题中难以满足,包括降水预测的问题,但很多研究表明[15][16],即便在这一假设并不满足的的前提下,朴素贝叶斯相比与其他算法,依然可以保持较好的分类准确度。[15]P.DomingosandM.Pazzani,Beyondindependence:conditionsfortheoptimalityofthesimpleBayesianclassier,Mach.Learn.29.103-130.1997[16]Zhang,Harry.TheOptimalityofNaiveBayes.FLAIRS2004conference.1234512目录1.降雨预报与朴素贝叶斯—降雨预报的意义—应用朴素贝叶斯方法的历史2.朴素贝叶斯方法的优势—地面观测数据的获取—预报因子的预处理4.分类器性能分析5.总结与展望123453.数据的处理133.数据的处理样本点预报因子1预报因子2预报因子n分类器降雨级别0时刻测量数据24小时预测降水情况训练集历史测量数据12345输入输出分类器的结构143.数据的处理12345预报因子日最高温日蒸发量日风速日湿度值···历史测量值和降雨情况24小时降水量的分级预测需要获得的数据153.数据的处理12345中国气象局(CMA)欧洲中期天气预报中心(ECMWF)美国国家海洋和大气管理局(NOAA)地面观测数据的获取:16数据库名称可下载数据种类数据确认数据格式大类:7种(大类下含若干子类)确定TEXT子类:30种不确定GRIB、NC降水量、高温极值、低温极值确定PDF、CSV、TEXT其他子类:50种不确定3.数据的处理12345地面观测数据的获取:国外的气象交换数据存在部分遗失173.数据的处理12345地面观测数据的获取:0100020003000400050006000700080009000123456789101112济南市降雨量月值分布柱状图2014201320122011预报因子大类子类单位气压平均本站气压0.1hPa日最高本站气压日最低本站气压气温平均气温0.1℃日最高气温日最低气温蒸发量小型蒸发量0.1mm大型蒸发量相对湿度平均相对湿度1%风向风速平均风速0.1m/s最大风速极大风速日照时数日照时数0.1小时0cm地温平均地表气温0.1℃日最高地表气温日最低地表气温中国气象局URF_CLI_CHN_MUL_DAY_CES_V3.0数据库济南观测站2005年到2014年5-9月历史数据(1530条)183.数据的处理12345预报因子的预处理:预报因子大类子类单位气压平均本站气压0.1hPa日最高本站气压日最低本站气压气温平均气温0.1℃日最高气温日最低气温蒸发量小型蒸发量0.1mm大型蒸发量相对湿度平均相对湿度1%风向风速平均风速0.1m/s最大风速极大风速日照时数日照时数0.1小时0cm地温平均地表气温0.1℃日最高地表气温日最低地表气温预报因子在形式上是连续值,如果要应用朴素贝叶斯分类器,主要有两种思路:1.假设特征值服从某种已知分布,如正态分布;2.另一种是对连续值进行离散化处理。平均最高最低193.数据的处理12345预报因子的预处理:1.假设特征值服从正态分布;2.对连续值进行离散化处理。Xk,n=𝑉𝐴𝑘,𝑛−μkσk𝑝𝑘,𝑛=1𝜎2𝜋𝑒−12𝑋𝑘,𝑛2•等宽离散化(Equal-widthDiscretization):间隔宽度相等•等频率离散化(Equal-frequencyDiscretization):每个间隔中样本点数目相等•计算熵值离散化(Entropy-basedDiscretization):根据划分前后熵值做标准20结束熵值计算的离散化算法(MDLP准则)伪代码for每个连续的属性:利用H(S)=-𝑝𝐶𝑘,𝑆𝑙𝑜𝑔2𝑝(𝐶𝑘,𝑆)计算H(k);令H0等于输入区间的熵值,初始化划分点imin,初始化Hmin,初始化bound[];对输入区间的属性进行排序;for区间内属性值变化的位置:设为新的划分点,计算划分后总熵值;if新的总熵值小于Hmin:令Hmin=新的总熵值;imin=x新的位置;将循环后的imin加入bound[];if新的划分点不满足MDLP准则:删除bound[]中的重复元素,进行排序输出;else:更新左边界数组,输入为起始位置到划分点;更新右边界数组,输入为划分点到结束位置;合并左右数组,删除重复元素排序输出;1234567891011121314151617起始iminimin’E(S)–E(Xj=T)MDLPGain213.数据的处理12345济南市日最高温预报因子为例:离散化后天数天数离散化前原本1030组训练数据被分为6个间隔22目录1.降雨预报与朴素贝叶斯—降雨预报的意义—应用朴素贝叶斯方法的历史2.朴素贝叶斯方法的优势3.数据的处理—地面观测数据的获取—预报因子的预处理5.总结与展望123454.分类器性能分析234.分类器性能分析12345分类器Rc=𝑁c𝑁𝑡×100%+1预报准确率Rc244.分类器性能分析12345分类器Rr=𝑁rc𝑁𝑟𝑡×100%+1降雨预测准确率Rr+0济南市即使在5-9月,每天下雨的先验概率依然较低,所以Rr对于评价分类器利用先验以外能力很有价值。254.分类器性能分析123451.直接假设预报因子服从正态分布的效果并不理想264.分类器性能分析123452.二分类的分类误差普遍比四分类要小274.分类器性能分析123453.虽然消耗了更多时间,但基于熵值进行的离散化对有降水样本的分类更好,说明其更好的利用了先验概率以外的信息。28目录1.降雨预报与朴素贝叶斯—降雨预报的意义—应用朴素贝叶斯方法的历史2.朴素贝叶斯方法的优势3.数据的处理—地面观测数据的获取—预报因子的预处理4.分类器性能分析123455.总结与展望295.总结与展望12345主要挑战与收获:•1530条数据存储在736个文件中,每个文件数据维度大约为10,需要从中提取出有效数据,并识别和改写噪声数据、空测量点。•预报因子皆为连续值,为获得较好的分类效果需要尝试多种离散方法。•分类器算法实现皆为个人独立编写,熟悉了收集实际数据到分析结构、设计模型和实现算法的过程,实践能力得到很好提升。30本模板完全原创,根据山大新标识系统色调设计,无版权费用问题。如有幸被您使用,请邮件告知我,作者会感到欣慰。牛景昊2015.6P.S.如需无水印版本,请邮件与我联系niujinghao@outlook.com同学你好,我是隐蔽的水印目录1.降雨预报与朴素贝叶斯—降雨预报的意义—应用朴素贝叶斯方法的历史2.朴素贝叶斯方法的优势3.数据的处理—地面观测数据的获取—预报因子的预处理4.分类器性能分析5.总结与展望1234531P4P8P13P23P29ThanksforYourAttention!如需无水印版本,请邮件与我联系niujinghao@outlook.com同学你好,我是隐蔽的水印