地震预测中的数据挖掘应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据挖掘在地震预测中的应用2005-12数据挖掘在地震预测中的应用•1、关联规则•2、时间序列的相似性•3、神经网络及其集成•4、支持向量机•5、粗糙集•6、主成分分析•7、因子分析•8、数据挖掘在地震领域中的应用研究展望1基于关联分析的地震相关地区查找(1)地震的地区相关性寻找地震相关地区,进而预报相关地震是人们较为熟悉的地震预报方法之一。提出基于主从模式设计的并行关联规则挖掘算法FPM-LP(FastParallelMiningofLocalPruning),以期实现高效发现地震相关地区的关联规则挖掘。结果解释和说明:区域编号1571:新疆乌孜别里山一带;区域编号1098:云南丽江一带。规则“1571→1098”的支持度为40%,可信度为60%,说明在1960到2003的400多个月里,有大约40%的时间段,即160多个月新疆和云南同时发生了地震。而新疆、云南相伴发生地震的可能性为60%。(2)用FPM_LP算法寻找地震相关地区1571→1098support=40%,confidence=60%(3)用FPM_LP算法寻找地震相关地区在三种不同数据组合实验中,每次的挖掘结果都发现云南与新疆之间的地震关联和新疆各地区之间的地震关联。经归纳,云南与新疆之间的地震关联大致如图中所示,地震关联地区用方框标明。(4)用FPM_LP算法寻找地震相关地区事实上,从1970年到2003年,两地区地震的M-T图(震级与时间关系图,其中M为震级,T为地震发生时间)如下:每当新疆发生一次地震,在云南地区不超过1个月就会相伴发生一次地震,从1970年到2003年都有这样的规律。地震时间序列相似性度量模型定义:设S和R为两个不同的地震时间序列,则S和R的相似性可用两序列中对应元素的相似性记分函数加权和来度量。相似性度量模型定义为:2基于序列相似性的地震相关性分析])[,][(*])[],[(),('|}||,|ax{1'''''iRiSWiRiSRSScoreRSmi这里,(1)S’和R’分别是在指定时间范围内对S和R补充了空元素以后形成的稠密地震序列。如果将S’和R’中的空元素除去后则还原为S和R。(2)|S’|=|R’|;(即S’、R’两序列长度相等)(3)W(x,y)是权重函数,定义为:W(x,y)=max{x(t),y(t)};如果x(t)≥M或者y(t)≥MW(x,y)=min{x(t),y(t)};如果x(t)M并且y(t)M实验1:固定时间差为1年的粗粒度序列相似性分析选取1980年1月1日开始的5.0级以上地震转换成时间序列,地理位置按地理坐标进行5˚×5˚分块,时间间隔为1年,=1,相关地震支持数阈值Sup-min为10。得到部分实验结果如下表所示:thresholdM区域1经度范围纬度范围(度)区域2经度范围纬度范围(度)相关次数452100-10525-30492120-12520-251841490-9530-35492120-12520-251641595-10030-35492120-12520-251537575-8035-40492120-12520-2514452100-10525-3041490-9530-351341385-9030-35492120-12520-2513488100-10520-25492120-12520-2513452100-10525-3037575-8035-4012例,下图为区域452(位置在四川-云南境内,其经度范围100˚105˚,纬度范围25˚30˚)和区域492(台湾省周围,其经度范围120˚125˚,纬度范围为20˚25˚)相匹配的地区相关性分析M-T图。图中匹配的次数为18次,即在四川―云南境内的每一次5级以上地震几乎都可以在台湾省周围找到与之匹配的一次地震记录。四川―云南台湾省区域A经度(度)纬度(度)次数比例区域B经度(度)纬度(度)次数比例相关数11821121-12224-259260.13911260100-10127-282440.52912912001121-12223-246020.20411260100-10127-282440.504123907777-7839-404930.22511260100-10127-282440.455111889777-7840-416120.16711260100-10127-282440.4181028942122-12340-415470.18311260100-10127-282440.410100实验2:较小时空窗口的细粒度序列相似性分析采用自1972年1月1日开始的震级在3.0以上的地震数据,用WSM3S算法进行较小时空窗口的细粒度序列相似性分析。实验中具体参数为:地理位置按地理坐标进行1˚×1˚分块,时间间隔为10天,=1,地震相关支持数阈值Sup-min为100,无固定时间差。时间间隔为10天的地区相关性比较实验结果以表3-3中第一条记录为例进行分析,算法发现块11821和块11260的地震相关次数为129次,说明它们很可能是地震相关地区。11821块处于我国台湾省台北市的下方,位于我国较大的一个地震频繁发生的地震带上,而11260块处于云南和四川交界处,位于另一个地震带上。从1980年到1985年这两块区域中每月取一个3级以上最大地震所得到的对应M-T图。台湾省台北市附近云南和四川交界处3.神经网络集成ΔMEm/EΣPb值k值MmaxT2.01:主震-余震型2:震群型3:孤立型地震序列类型判断指标DOEERBF提出了一种基于正交设计和均匀设计的异构RBF神经网络集成方法DOEERBF。3.1地震序列类型判断比较实验和结果•单个RBFNN–外推精度为68.33%,内符精度77.12%•固定集成结构和训练参数–外推精度65%,内符精度69.64%•均匀设计确定集成结构和参数–外推精度78.33%,内符精度81.36%提出了一种自动确定神经网络集成结构和参数调整的构造选择性RBF神经网络集成算法CSERBF•前兆及地震学异常的持续时间和种类多少与未来地震震级大小有一定关系14项异常指标的持续时间+异常的数量未来地震震级CSERBF3.2地震震级预测…震级预报3.3基于特征加权的神经网络集成FWEART地震序列类型判断中的应用内符外推内符外推内符外推内符外推第一组86.6881.3890.6485.4890.1586.591.0989.25第二组86.9482.690.384.2590.4785.8890.9488.25第三组86.5979.9590.184.2590.5183.2591.387.5第四组87.1782.790.1785.891.0184.7591.1688四组平均86.8581.6690.384.9490.5385.0991.1288.25FWEART数据组ARTFWARTART-Bagging4.支持向量机SVM方法的基本思想:基于Mercer核展开定理,通过非线性映射φ,把样本空间映射到一个高维乃至于无穷维的特征空间,使得在特征空间中可以应用线性学习机的方法解决样本空间中的高度非线性分类和回归等问题。最优超平面的分类函数为)sgn()(1kiiiibyxfxx4.1我国大陆强震预测的支持向量机方法全球强震主要分布在环太平洋地震带和欧亚地震带。许多学者研究表明,我国大陆强震与全球主要板块边界的强震活动之间具有一定的关系,但是这种关系具有较强的非线性。将板板块边界的强震活动分为16个区域,取这16个区域在一年中的Ms≥7.0级地震次数Ni为支持向量机输入项;输出项为次年我国大陆是否发生7级以上强震。如果发生,取值为1;否则为0。表1使用支持向量机和BP神经网络对14个待检验样本的检验结果预测年份19681969198219831984198519911992199319942001200220032004中国大陆最大地震震级5.77.46.66.86.27.46.56.96.67.38.15.96.86.7检验结果(SVM)00000100011010检验结果(BP)01110100011010通过支持向量机对上述65个样本的学习,据此对学习样本的内符检验全部正确;对14个待检验样本的检验结果(表1)表明,有12个样本的检验结果正确,两个报错(1969、2003年),报准率为12∕14=0.86。使用BP神经网络模型进行外推检验,报准率为11∕14=0.79。支持向量机的预测检验结果要优于BP神经网络。4.2.1地震时间序列预测方法(1)依次取前13年中我国大陆每年的最大地震震级Mi+1,Mi+2,…,Mi+13,预测第14年的我国大陆最大地震震级Mi+14,(i=1,2,…m)。这样支持向量机的输入项为前13年中每年的最大地震Mi+1,Mi+2,…,Mi+13;输出项为1个,即为第14年的我国大陆最大地震震级Mi+14。4.2中国大陆强震时间序列预测的支持向量机方法表1预测方法(1)的预测样本检验结果预测年份19911992199319941995199619971998199920002001200220032004中国大陆最大地震震级6.56.96.67.37.37.17.56.67.06.58.17.26.86.7检验结果7.07.26.96.97.36.77.17.56.97.06.97.06.87.0预测与实际震级之差-0.5-0.3-0.30.40.00.40.4-0.90.1-0.51.20.20.0-0.3取预测与实际最大地震震级之差小于等于0.5为报准,则有12个样本的检验结果正确,2个报错。这样报准率为12/14=0.86。4.2.2地震时间序列预测方法(2)支持向量机的输入项为前13年中每年的最大地震震级Mi+1,Mi+2,……,Mi+13。还增加8个输入项,它们分别是全球地震活动第12和13年的年频次,第13年的年释放能量,第12和13年与前一年的释放能量的差分值,第13年的太阳年平均黑子数,第12和13年与前一年的太阳黑子数差分值。这样支持向量机的输入项共为21个;输出项为1个,仍为所预测的我国大陆第14年的最大地震震级。表2预测方法(2)的预测样本检验结果预测年份19911992199319941995199619971998199920002001200220032004中国大陆最大地震震级6.56.96.67.37.37.17.56.67.06.58.17.26.86.7检验结果7.07.06.97.07.07.07.07.06.97.07.07.07.06.9预测与实际震级之差-0.5-0.2-0.30.10.30.10.5-0.40.1-0.51.10.2-0.2-0.2取预测与实际最大地震震级之差小于等于0.5为报准,则有13个样本的检验结果正确,1个报错。这样报准率为13/14=0.93,M支持向量机与神经网络预测方法预测检验结果比较方法1(SVM)方法1(神经网络)方法2(SVM)方法2(神经网络)报准率12/14=0.869/11=0.8213/14=0.9310/11=0.91平均误差0.400.450.340.43均方差0.500.590.420.51与神经网络预测方法比较,本文所用的支持向量机预测方法无论在报准率、预测的平均误差还是均方差这三个方面,都要优于神经网络方法。粗集(RoughSet,或粗糙集)理论是近年来发展起来的一种处理不确定和模糊信息的重要工具。粗糙集的核心内容是属性重要性的度量和属性约简。其中,约简是应用粗集理论的基础,其内涵即为去掉多余的属性,或者说属性约简的目的就是发现不重要的属性并去掉它们。因此,粗集非常适合于用来处理地震预测指标的独立性问题。5.粗糙集(1)基于可辨识矩阵的属性约简方法ODMA(OptimizedDiscernibilityMatrixbasedApproach)(2)使用约简算法分析地震预测参数的独立性据中国震例库取测震学指标41项。1:地震

1 / 60
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功