多元统计分析在地学中的应用【摘要】多元统计分析是数理统计的一个重要分支。随着理论的完善和计算机技术的进步,被广泛应用解决地学问题。地学回归分析、判别分析、聚类分析以及主成分分析的应用,呈现出多样化发展,并成为解决地学问题的利器。【关键字】回归分析;判别分析;聚类分析;主成分分析;地学研究1.引言多元统计分析是数理统计的一个重要分支,上世纪30年代,R.A.费希尔、H.霍特林、许宝以及S.N.罗伊等人的一系列奠基性工作,使多元统计分析在理论上区域成熟。(张尧庭等,1982)随着计算机应用技术的发展和科研生产的迫切需要,多元统计分析技术被广泛地应用于地质、气象、水文、医学、工业、农业和经济等许多领域,成为解决实际问题的有效方法。(李春昉等,2010)多元统计分析包括回归分析、判别分析、聚类分析以及主成分分析等。从地学应用的角度出发,阐述多元统计在地学各领域中的应用。2.回归分析及其在地学中的应用2.1基本概念回归分析(RegressionAnalysis)是一种统计学上分析数据的方法,主要是希望探讨数据之间是否有一种特定关系。回归分析是建立因变量Y(或称依变量、原文为:responsevariables,dependentvariables)与自变量X(或称独变量,原文为predictors,independentvariables)之间关系的模型。复回归(Multipleregression)指的是超过一个自变量。回归分析的目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的变量。2.2回归分析在地学中的应用西南林学院徐天蜀以2006年印度卫星数据(IRS-P6)为信息源,提取4个波段值、6种波段比值、4种植被指数,利用DEM提取海拔、坡度、坡向3个地学因子,共17个变量,选取5种线性及非线性方程,对高黎贡山常绿阔叶林地面样地生物量与17个遥感及地学因子进行相关性分析。结果表明:IRS-P6的B2,B3,B5波段以及海拔与生物量达到极显著相关水平。波段比值、植被指数、坡度、坡向与生物量的相关性较差,只有少量因子达到显著相关水平。通过变量筛选及回归方程选择,IRS-P6数据可用于较大尺度森林生物量的估测。通过分析可得出高黎贡山常绿阔叶林生物量与印度卫星数据IRS-P6及派生数据、地学因子存在相关关系,可通过变量筛选,选择不同的回归方程等方法,建立生物量模型,估测较大尺度的森林生物量。(徐天蜀,2008)针对当前LUCC研究中存在的数据间多重相关性和样本量不足的问题,在土地利用研究中,张旸等引用偏最小二乘回归方法与研究中。偏最小二乘回归方法与其他研究方法的比较如下表所示:该方法可以有效地克服上述缺陷,并能实现多种数据分析方法的综合应用。为检验方法的功能及实用性,论文以苏锡常地区为例,对区域的土地利用结构及其影响因子进行了定量分析。结果表明,偏最小二乘回归在对土地利用结构及其影响因子的相关性研究方面具有较好的分析能力,对于研究区域内的主要土地利用类型的分析基本与实际情况相符合,具备较高的可信度,可以作为土地利用结构稳定性乃至IJKK驱动力的定量分析依据。在回归建模方面效果欠佳,仅对于耕地类型具备一定的预测能力。总的来看,地理研究涉及的各种因素往往庞大复杂而又相互影响,而偏最小二乘回归方法在简化数据结构、消除重叠信息和综合典型变量方面具有独特的优势,其思想方法又巧妙简单,相信在地学领域中的应用一定具有广阔的发展前景。(张旸等,2004)3.判别分析及其在地学中的应用3.1基本概念判别分析是利用原有的分类信息,得到体现这种分类的函数关系式,然后利用该函数去判别未知样品属于哪一类。因此,这是一个学习和预测的过程。常用的判别分析方法有费歇尔判别法和贝叶斯判别法。(张超等,1994)费歇尔判别法是以费歇尔准则为标准来评选判别函数的。所谓费歇尔准则,指的是较优的判别函数应该能根据待判对象的n个指标(或特征要素)最大限度地将它所属的类区分开来。一般应用中多采用线性判别函数。基本方法是首先假定判别函数(线性函数),然后根据已知的指标值或k个变量,对判别函数进行训练,得到函数关系式中的系数值,从而最终确定判别函数。贝叶斯判别法是一种概率方法。它的好处是可以利用先验信息,可以考虑专家的意见。应用该法,需要事先假定样本指标值的分布(如多元正态分布等)。在进行判别时,要求把已知的样本分成几类,然后计算出未知类别的样本归属于已知类别的概率值,它归属于哪一类别的概率值最大,就把它划归为该类。3.2判别分析在地学中的应用刘钦普利用计算机技术,研究了判别分析在中国黄土地层划分中的应用。选择了8种微量元素和碳酸钙的含量作为划分三类黄土地层(包括马兰黄土,离石黄土和午成黄土)的指标,利用逐步判别的方法,建立了3个费歇判别函数方程,提出了利用计算机分析技术进行地学分析应注意的问题。结果表明:判别函数的正确判别率为93.33%。通过判别分析,得出并检验了3类黄土地层的判别函数。根据这些判别函数不仅可以对已知地层的样品进行验证,还可以对新样品的归类进行判别。之所以能够利用黄土地层中某些微量元素和碳酸钙的含量对黄土剖面中的3类地层进行划分,是因为某些元素含量及其比值的演化具有明显的阶段性(文启忠,1989)。元素演化的这一特征完全可以作为地层划分的辅助性指标.把这种黄土地层的地球化学划分和生物地层划分相结合,更能准确地确定黄土地层的界线(孙建中,1991).吴越等针对中小型滑坡灾害的特点,比较了各种稳定性评估方法的优缺点,得出工程类比法更加符合中小型滑坡灾害隐患点状态评估的现状。为此,将一种多元统计分析的判别函数法应用到滑坡灾害隐患点状态的评估中,建立了一种以历史资料为基础的工程类比法。首先确定了中小型滑坡灾害影响因素,根据历史资料分析了影响因素指标与稳定性的相关性然后将稳定性作为多维统计变量,投影到一维直线上,使得由不同稳定性总体产生的投影点尽可能分开,再利用距离判别法来建立判别准则。以重庆市武隆为例,进行实际评估,并验证了该方法的正确率和适用范围,得出该方法作为一种定性评估方法具有一定的实用性,适用于重庆市或具有类似地质环境的地区。(吴越等,2012)4.聚类分析及其在地学中的应用4.1基本概念所谓聚类,就是将一个对象的集合分割成几个类,每个类内的对象之间是相似的,但与其他类的对象是不相似的。早期聚类分析作为统计学的一个分支,主要集中在基于距离的聚类分析。随着机器学习领域研究的兴起,聚类成为无指导学习的一个例子。依据不同的数据类型、聚类的目的和应用,专家们提出了各具特色的聚类方法。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。聚类分析己经广泛地用在许多应用中,包括模式识别,数据分析,图像处理,以及市场研究。作为一个数据挖掘的功能,聚类分析能作为一个独立的工具来获得数据分布情况,观察每个簇的特点,集中对特定的某些簇做进一步的分析。(李慧慧,2008)4.2聚类分析在地学中的应用聚类分析经常用于经济地理学中。经济地理学是研究地表人类生产、交换、消费活动的区域差异的科学。概括起来,就是研究区域经济差异的科学(胡兆量等,1982)。因此,经济地理学研究者的立足点是区域,而区域是一个十分复杂系统的体系,到目前为止,地学要素中的自然因素和人文要素(包括社会经济诸要素)与区域发展之间相互关联的分析和综合研究几乎没有(陆大道等,2003)。由于区域经济发展在一定程度上受制于区域自然条件的差异、自然资源的禀赋格局,以及资金、技术、管理经验等社会经济因素的影响,作者旨在尝试将自然、人文等要素与区域经济结合起来,寻求区域经济地理特征现象,以分类方式对其进行研究。(谢晓华等,2009)文章以福建省67个县为研究对象,通过指标体系构建之后,对其进行指标赋值,运用系统聚类分析方法,选择极差标准化对数据进行处理,利用欧氏距离对区域间的相似度进行计算,利用离差平方和法对区域间的经济地理类型进行分类,最终得到以下7种分类。如下图所示:农业地域类型研究是揭示农业地域分异规律的有效手段。多年来一直受到国内外学者的关注。姚建衢以地处黄泛平原的山东陵县为例,借助电子计算机,应用数学模拟与传统地理分析相结合的方法,探讨了类型形成的自然地理要素相对定量化、指标系统构造筛选及聚类方法等问题。农业地域类型研究是将分步特征间相似性最大,差异性最小的地域单元归并。但分类界线严格说是一条带,界线附近的地域单元往往难以判别其归属。这是地理系统不连续原理在类型界上的体现。而模糊聚类事实上是借助于建立实体单元间的模糊相关性,即隶属函数μi(x)来度量元素归属某一子集(类型)的模糊性大小。μi(x)是再[0,1]闭区间上取值的。这样反而能较好解决分类准确性问题。鉴于此,研究借助模糊聚类完成农业地域类型的划分。传统分类侧重自然地理主导因子的定性描述、分析和在此基础上的数据统计归类,缺乏客观性和准确性。单纯数学聚类易产生不分主次,过分强调多指标综合的问题。本研究应用数学模拟结合地理学分析的方法,在这方面显示一定的优越性。(姚建衢,1988)5.主成分分析及其在地学中的应用5.1基本概念多元统计分析中的因子分析(FactorAnalysis)是寻找公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。其基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反映原资料的大部分信息,就是从大量的数据中“由表及里”、“去粗取精”,寻找影响或支配变量的多变量统计方法(李春昉等,2010)。主成分分析法和因子分析法都是用少数的几个变量(因子)来综合反映原始变量(因子)的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85%以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。并且新的变量彼此间互不相关,消除了多重共线性。这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1,x2,……,x3,经过坐标变换,将原有的p个相关变量xi作线性变换,每个主成分都是由原有p个变量线性组合得到。在诸多主成分Zi中,Z1在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度。5.2主成分分析在地学中的应用主成分分析应用于地学分析已经有几十年的历史,期间国内外产生了大量应用文献。这里主要选取一些有关地学的应用实例进行初步概述。主成分分析作为多元统计分析的一种方法,作为数据分析和数据挖掘的工具,在遥感图像变化信息提取、遥感图像处理分析、地理要素分析等方面得到广泛应用。遥感作为一种应用广泛的测量手段,在地学研究中广泛应用,但是常规的处理方法可能带来虚假甚至不合理的结果,主成分分析可以提取主要信息,使误差出现的机会大大减小,因此在遥感图像和数