判别分析-距离判别法

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

判别分析—距离判别法目录/CONTENTS01/引言02/距离判别法04/距离判别法应用03/距离判别法例题资料来源[1]彭力.冶金工业出版社[2]刘庆军,陈坤,刘晓光.煤与瓦斯突出预测PCA-距离判别法研究.煤矿安全,2016,42(10):97-101[3]姜喜春.数据挖掘中的距离判别分析法.科技资讯,2015,(27):155-157[4]罗磊,曹平.深部巷道岩爆破加权距离判别法模型的分析和应用.中南大学学报,2012,43(10):71-75[5]王吉亮,陈建平,杨静.距离判别法在公路隧道岩分类中的应用.吉林大学学报.2008,38(6):999-1004引言判别分析基本原理判别函数判别方法分类引言信息融合中的分析方法有三种,分别是:判别分析、聚类分析、主成成分分析。判别分析产生于20世纪30年代。近年来,在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新的样品时,只要根据总结出来的判别公式和判别准则,就能判别该样品所属的类别。例如,某医院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的资料,记录了每个患者若干项症状指标数据。现在想利用现有的这些资料找出一种方法,使得对于一个新的病人,当测得这些症状指标数据时,能够判定其患有哪种病。这个问题可以应用判别分析方法予以解决。判别分析的基本原理♦已知n个总体,其分布函数分别为:F1(x),F2(x),…,Fk(x),每一个总体都是一个p维函数,对于给定的样品x,我们应该通过判别函数(判别准则),来决定该样品应属于这n个总体中的哪一个总体。♦判别分析是在已知研究对象分成了若干类型(组别),并已取得各种类型的一批样品观测数据,在此基础上根据某些规则建立判别式(判别量),然后对未知类型的样品进行判别分类。判别函数决定某一样品所属的类别,其实质是决定判别函数。根据样品给定的多变量数据,由判别函数来决定该样品所属的类别。例:设某班的学生经过八门课的考试,现需要根据考试的结果对学生的学习情况进行分类。根据学生的成绩,可将学生分为四类:优秀(A)、良好(B)、及格(C)、不及格(D)。为了决定每一位学生的成绩类别,拟以八门课的平均成绩为准,且按:100≥A类≥8585B类≥7575C类≥60D类60进行分类。判别函数判别方法分类判别分析内容很丰富,方法很多。●按判别的组数来区分,有两组判别分析和多组判别分析;●按区分不同总体所用的数学模型来分,有线性判别和非线性判别;●按判别时所处理的变量方法不同,有逐步判别和序贯判别。判别分析可以从不同角度提出问题,因此有不同的判别准则,如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。判别分析中主要有四种常用的判别方法,即距离判别法、Fisher(费希尔)判别法、贝叶斯判别法和逐步判别法。两个总体的距离判别法多个总体的距离判别法距离判别法马氏距离马氏距离设总体为m维总体(考察m个指标),样本。令μ=E()(i=1,2,…,m),则总体均值向量为。总体G的协方差矩阵为:TmXXXG},...,,{21TmixxxX},...,,{21Tm},,{21]))([()(TGGEGCOV设X,Y是从总体G中抽取的两个样本,则X与Y之间的平方马氏距离为:样本X与总体G的马氏距离的平方定义为:)()(),(12YXYXYXdT)()(),(12XXGXdTiX两个总体的距离判别法计算新样品X到两个总体的马氏距离D2(X,G1)和D2(X,G2),并按照如下的判别规则进行判断:X∈G1,当D2(X,G1)≤D2(X,G2)(1.1)X∈G2,当D2(X,G1)D2(X,G2)首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。这个判别规则的等价描述为:求新样品X到G1的距离与到G2的距离之差,如果其值为正,X属于G2;否则X属于G1。2212(,)(,)DGDGXX111122111111111222111211122()()()()2(2)2()XμΣXμXμΣXμXΣXXΣμμΣμXΣXXΣμμΣμXΣμμμΣμμΣμ11211212112122()()()2()22()2()XΣμμμμΣμμμμXΣμμXμααXμ假设均值µ1,µ2以及协方差矩阵Σ已知,Σ相等,我们计算:两个总体的距离判别法其中µ=(µ1+µ2)/2是两个总体均值的平均值,α=Σ-1(µ1-µ2),记W(X)=αꞌ(X-µ)(1.2)则判别规则(1.1)式可表示为X∈G1,当W(X)≥0(1.3)X∈G2,当W(X)0这里称W(X)为两总体距离判别的判别函数,由于它是X的线性函数,故又称为线性判别函数,α称为判别系数。在实际应用中,总体的均值和协方差矩阵一般是未知的,可由样本均值和样本协方差矩阵分别进行估计。设X1(i),X2(i),…,Xn1(i)来自总体的样本,i=1,2。则µ1和µ2的无偏估计为:两个总体的距离判别法1(1)(1)111niinXX和2(2)(2)121niinXXΣ的一个联合无偏估计为12121ˆ()2nnΣSS这里()()()()1()(),1,2niiiSXXXX此时,两总体距离判别的判别函数为ˆˆ()()WXαXX其中(1)(2)1()2XXX,1(1)(2)ˆˆ()αΣXX。这样,判别规则为12ˆ,()0ˆ,()0GWGWXXXX如果如果(4.7)1.4两个总体的距离判别法这里我们应该注意到:(1)当1p,1G和2G的分布分别为),(21N和),(22N时,221,,均为已知,且21,则判别系数为0221,判别函数为)()(xxW判别规则为12,,xGxxGx如果如果两个总体的距离判别法(2)当21μμ,21ΣΣ时,我们采用(4.4)式作为判别规则的形式。选择判别函数为*2212()(,)(,)WDGDGXXX11111222()()()()XμΣXμXμΣXμ它是X的二次函数,相应的判别规则为*1*2,()0,()0GWGWXXXX如果如果(1.1)两个总体的距离判别法多个总体的距离判别法设有g个m维总体,,…,,均值向量分别为,,…,协方差矩阵分别为,,…,,则样本X到各组的平方马氏距离是:,=1,2,…g判别规则为:,若12g1G2GgG12g)()(),(12XXGXdTiGX),(min),(212jgjiGXdGXd距离判别法例题SPSS运行结果距离判别法例题MATLAB函数距离判别法例题例人文发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量应当以人生的三大要素为重点,衡量人生三大要素的指示分别要用出生时的预期寿命、成人识字率和实际人均GDP,将以上三个指示的数值合成为一个复合指数,即为人文发展指数(资料来源:UNDP{人类发展报告}1995年)。今从1995年世界各国人文发展指数(表4—3)的排序中,选取高发展水平、中等发展水平的国家各五个作为两组样品,另选四个国家作为待判样品作距离判别分析。距离判别法例题距离判别法例题本例中变量个数p=3,;两类总体各有五个样品,即n1=n2=5,有四个待判样品,假定两总体协差矩阵相等。(1)两组线性判别的计算过程如下:75.8870.44(1)=94.08(2)=91.745354.43430.4XX距离判别法例题(2)计算样本协差阵,从而求出36.22856.022448.7486.812117.682-4895.74S1=56.022344.228-252.24S2=117.682188.672-11316.54448.74-252.2412987.2-4895.74-11316.54208384.8经计算123.04173.704-4447S=S1+S2=173.704532.9-11568.78-4447-11568.782100372距离判别法例题(3)求线性判断函数W(X)距离判别法例题(4)对已知类别的样品分类对已知类别的样品用线性判别函数进行判别分类,结果如表4-4所示,全部判对。距离判别法例题(5)对判别效果进行检验判别分析是假设两组样品取自不同总体,如果两个总体的均值向量在统计上差异不显著,则做判别的意义不大。所谓判别效果的检验,就是检验两个正态总体的均值向量是否相等。根据公式:将上边的计算结果代入统计量后可得:F=12.6746F0.05(3.6)=4.76故在α=0.05检验水平下,两总体间差异显著,即判别函数有效。距离判别法例题(6)对待样品判别归类结果如表4-5所示:总结:回代率为百分之百,这与统计资料的结果相符,而待判的四个样品的判别结果表明:中国、罗马尼亚为中等发展水平国家,即第二类;希腊、哥伦比亚为高发展水平国家,即为第一类。这是符合当时实际的,即与当时世界各国人文发展指数的水平相吻合。SPSS运行结果SPSS运行结果MATLAB函数[class,err]=classify(sample,training,group,'mahalanobis')classify函数将Sample的每一行进行判别,分到training指定的类中。training:是用于构造判别函数的训练样本数据矩阵,他们的每一行对应一个观测,每一列对应一个变量。sample:待判别的样本数据矩阵group:已知的分类矩阵err:基于training数据的误判概率的估计值MATLAB函数距离判别法应用距离判别法的应用●在深部巷道岩爆破中的应用在我国,当开采深度超过600m一般就认为其为深部开采,近年来,我国很多矿开采深度都达1km以上。深度巷道一般处于高应力状态,当地应力超过岩体极限强度时,岩体失去了平衡而受到破坏,围岩中的应力集中使岩体特别是硬质岩体产生脆性破坏,并伴随大量能量释放,产生岩爆现象。岩爆现象轻则给矿山带来经济损失,重则会带来灾难性后果。借鉴判别法的思想引进加权马氏距离判别法对岩爆的发生以及烈度进行评判。距离判别法的应用距离判别法的应用(1)应用主成分分析法的方法处理样本参数,将得到的样本总体的相关性系数作为权阵建立加权判别模型,将其应用到实际矿山深部巷道岩爆预测中取得了较好的结果。(2)计算过程中使用的协方差为每个整体的协方差,但不是每个整体的协方差计算都能够得到加权马氏距离,所以要求选取的样本容量尽量大,且样本的参数分布均匀。谢谢大家!

1 / 35
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功