判别分析与聚类分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

判别分析(DiscriminantAnalysis)一、概述:判别问题又称识别问题,或者归类问题。判别分析是由Pearson于1921年提出,1936年由Fisher首先提出根据不同类别所提取的特征变量来定量的建立待判样品归属于哪一个已知类别的数学模型。根据对训练样本的观测值建立判别函数,借助判别函数式判断未知类别的个体。所谓训练样本由已知明确类别的个体组成,并且都完整准确地测量个体的有关的判别变量。训练样本的要求:类别明确,测量指标完整准确。一般样本含量不宜过小,但不能为追求样本含量而牺牲类别的准确,如果类别不可靠、测量值不准确,即使样本含量再大,任何统计方法语法弥补这一缺陷。判别分析的类别很多,常用的有:适用于定性指标或计数资料的有最大似然法、训练迭代法;适用于定量指标或计量资料的有:Fisher二类判别、Bayers多类判别以及逐步判别。半定量指标界于二者之间,可根据不同情况分别采用以上方法。类别(有的称之为总体,但应与population的区别)的含义——具有相同属性或者特征指标的个体(有的人称之为样品)的集合。如何来表征相同属性、相同的特征指标呢?同一类别的个体之间距离小,不同总体的样本之间距离大。距离是一个原则性的定义,只要满足对称性、非负性和三角不等式的函数就可以称为距绝对距离马氏距离:(Manhattandistance)设有两个个体(点)X与Y(假定为一维数据,即在数轴上)是来自均数为,协方差阵为的总体(类别)A的两个个体(点),则个体X与Y的马氏距离为1TDXYXYXY(,)()(),类似地可以定义个体X与总体(类别)A的距离为1TDXAXX(,)()()明考斯基距离(Minkowskidistance):明科夫斯基距离欧几里德距离(欧氏距离)二、Fisher两类判别一、训练样本的测量值A类训练样本编号1x2xmx111Ax12Ax1Amx221Ax22Ax2AmxAn1AAnx2AAnxAAnmx均数1Ax2AxAmxB类训练样本编号1x2xmx111Bx12Bx1Bmx221Bx22Bx2BmxBn1BBnx2BBnxBBnmx均数1Bx2BxBmx二、建立判别函数(DiscriminantAnalysisFunction)为:1122mmYCXCXCX其中:1C、2C和mC为判别系数(DiscriminantCoefficient)可解如下方程组得判别系数。1111221112112222221122()()()()()()mmmmmmmmmmmwCwCwCxAxBwCwCwCxAxBwCwCwCxAxB各类的离差阵分别以()LA、()LB表示111212122212()()()()()()()()()()mmmmmmLALALALALALALALALALA111212122212()()()()()()()()()()mmmmmmLBLBLBLBLBLBLBLBLBLB类内离差阵W为()LA、()LB之和()()WLALB111212122212mmmmmm三、Y值的判别界值将1()xA、2()xA、、()mxA代入判别函数,得到相应的()YA,将1()xB、2()xB、、()mxB代入判别函数,得到相应的()YB,两类的判别界值为:()()2cYAYBY当两类的样本含量相差较多时应加权,用下式计算判别界值()()ABcABnYAnYBYnn将每个个体的1x、2x、、mx代入判别函数计算Y,根据判别界值cY判别归类。四、对判别函数检验T为训练样本中两类和在一起的离差阵(注意与W的区别)111212122212mmmmmmttttttTttt计算Wilks统计量UWUT11UNmFUm,1m,21nm五、回代观察判别函数的判别效果举例设要建立一个判别函数来判别医院的工作情况,公认的A类医院11所,B类医院9所。X1:床位使用率X2:治愈率X3:诊断指数判别指标如下两表:A类医院编号X1X2X3Y198.8285.4993.187.9839285.3779.1099.657.9879386.6480.6496.947.9391473.0886.8298.708.1008578.7380.4497.617.88366103.4480.4093.757.8807791.9980.7793.937.8161887.5082.5094.107.3665981.8288.4597.908.18021073.1682.9492.127.65921186.1983.5593.307.8919均数89.337382.827394.70737.8781B类医院编号X1X2X3Y172.4878.1282.387.0300258.8186.2073.466.7616372.4884.8774.096.8505490.5682.0777.157.0413573.7366.6393.987.2244672.7987.5977.157.0550774.2793.9185.546.7346893.6285.8979.807.3152978.6977.0186.797.2522均数76.381179.143381.14897.0331合计均数81.85781.17088.6061.计算各类中的变量值均数2.计算各类的离差阵及两类的离差阵之和921.956085.6700104.7177()89.78906.1099187.6898LA867.113745.535261.9823()602.2566390.0085360.0057LB1789.069740.134842.7354()()692.0456383.8986547.6955WLALB3.11()()xAxB=86.3376-76.3811=9.956222()()xAxB=82.8273-79.1433=3.684033()()xAxB=94.7073-81.1489=13.55844.111122133112112222332231132233333()()()()()()wCwCwCxAxBwCwCwCxAxBwCwCwCxAxB1231231231789.069740.134842.73549.956240.1348692.0456383.89863.684042.7354383.8986547.695513.5584CCCCCCCCC解此方程组得1C=0.0074402C=0.0324123C=0.048055判别函数为1230.0074400.0324120.048055Yxxx5.求cY()YA=7.8781()YB=7.0331()()2cYAYBY=7.4556()()ABcABnYAnYBYnn=7.49786.检验2279.7392141.4208625.4625759.2241136.65461457.6529TWUT=4109787692130041753=0.19294411UNmFUm=22.308513m2116NmW、T为相应矩阵的行列式的值7.回代(internalvalidation)判别效果原分类判别函数的判别归类ABA101B00A正确率=90.9%B正确率=100%总正确率(符合率)=91%A误判率=B误判率=总误判率=5%符合率的高低取决于所选判别指标的特异性以及训练样本中各个体分类的可靠性。组内回代组外回代剔除回代Bayes多类判别121212,,,.,,,.,,,()1,2,,;1,2,,;1,2,gmgkijkkijgAAAmxxxnnnXxkginjmxkij设有个总体,记为提取了个特征变量,记为对各个总体分别做了次试验,得到的观测数据记为代表第个总体的第个样本的第个特征变量的观测值。注意总体、样品的概念Bayes多类判别是要建立g个判别函数1011112121()()()()()mmYACACAXCAXCAX2021212222()()()()()mmYACACAXCAXCAX01122()()()()()ggggmgmYACACAXCAXCAX将每个个体代入每个函数式求得1()YA、2()YA()gYA,对于具体某个个体,哪个Y值最大,就将其判为哪类。Cj为判别系数过程Bayes多类判别分析的过程1.计算判别系数(1)计算各组每个各变量的均数kjx1,2,,,kG1,2,,jm(2)计算各组的离差阵()kLA和类内离差阵W=12()()()GLALALA111212122212mmmmmm(3)求W的逆矩阵1WA1类的判别系数计算:1211122122211mmmmmm121112212221111212211()()()()()()()mmmmmmmmmCAxA011111()()()2mjjjCACAxA其余各类的判别系数以同样的方法求得,并可对每个个体的所属类判定求出后验概率(或称事后概率posteriorprobability,与之对应的是先验概率或事前概率priorprobability),这与后面的逐步判别分析中的计算方法一样,这里不做介绍。2.假设检验(略放在逐步之后?还是先讲)3.判别函数的判别效果观察举例用Bayes多类判别分析法对前面Fisher二类判别分析的例子。1.原始数据及基本计算(略)1.计算类内离差阵数据和其逆矩阵1789.069740.134842.7354692.0456383.8986547.6955W其逆矩阵为10.00056370.00009340.00010950.00237980.00167540.0030087W123()0.00056370.00009340.000109586.3373()(202)0.00237980.001675482.8273()0.003008794.7073CACACA=1.20196.54937.79700()CA-692.3312的A类的判别函数为123()692.23421.20196.54937.797YAxxx123()558.12991.0685.96586.932YBxxx其中逐步判别分析(StepwiseDiscriminantAnalysis)从m个可能有判别能力的变量中筛选出对判别分类有统计学意义的p(pm)个变量,建立判别函数10111121211()()()()()ln()ppYACACAXCAXCAXQA20212122222()()()()()ln()ppYACACAXCAXCAXQA01122()()()()()ln()ggggpgpgYACACAXCAXCAXQA式中1()QA、2()QA()gQA为各类的先验概率1.准备工作(1)计算各类各指标的均数,计算各指标的总均数(2)计算类内离差阵W,记为0W(此为初始阵)计算总离差阵T,记为0T(3)确定检验水准(或与之相对应的F值)2.逐步筛选变量(前进法、后退法、逐步法)筛选变量过程中(无论是引入一个变量还是剔出一个变量),每一步都要对上一步所得的矩阵作消去变换。

1 / 29
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功