判别分析一、什么是判别分析:概念:根据观测到的指标对研究对象进行分类的统计方法。如:医院管理中,根据医疗质量、管理质量等方面的多项指标对整个医院工作质量做出好、中、差三类的综合评定;流行病学中,根据上一年气象情况指标判断今年流脑的发病情况(散发、流行、大流行、暴发)等;临床医学中,医师根据某一患者的症状、体征、化验指标判断某就诊者是否患某种疾病的统计方法;可用于鉴别诊断或疾病分类的诊断。判别分析的任务:根据一批分类明确的样本(品)建立判别函数,用以判断某新样品属于何种类别。判别分析的原理:Fisher判别思想:根据个体与某类别间的距离远近作出判别。Bayes判别思想:根据先验概率求出后验概率的分布,据其做出判断。三、判别分析的基本步骤:分类明确的样本建立判别函数(用于判断分类)y=C1X1+C2X2+……CmXm=CiXi无统计学意义end假设检验有统计学意义确定类别分界点评价判别效果效果好(判对率高)应用效果不好(判错率高)优化判别方程二、判别分析方法的类型:定量资料的判别方法1.按资料类型分定性资料的判别方法两类判别2.按分类级别分多类判别非概率型:Fisher准则3.按数学原理分概率型:Bayes准则,最大似然法第二节fisher判别分析的基本过程以Fisher两类判别为例一、原理与判别函数:(一)判别函数(方程)的建立根据已知类别的两类样品的各指标值建立判别函数。两类样品的数据如下:第一类:合格医院(g=1)第二类:不合格医院(g=2)编号x1x2x3编号x1x2x3178.7380.4497.61173.7366.6393.98291.9980.7793.93290.5682.0777.15387.5082.5084.10372.4987.5977.154103.4480.4093.75472.4884.8774.09581.8288.4597.90574.2763.9185.54673.1382.9492.12658.8186.2073.46773.0886.8298.70793.6285.8979.80898.8285.4993.18878.6977.0186.79989.6480.6496.94972.4878.1282.381086.1983.5593.901185.3779.1099.15两类医院的原始资料第一类:冠心病人(g=1)第二类:正常人(g=2)编号x1x2x1x219.865.1810.662.07213.333.7312.534.45314.663.8913.333.0649.337.109.333.945…………6…………7……………………………………1513.335.9611.203.42169.333.63冠心病组与正常组的舒张压和胆固醇数据第一类第二类编号X1X2…m编号X1X2...Xm1X11(1)…X1m(1)1X11(2)X12(2)2X21(1)…X2m(1)2X21(2)X2m(2)....n1Xn1(1)…Xn1m(1)n2Xn2(2)Xn2m(2)现根据N例已知类别的观测值建立判别函数y=C1X1+C2X2+……CmXm=CiXi,该函数的建立依据Fisher原则:每一类内的离散程度最小,类间的离散程度最大的原则。类间离散度最大两类的差别最大即:)()(21yyd12112)2()2(22)1()1(1)(1)(1niniiiyynyyn类内离散程度最小第一类内各指标的变异和第二类内各指标的变异最小。12112222211122111niniiiyynyynyyI)()()()()()()()()(根据求极值的原理,求I对判别系数Ci的偏导数,使其等于零,得到下列方程组:1111nkkkxcy)()(2122nkkkxcy)()(niiixcy1f11C1+f12C2+……f1mCm=d1f21C1+f22C2+……f2mCm=d2……………………………..fm1C1+fm2C2+……fmmCm=dm其中,)()(21iiixxd112)1()1()1()(niiikijxxl212)2()2()2()(niiikijxxl)2()1(ijijijllfx1x2x3X1L11平方和L12积和L13积和X2L21积和L22平方和L23积和X3L31积和L32积和L33平方和同变量间:离均差平方和不同变量间:离均差积和nxxxxLxx222)()(nyxxyyyxxLxy))(())(()2()1(ijijijllf如何解此方程组?(1)多元一次方程组,消元法。(2)用消去变换法,经m次变换。f11C1+f12C2+……f1mCm=d1f21C1+f22C2+……f2mCm=d2……………………………fm1C1+fm2C2+……fmmCm=dm矩阵的最后一列分别是各判别系数,代入判别函数的一般表达式:y=C1X1+C2X2+……CmXm(二)对判别函数(方程的)检验221212121))(2()1(DnnnnmnnmnnF)2)(()2)((21121)2()1(2nndcnnyyDmiiim为判别指标数,根据自由度查F(m,n1+n2-m-1)。(三)确定判别临界值212211nnynynyc)()(确定两类的判别临界值(即两类的分界点)yc,据此对未知样本作出判断。|—————|—————|(I)yc(II)根据判别函数求出y值,与yc比较判定其所属类别。当要判别一个新样品的类别时,把其观测指标X1,X2,……,Xm值代入判别方程,求得的判别函数值y,若yyc,就将其归入第一类,若若yyc,则归入第二类。二、判别效果评价1.回顾性考核(方程内考核、内回代):用原有的样品验证判别函数判断的符合率或错判率将两类原始资料代入判别方程,求每一例的y值,然后与yc比较,确定它所属的类别,和原始类别比较,分别观察两类别的回代结果与原来类别的吻合情况。符合率=判断正确的例数/总例数100%2.前瞻性考核(方程外考核)不参与建函数的那些样品,代入方程判断其所属类别,若符合率高更有说服力。实际工作中,可将样品随机分为两类,一类用于建函数,另一类用于考核。三、判别函数的应用及有关问题1.判别分析主要是对未知类别的样品进行分类。2.比较各指标判别作用/能力的大小(贡献率)。),(21212nnyyyc)()()2()1()2()1()(yyxxcUiiii3.关于总体分布:正态、偏态均可,正态分布资料的判别效果最好。4.关于判别临界值的确定:5.若判断的指标较多时,要求的样本含量要大一些。实例分析BOOK-P108回归分析与判别分析的区别:1、X为判别指标(自变量);Y为构造的函数(因变量)2、用途、原理。Bayes判别分析法是以概率为判别准则使得每一类中的每一个点都以最大的概率进入该类。该法不仅能解决多类判别的问题,而且分析时考虑了数据的分布状态,使判别效能得到较大提高。SAS软件的判别分析是以Bayes判别分析法为理论基础的。第二节Bayes判别分析法理论基础:Bayes判别分析法的理论基础是多元正态分布理论、非参数概率密度估计理论及Bayes概率定律。前者是参数分析法,后两者用于数据不满足正态分布或数据分布不明确时,称作非参数判别法。条件事前概率不能知的情况下,可规定其为0.5,计算每一个点属于每一类的事后概率。Bayes判别分析法的判别函数和判别准则在医学科研资料中经常遇到指标变量不呈正态分布或难以满足参数判别分析的要求,特别是有些变量是分类变量,不可能服从正态分布,可以用Logistic回归分析的方法。实际资料中一般含有较多的指标,有些指标可能对鉴别不同的类别毫无用处,或指标间彼此相关的情况时不应该用所有的指标都参与建判别函数。所以,在建函数之前,先进行变量筛选是很有必要的,即逐步判别分析,此法建立的函数更简洁,效果也更好。此外,对于某些指标间存在彼此相关的情况时,先对众多的指标进行聚类,从聚成的几大类中各挑选一个最有代表性的指标,用这些典型指标建立判别函数。逐步回归、判别分析、聚类分析等方法可以联合应用。