判别分析的原理及其操作

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1判别分析的原理及其操作1判别分析的原理1.1判别分析的涵义判别分析(DiscriminantAnalysis,简称DA)技术是由费舍(R.A.Fisher)于1936年提出的。它是根据观察或测量到的若干变量值判断研究对象如何分类的方法。具体地讲,就是已知一定数量案例的一个分组变量(groupingvariable)和这些案例的一些特征变量,确定分组变量和特征变量之间的数量关系,建立判别函数(discriminantfunction),然后便可以利用这一数量关系对其他已知特征变量信息、但未知分组类型所属的案例进行判别分组。沿用多元回归模型的称谓,在判别分析中称分组变量为因变量,而用以分组的其他特征变量称为判别变量(discriminantvariable)或自变量。判别分析技术曾经在许多领域得到成功的应用,例如医学实践中根据各种化验结果、疾病症状、体征判断患者患的是什么疾病;体育选材中根据运动员的体形、运动成绩、生理指标、心理素质指标、遗传因素判断是否选入运动队继续培养;还有动物、植物分类,儿童心理测验,地理区划的经济差异,决策行为预测等。1.2判别分析的假设条件判别分析的基本条件是:分组变量的水平必须大于或等于2,每组案例的规模必须至少在一个以上;各判别变量的测度水平必须在间距测度等级以上,即各判别变量的数据必须为等距或等比数据;各分组的案例在各判别变量的数值上能够体现差别。判别分析对判别变量有三个基本假设。其一是每一个判别变量不能是其他判别变量的线性组合。否则将无法估计判别函数,或者虽然能够求解但参数估计的标准误很大,以致于参数估计统计性不显著。其二是各组案例的协方差矩阵相等。在此条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。其三是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。1.3判别分析的过程1.3.1对已知分组属性案例的处理此过程为判别分析的第一阶段,也是建立判别分析基本模型的阶段,即分析和解释各组指标特征之间的差异,并建立判别函数。1.3.1.1判别分析的基本模型及其估计过程判别分析的基本模型就是判别函数,它表示为分组变量与满足假设的条件的判别变量的线性函数关系,其数学形式为:y=b0+b1x1+b2x2+……+bkxk,其中,y是判别函数值,又简称为判别值2(discriminantscore);xi为各判别变量;bi为相应的判别系数(dicriminantcoefficientorweight),表示各判别变量对于判别函数值的影响,其中b0是常数项。判别模型对应的几何解释是,各判别变量代表了k维空间,每个案例按其判别变量值称为这k维空间中的一个点。如果各组案例就其判别变量值有明显不同,就意味着每一组将会在这一空间的某一部分形成明显分离的蜂集点群。我们可以计算此领域的中心以概括这个组的位置。中心的位置可以用这个组别中各案例在每个变量上的组平均值作为其坐标值。因为每个中心代表了所在组的基本位置,我们可以通过研究它们来取得对于这些分组之间差别的理解。模型估计的过程可简略描述如下:在k维空间中寻找某个角度使各组平均值的差别尽可能大,将其作为判别的第一维度,对应函数为第一判别函数。这一维度可以代表或解释原始变量组间方差中最大的部分。然后依照同样原则建立第二判别函数。建立后续判别函数的条件是,后一个函数必须与前面所有的函数正交,即判别函数之间完全独立。建立判别函数的数目为min(k,g-1),每一个函数都反映判别变量组间方差的一部分,比例之和为100%。1.3.1.2建立判别函数的方法①全模型法这是SPSS系统的默认方法。它是把用户指定的变量全部放入判别函数中,而不管变量对判别函数是否起作用,作用大小如何。当对反映研究对象特征的变量认识比较全面时可以选择此种方法。其缺点是不能剔除对判别贡献很小的变量。②向前选择法向前选择法是从判别模型中没有变量开始,每一步把一个对判别模型的判断能力贡献最大的变量引入模型。直到没有被引入模型的变量没有一个符合进入模型的条件(判据)时,变量引入过程结束。当希望比较多的变量留在判别函数中时使用此方法。③向后选择法此方法与向前选择法相反。它从全模型开始,每一步把一个对模型的判断能力贡献最小的变量剔除出模型,直到模型中的所有变量都符合留在模型中的判据时,剔除变量工作结束。在希望较少的变量留在判别函数中时使用此方法。④逐步选择法此方法从模型中没有变量开始,每一步把模型外对模型的判别能力贡献最大的变量加入到模型的同时,也考虑已经在模型中但又不符合留在模型中的条件的变量剔除(因为新变量的引入可能使原来已经在模型中的变量对模型的贡献变得不显著了)。直到模型内所有变量都不符合剔除模型的判据,而模型外的变量都不符合进入模型的判据时为止。1.3.1.3对判别函数的检验3一般用回代的方法对判别函数的性能进行验证。也就是说,将预测分类与原始数据中的分类变量值进行比较,得出错判率。错判率越小说明判别函数的判别性能越好。1.3.2对未知分组属性案例的处理此阶段为判别分析的第二阶段。它是以第一阶段的分析结果为依据对未知分组属性的案例进行判别分组。确定一个案例属于哪一类,可以把该观测量的各变量值代入每个线性判别函数,哪个判别函数值大,该案例就属于哪一类。1.4判别分析模型的各参数指标及统计检验1.4.1非标准化判别系数(unstandardizeddiscriminantcoefficient)又称粗系数(rawcodficients),是将原始变量值直接输入模型得到的系数估计。非标准化判别系数可以用来计算判别值,也可以用来作图表示各案例点在min(k,g-1)维空间中的位置,从而分析具体案例点与组别之间的位置。由于测量单位不同,非标准化判别系数的大小不能反映相应变量在判别作用在判别作用上的大小。1.4.2标准化判别系数(standardizeddiscriminantcoefficient)以标准化判别系数表达的判别函数无常数项。函数中的自变量不是原始变量,而是标准化的变量。标准化使每个变量以自己的平均值为数轴原点,以标准差为单位。标准化变量一方面表现为与平均值之间的距离,另一方面以正负号形式表示自己偏离平均值的方向。标准化判别系数具有可比性,可用来比较各变量对判别值的相对作用,绝对值大的对判别值影响大,但这不代表对整个判别力的影响大,还要看结构系数。1.4.3结构系数(structuralcoefficient)又称判别负载(discriminantloading),是判别变量xi与判别值y之间的相关系数。结构系数表达了xi与y之间的拟合水平,当系数的绝对值很大(接近+1或-1)时,函数表达的信息与变量的信息几乎相同,当系数接近于0时,它们之间就没有什么共同之处。结构系数有两种。一种是总结构系数,用途在于识别由函数携带的在分组间进行判别的信息;另一种是组内结构系数,又称合并的组内相关,用途在于探求一个函数与分组内部的变量的紧密联系程度。1.4.4分组的矩心(groupcentroid)分组矩心描述在判别空间中每一组案例的中心位置。它通过将所有判别变量的平均值代入基本模型计算得出。可以考察在判别空间中每个案例点与各组的矩心之间的距离,便于分析具体案例分组属性的倾向。1.4.5判别力指数(potencyindex)判别力既包括每个判别变量对于判别函数的作用,也包括本判别函数对于所有原始变量总方差的4代表性。判别分析通过一个判别函数所能代表的所有原始变量的总方差百分比来表示每个判别函数的判别力,因此判别力指数又称方差百分比。一个判别函数所代表的方差量用所对应的特征值(eigenvalue)来相对表示,特征值的合计就相对代表了总方差量,而每个特征值占这一合计的比例就是相应判别函数能够代表的总方差比例,即它的判别力指数。判别力指数越大的判别函数越重要,而那些判别力指数很小的判别函数则可以被精简掉。1.4.6残余判别力(residualdiscrimination)对判别函数统计显著性的检验是在推导一个函数之前检查在这个判别模型中的残余判别力。残余判别力是在以前计算的函数已经提取过原始信息之后,残余的变量信息对于判别分组的能力。如果残余判别力过小,那么即使在数学上可行,再推导其他函数也没有意义了。残余判别力用Wilks'lambda测量,如果λ接近0,表示判别力高,组均值不同;λ接近1,表示组均值没有什么不同。1.4.7Fisher判别系数Fisher判别系数用来直接进行一个案例的判别。只要把案例的原始变量代入,其中最大的一个值所对应的分组便是判别分组。参考文献1.郭志刚.社会统计分析方法——SPSS软件应用.北京:中国人民大学出版社,19992.张敏强.教育与心理统计学.北京:人民教育出版社,19933.卢纹岱.SPSSForWindows统计分析.北京:电子工业出版社,2000

1 / 4
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功