第九章-对应分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第九章对应分析第一节对应分析的基本思想我们知道,因子分析有R型因子分析和Q型因子分析。R型因子分析是对变量(指标)作因子分析,研究的是变量之间的相互关系;Q型因子分析是对样品作因子分析,研究的是样品之间的相互关系,也就是说对指标作因子分析和对样品作因子分析是分开进行的。在错综复杂的实际问题中,不仅要了解变量之间的关系,样品之间的关系,还需要了解变量与样品之间的对应关系。如对某一行业所属的企业进行经济效益评价时,不仅要研究经济效益指标间的关系,还要将企业按照经济效益的好坏进行分类,研究哪些企业与哪些经济效益指标的关系更为密切,这可为决策部门正确指导企业的生产经营活动提供更多的信息。这就需要有一种统计方法,将企业和指标放在一块进行分析、分类。1970年法国统计学家J.P.Beozecri提出了对应分析,解决了上述的问题。对应分析是将R型因子分析和Q型因子分析结合起来进行分析的一种多元统计分析方法,它是从R型因子分析出发,直接获得Q型因子分析的结果,可以将变量和样品同时反映到相同的坐标轴(因子轴)的一张图形上,以此来说明变量与样品之间的对应关系。比如在图形上邻近的一些样品点表明它们的关系密切归为一类,同样邻近的一些变量点表明它们的关系密切归为一类,而且属于同一类型的样品点,可用邻近的变量点来表征。因此,概括起来说对应分析可提供指标之间的关系、样品之间的关系、指标与样品之间的关系。其基本思想为:R型因子分析和Q型因子分析是从不同的角度出发对同一个整体进行研究的,它们之间一定存在着一定的内在联系,对应分析通过一个过渡型矩阵Z将二者有机地结合起来。具体地说,首先给出变量点的协差阵ZZA和样品点的协差阵ZZB,由于ZZ和ZZ有相同的非0特征根,记为m21,),min(0npm,如果A的特征根i对应的特征向量为iU,则B的特征根i对应的特征向量为就是iiVZU,根据这个结论就可以很方便的借助R型因子因子分析而得到Q型因子分析的结果。因此,求出A的特征根和特征向量后就可以很容易的写出变量点协差阵对应的因子载荷阵,将它记为F,则mpmppmmmmuuuuuuuuuF221122221211212111这样,样品点协差阵B对应的因子载荷矩阵G就是mnmnnmmmmvvvvvvvvvG221122221211212111由于A和B具有相同的非零特征根,而这些特征根又正是各个公共因子的方差,因此可以用相同的因子轴同时表示变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上,以便对变量点和样品点一起考虑进行分类。第二节对应分析方法的原理在处理实际问题时,如果指标的量纲不同以及数量级相差很大时,通常先将指标做标准化处理,而这种标准化处理对样品是不适应的。也就是说,标准化处理对指标和样品是非对等的,为了使之有对等性,以便将R型与Q型分析建立起联系,就要设法将原始数据阵)(ijxX变换成矩阵)(ijzZ,使ijz对指标和样品具有对等性。这样的矩阵应该如何给出?在用列联表进行独立性检验时,给出了2统计量(见第12章)ijjijiijnnnnnnn22在它的启发下,将原始数据阵作如下的变换,给出矩阵)(ijzZ,其中jijiijijxxxxxxz了便于理解此变换,作如下解释:设有n个样品,每个样品有p项指标,原始资料阵为pxxx21npnnppnxxxxxxxxxXXXX21222211121121假定矩阵X的元素0ijx,否则,对所有的数据同加上一个数,便可满足这个要求,然后写出X的行和、列和与总和,分别写成ix、jx和x,即xxxxxxxxxxxxxxxxpnnpnnpp2121222221111211用x去除矩阵X中的每一个元素,即xxpijij,使变量与样品具有相同比例大小,显然10ijp,且111pjniijp,因而ijp可解释为“概率”,这样得到一个规格化的“概率”矩阵pnijpp)(,将矩阵P中的行和、列和分别记为ip、jp,即12121222221111211pnnpnnppppppppppppppppp如果将n个样品看成p维空间上的点,则n个点的坐标用iipiiiipppppp,,,21(ni,,1)表示,称为n个样品点,这是用各变量在该样品中的相对比例来表示的一种常见方法,这样对n个样品的研究就可转化为对n个样品点的相对关系的研究,如果要对样品分类,就可用样品点的距离远近来刻划了。若引入欧氏距离,则两个样品点K和L之间的欧氏距离平方为212),(pjLLjKKjppppLKD为消除各变量的数量级对研究问题的影响,需要计算加权的距离(因为在实际问题中,我们所关心的是每一个变量的相对作用,因此采用加权距离更为合适)。pjjLLjKKjpppppLKD122),(pjLjLjKjKjpppppp12类似地,可将p个变量看成是n维空间的点,用jnjjjjjpppppp,,,21(pj,,1)表示p个变量的坐标,称为p个变量点,这时两个变量i与j之间的加权距离为pjjKKjiKKippppppjiD122),(通过计算两两样品点或两两变量点之间的距离,可对样品点或变量点进行分类,但这样做还不能用图形表示出来,为了更直观地表示变量点与样品点之间的关系,需给出变量点与样品点协差阵的定义。这里先给出样品点中第j个变量的均值jjjniijjniiijijppppppppp111(pj,,1)这里不是求算术平均,而是按概率ip进行加权,可以验证上式的结果不仅是诸样品平均点坐标,也是各变量的平均值。为此,样品空间中变量点的协差阵)(ijaAanajajajiaiaippppppppp1naajajajaiaiaipppppppppp1naajajajaiaiaipppppppppp1naajaizz1其中aiaiaiaiaiaiaiaiaiaixxxxxxxxxxxxxxxxpppppz(na,1,pi,1)令)(ijzZ则ZZA即变量点的协差阵可以表示成ZZ的形式。类似的,可求出样品点的协差阵)(KLbBipiLijLLiKiiKKippppppppp1piiLiLLiiKiiKKipppppppppp1piILiLLiiKKiKipppppppppp1piLiKizz1其中KiKiKiKiKiKiKiKiKiKixxxxxxxxxxxxxxxxpppppz(pi,1,nK,1)LiLiLiLiLiLiLiLiLiLixxxxxxxxxxxxxxxxpppppz(pi,1,nL,1)从而ZZB综上所述,若将原始数据阵X变换成Z时,则变量点和样品点的协差阵分别为ZZA和ZZB。A和B两矩阵明显的存在着简单的对应关系,而且将原始数据ijx变换成ijz后,ijz对于ji,是对等的,即ijz对变量和样品具有对等性。为了进一步研究R型与Q型因子分析的对应关系,可以借助线性代数中的定理完成。定理:ZZA与ZZB的非零特征根相同。推论:如果U是ZZ的特征向量,则ZU是ZZ的特征向量。如果V是ZZ的特征向量,则VZ是ZZ的特征向量。这是显然的,比如U是ZZ的特征向量,则有UZUZ两边左乘Z得)()(ZUZUZZ即ZU是ZZ的特征向量。这个定理为我们建立了因子分析中R型与Q型分析的关系,我们可以从R型因子分析出发,得到Q型因子分析的结果。由于A与B有相同的特征根,而这些特征根又表示各个公共因子所提供的方差,因此变量空间pR中的第一个公共因子、第二个公共因子直到第m个公共因子与样品空间nR中对应的各个因子在总方差中所占的百分比全相同,从几何的意义上来看,pR中诸样品点与pR中各因子轴的距离和nR中诸变量点与nR中相对应的各因子轴距离完全相同,因此可以把变量点和样品点同时反映在同一个因子轴所确定的平面上,即取同一坐标系,根据接近程ZZB度,将变量点和样品点一起考虑进行分析。第三节对应分析的计算步骤根据上述的分析,可归纳出对应分析的步骤:第一步:由原始数据阵X出发,计算规格化的概率矩阵)(ijpP;第二步:计算过渡矩阵)(ijzZjijiijijxxxxxxz第三步:进行因子分析1.R型因子分析(1)计算协差阵ZZA的特征根p21,按照%8511piimii的原则,取前m个特征根m,1,并计算相应的特征向量,记为muu,1,从而得到因子载荷矩阵mpmppmmmmuuuuuuuuuF221122221211212111(2)在两两因子轴平面上作变量点图。2、Q型因子分析根据上述所求的特征根,计算对应于ZZB的单位特征向量11ZuV,22ZuV,…,mmZuV,从而得到Q型因子分析的载荷矩阵mnmnnmmmmvvvvvvvvvG221122221211212111(2)在与R型相应的因子轴平面上作样品点图。例9.1:对寿险公司偿付能力进行监测,需要建立一套科学客观的监测指标体系,在参照美国IRIS和中国保监会的寿险监测指标体系,结合中国保险业务的特点,考虑到数据的可得性,选用衡量寿险偿付能力的最基本指标,这些指标尽可能考虑影响偿付能力的各个方面,保险公司X1X2X3X4X5X6X7X8中国人寿太保人寿新华人寿泰康人寿太平人寿中宏人寿太平安泰安联大众金盛人寿中保康联信诚人寿恒康天安0.0300-0.04440.11350.09760.16330.31560.34300.32770.70950.91270.70070.86910.0699-0.08500.23250.18180.23950.74560.68251.00853.786514.24402.03157.06301.02150.89351.10431.08521.18901.45081.48891.47983.425411.1641-1.13267.41160.00620.00000.0008-0.0446-0.0551-0.04800.1590-0.3090-0.4516-0.8887-0.1789-0.91690.01720.03340.00190.02290.01250.03470.04100.01720.00000.18570.00000.26210.67750.84640.83360.69040.54050.49680.68820.66130.55370.72440.80010.57490.67250.67380.58410.73750.88050.40690.53010.78380.47310

1 / 8
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功