多元统计分析2019/10/14中国人民大学六西格玛质量管理研究中心2第七章对应分析§7.1列联表及列联表分析§7.2对应分析的基本理论§7.3对应分析的步骤及逻辑框图§7.4对应分析的上机实现2019/10/14中国人民大学六西格玛质量管理研究中心3目录上页下页返回结束第七章对应分析对应分析是R型因子分析与Q型因子分析的结合,它也是利用降维的思想以达到简化数据结构的目的,不过,与因子分析不同的是,它同时对数据表中的行与列进行处理,寻求以低维图形表示数据表中行与列之间的关系。对应分析的思想首先由(Richardson)和(Kuder)在1933年提出,后来法国统计学家(Jean-PaulBenzécri)和日本统计学家林知己夫(ChikioHayashi)对该方法进行了详细的论述而使其得到了发展。对应分析方法广泛用于对由属性变量构成的列联表数据的研究,利用对应分析可以在一张二维图上同时画出属性变量不同取值的情况,列联表的每一行及每一列均以二维图上的一个点来表示,以直观、简洁的形式描述属性变量各种状态之间的相互关系及不同属性变量之间的相互关系。2019/10/14中国人民大学六西格玛质量管理研究中心4目录上页下页返回结束§7.1列联表及列联表分析在讨论对应分析之前,我们先简要回顾一下列联表及列联表分析的有关内容。在实际研究工作中,人们常常用列联表的形式来描述属性变量(定类尺度或定序尺度)的各种状态或是相关关系,这在某些调查研究项目中运用得尤为普遍。比如,公司的管理者为了了解消费者对自己产品的满意情况,需要针对不同职业的消费者进行调查,而调查数据很自然的就以列联表的形式提交出来。见表7-1所示。2019/10/14中国人民大学六西格玛质量管理研究中心5目录上页下页返回结束§7.1列联表及列联表分析以上是两变量列联表的一般形式,横栏与纵栏交叉位置的数字是相应的频数。这样表露数据就可以清楚地看到不同职业的人对该公司产品的评价,以及所有被调查者对该公司产品的整体评价、被调查者的职业构成情况等信息;通过这张列联表,还可以看出职业分布与各种评价之间的相关关系,如管理者与比较满意交叉单元格的数字相对较大(“相对”指应抵消不同职业在总的被调查对象中的比例的影响),则说明职业栏的管理者这一部分与评价栏的比较满意这一部分有较强的相关性。由此可以看到,借助列联表,人们可以得到很多有价值的信息。2019/10/14中国人民大学六西格玛质量管理研究中心6目录上页下页返回结束§7.1列联表及列联表分析在研究经济问题的时候,研究者也往往用列联表的形式把数据呈现出来。比如说横栏是不同规模的企业,纵栏是不同水平的获利能力,通过这样的形式,可以研究企业规模与获利能力之间的关系。更为一般的,可以对企业进行更广泛的分类,如按上市与非上市分类,按企业所属的行业分类,按不同所有制关系分类等。同时用列联表的格式来研究企业的各种指标,如企业的盈利能力、企业的偿债能力、企业的发展能力等。这些指标即可以是简单的,也可以是综合的,甚至可以是用因子分析或主成分分析提取的公因子;把这些指标按一定的取值范围进行分类,就可以很方便地用列联表来研究。2019/10/14中国人民大学六西格玛质量管理研究中心7目录上页下页返回结束§7.1列联表及列联表分析2019/10/14中国人民大学六西格玛质量管理研究中心8目录上页下页返回结束§7.1列联表及列联表分析2019/10/14中国人民大学六西格玛质量管理研究中心9目录上页下页返回结束§7.1列联表及列联表分析2019/10/14中国人民大学六西格玛质量管理研究中心10目录上页下页返回结束§7.1列联表及列联表分析2019/10/14中国人民大学六西格玛质量管理研究中心11目录上页下页返回结束§7.1列联表及列联表分析2019/10/14中国人民大学六西格玛质量管理研究中心12目录上页下页返回结束§7.1列联表及列联表分析2019/10/14中国人民大学六西格玛质量管理研究中心13目录上页下页返回结束§7.1列联表及列联表分析2019/10/14中国人民大学六西格玛质量管理研究中心14目录上页下页返回结束§7.1列联表及列联表分析2019/10/14中国人民大学六西格玛质量管理研究中心15目录上页下页返回结束§7.2对应分析的基本理论2019/10/14中国人民大学六西格玛质量管理研究中心16目录上页下页返回结束§7.2对应分析的基本理论假定我们下面讨论的都是形如表7-3的规格化的列联表数据。为了论述方便,先对有关概念进行说明。2019/10/14中国人民大学六西格玛质量管理研究中心17目录上页下页返回结束§7.2对应分析的基本理论7.2.1有关概念1.行剖面与列剖面2019/10/14中国人民大学六西格玛质量管理研究中心18目录上页下页返回结束§7.2对应分析的基本理论2019/10/14中国人民大学六西格玛质量管理研究中心19目录上页下页返回结束§7.2对应分析的基本理论2019/10/14中国人民大学六西格玛质量管理研究中心20目录上页下页返回结束§7.2对应分析的基本理论2019/10/14中国人民大学六西格玛质量管理研究中心21目录上页下页返回结束§7.2对应分析的基本理论2.距离与总惯量2019/10/14中国人民大学六西格玛质量管理研究中心22目录上页下页返回结束§7.2对应分析的基本理论2019/10/14中国人民大学六西格玛质量管理研究中心23目录上页下页返回结束§7.2对应分析的基本理论2019/10/14中国人民大学六西格玛质量管理研究中心24目录上页下页返回结束§7.2对应分析的基本理论2019/10/14中国人民大学六西格玛质量管理研究中心25目录上页下页返回结束§7.2对应分析的基本理论2019/10/14中国人民大学六西格玛质量管理研究中心26目录上页下页返回结束§7.2对应分析的基本理论因此,此处总惯量也反映了两个属性变量各状态之间的相关关系。对应分析就是在对总惯量信息损失最小的前提下,简化数据结构以反映两属性变量之间的相关关系。实际上,总惯量的概念类似于主成分分析或因子分析中方差总和的概念,在SPSS软件中进行对应分析时,系统会给出对总惯量信息的提取情况。2019/10/14中国人民大学六西格玛质量管理研究中心27目录上页下页返回结束§7.2对应分析的基本理论7.2.2对应分析的基本理论经过以上数据变换,在引入加权距离函数之后,或是对行剖面集的各点进行式(7.8)的变换,对列剖面的各点进行类似变换之后,就可以直接计算属性变量各状态之间的距离,通过距离的大小来反映各状态之间的接近程度,同类型的状态之间距离应当较短,而不同类型的状态之间的距离应当较长,据此可以对各种状态进行分类以简化数据结构。但是,这样做不能对两个属性变量同时进行分析,因此不计算距离,代之求协方差矩阵,进行因子分析,提取主因子,用主因子所定义的坐标轴作为参照系,对两个变量的各状态进行分析。2019/10/14中国人民大学六西格玛质量管理研究中心28目录上页下页返回结束§7.2对应分析的基本理论2019/10/14中国人民大学六西格玛质量管理研究中心29目录上页下页返回结束§7.2对应分析的基本理论2019/10/14中国人民大学六西格玛质量管理研究中心30目录上页下页返回结束§7.2对应分析的基本理论2019/10/14中国人民大学六西格玛质量管理研究中心31目录上页下页返回结束§7.2对应分析的基本理论2019/10/14中国人民大学六西格玛质量管理研究中心32目录上页下页返回结束§7.2对应分析的基本理论2019/10/14中国人民大学六西格玛质量管理研究中心33目录上页下页返回结束§7.2对应分析的基本理论2019/10/14中国人民大学六西格玛质量管理研究中心34目录上页下页返回结束§7.2对应分析的基本理论2019/10/14中国人民大学六西格玛质量管理研究中心35目录上页下页返回结束§7.2对应分析的基本理论7.2.3对应分析应用于定量变量的情况上面对对应分析方法的描述都是以属性变量数据为例展开的,这是因为在实际中对应分析广泛地应用于对属性变量列联表数据的研究,实际上,对应分析方法也适用于定距尺度与定比尺度的数据。2019/10/14中国人民大学六西格玛质量管理研究中心36目录上页下页返回结束§7.2对应分析的基本理论其实,对于定距尺度与定比尺度的情况,完全可以把每一个观测都分别看成是一类,这也是对原始数据进行的最细的分类;同时把每一个变量都看成是一类。这样,对定距尺度数据与定比尺度数据的处理问题就变成与上面分析属性变量相同的问题了,自然可以运用对应分析来研究行与列之间的相关关系。2019/10/14中国人民大学六西格玛质量管理研究中心37目录上页下页返回结束§7.2对应分析的基本理论7.2.4需要注意的问题需要注意的是,同对应分析生成的二维图上的各状态点,实际上是两个多维空间上的点的二维投影,在某些特殊的情况下,在多维空间中相隔较远的点,在二维平面上的投影却很接近。此时,我们需要对二维图上的各点做更深的了解,即哪些状态对公因子的贡献较大,这与在因子分析中判断原始变量对公因子贡献的方法类似。2019/10/14中国人民大学六西格玛质量管理研究中心38目录上页下页返回结束§7.2对应分析的基本理论2019/10/14中国人民大学六西格玛质量管理研究中心39目录上页下页返回结束§7.3对应分析的步骤及逻辑框图7.3.1对应分析的步骤2019/10/14中国人民大学六西格玛质量管理研究中心40目录上页下页返回结束§7.3对应分析的步骤及逻辑框图7.3.2对应分析的逻辑框图2019/10/14中国人民大学六西格玛质量管理研究中心41目录上页下页返回结束§7.4对应分析的上机实现SPSS软件的CorrespondenceAnalysis模块是专门进行对应分析的模块。下面我们举例说明用CorrespondenceAnalysis模块进行对应分析的方法。【例7-1】选用SPSS软件自带的GSS93subset.sav数据,该数据在SPSS软件的安装目录下可以找到,该数据共包括1500个观测,67个变量。我们仅借助它来说明CorrespondenceAnalysis模块的使用方法,不对其具体意义作过多的分析。选用该数据集中Degree(学历)与Race(人种)变量为例来说明。其中Degree变量是定类尺度的,其各个取值的含义如下:0—中学以下(lessthanhighschool),1—中学(highschool),2—专科(juniorcollege),3—本科(bachelor),4—研究生(graduate),7,8,9—缺失;Race变量是定名尺度的,其各个取值的含义如下:1—白种人(white),2—黑种人(black),3—其他(other)。2019/10/14中国人民大学六西格玛质量管理研究中心42目录上页下页返回结束§7.4对应分析的上机实现打开GSS93subset.sav数据,对变量Degree与变量Race进行对应分析,依次点选Analyze→DataReduction→CorrespondenceAnalysis…进入CorrespondenceAnalysis对话框。数据集中所有的变量名(标签)均已出现左边的窗口中,将Degree变量选入右侧行变量(Row)的小窗口中,此时该窗口显示的Degree变量形如:Degree(??),同时,其下方的DefineRange按钮被击活,点击该按钮,进入DefineRowRange对话框,在该对话框中需要确定Degree变量的取值范围,此处我们不研究缺失值,最小值(minimumvalue)与最大值(maximumvalue)处分别填上0和4,按右侧的update(更新)按钮,可以看到Degree的取值0—4已出现在CategoryConstraints框架左侧的窗口中,该框架的作用是对Degree的各状态加以限定条件的,保持默认值none不变,即对Degree的取值