对应分析SPSS操作对应分析(一):简单对应分析•案例1:•研究者收集了苏格兰北部Caithness郡5387名小学生眼睛与头发颜色的数据,见下表,期中眼睛有深、棕、蓝、浅四种颜色,头发有金、红、棕、深、黑五种颜色。研究者希望知道头发和眼睛的颜色间存在何种关联,即某种头发颜色的人的眼睛更倾向于何种颜色?•表:头发颜色与眼睛颜色的交叉表头发颜色合计金色红色棕色深色黑色眼睛颜色深色9848403681851,315棕色34384909412261,774蓝色326382411103718浅色68811658418841,580合计1,4552862,1371,3911185,387数据是一个加权的数据,也就是频数数据。num:指定为频数变量,在分析中无需再次加权hair和eye为需要分析的变量。选择“分析”—“降维”—“对应分析”头发共有五种发色,故范围定义为(15)眼睛共有四种颜色,将范围定义为(14)选择“模型”,如截图所示解的维数:相当于因子分析和主成分分析中的维数,通常默认为2,看能否进行解释,若不可以,则可以根据累计方差进行选择。距离度量:选择“卡方”(一般分类变量距离度量选择卡方,而数值变量的距离度量选择欧式距离)标准化方法:选择“行和列均值已删除”行和列均值已删除:行和列均中心标准化行均值删除:对行中心标准化。列均值删除:对列中心标准化使行总和相等,删除均值:使行的边际相等,对行中心化。使列总和相等,删除均值:使列的边际相等,对列中心化。正态化方法:选择默认值“对称”对称法:适用于行列变量间有相关关系主要行(列):适用于行(列)变量间有一定的差别主要:既考虑行,又考虑到列。点击“统计量”选择“对应表”,“行点概览”,“列点概览”对应表:作出行列对应表行点概览:行变量的因子分析表列点概览:列变量的因子分析表对应表的排列:研究一定维数的对应表(此处的维数应小于对应表中的最大维数)行轮廓表:行变量的频数分布表列轮廓表:列变量的频数分布表置信统计量:显示在95%置信区间下的统计量。•选择“绘制”•散点图双标图(必选):可以在双坐标轴上,同时作出行列变量在坐标系中的距离关系。行(列)点:行变量的散点图标识标签宽度:为小于等于20的整数•线图(通常不选)已转换的行(列)类别:行(列)的因子构成的线图•图维数(选择默认)显示解中的所有维数限制维数:最低维数通常设定为1;最高维数为:总体样本量—1由表中的卡方值(1240.39)和p值(小于0.05)知行列变量之间存在一定的相关性。从表格中可以看出,原始交叉表中最多可以提取三个维度,因为第一维度与第二个维度已经可以解释99.6%的信息了,而第三个维度只携带0.4%的信息,所以第三个维度可以忽略,只考察前两个维度的信息。概述行点:把行变量头发颜色的五个类别在两个维度里进行坐标值的计算,同样,概述列点是把列变量眼睛颜色的四个类别在整个空间中进行坐标值的计算。可以根据两个坐标值得到最终的对应分析图。在对应分析图中,分别向x轴和y轴加入参考线,并将位置改在原点0.0处。可以得到原点(0.0)。原点(0.0)表示没有任何倾向,没有任何关联的一个中心位置。对应分析图的阅读•每个维度可能代表了一种特征•实际上就是一个提取出的主成分,但是由于分类变量的信息较少,可能找不到合理的解释。•1.考察同一变量的区分度:•如果同一变量不同类别在某个方向上靠的较近,说明这些类别在该维度上区别不大。•2.考察不同变量的类别联系:•一般而言,落在从图形原点(0,0)处出发相同方位上大致相同区域内的不同变量的分类点彼此有联系。散点间距离越近,说明关联倾向越明显;散点离远点越远,也说明关联倾向越明显。对图形的分析•在第一个维度中取值较低的为:金色、蓝色、红色。取值居中的为:棕色,取值较高的:深色、黑色。在第一维度中从左至右的趋势:颜色在慢慢加深,故第一维度的可能解释:颜色的深浅。•第二维度中取值较低的有:发金色、发黑色,取值较高的有发棕色,眼棕色。第二维度方向上,难以找到一个合理的解释。(维度没有任何解释也是可以接受的)•在对应分析的空间里,散点的分布比较分散,没有发现聚在一起不能明确分开的迹象。对图形的分析•两变量之间的关联如何考虑:•第四象限中:发深色、眼深色、发黑色在相同方向上并在大致相同的区域,说明三者之间有一定的关联,都偏离原点较远,说明关联性较强•原点上方:发棕色、眼棕色距离较近,偏离原点较远,且两个散点距离比较近,说明两者间是有关联的。•在左下方,可看到发金色、眼蓝色、眼浅色离原点比较远,彼此之间距离比较近,说明这些特征之间之间是有关联的。•发红色与眼浅色较靠近,但是发红色与原点比较近,又因为原点的周围是没有倾向性的区域,因而不作解释(易出错)。避免错误的解释•错误的解释:金色头发的儿童中蓝色、浅色眼镜者居多•正确的解释:相对于平均水平而言,金色头发的儿童中蓝色、浅色眼睛的比例要高一些,也就是高于其他颜色头发的儿童。对应分析中应注意的问题•分析目的:重在观察行、列变量间的联系•数据类型:无序分类较佳,如果均为有序分类,且变量较多时,采用多维偏好分析更合适•样本量:对极端值敏感,分析时有必要去除频数过少的单元格(对于小样本不推荐使用)•变量间关联:不能将对应分析作为筛选相关变量的方法,变量纳入前最好先做卡方检验•案例2(基于均数的对应分析):•本数据来自《2000年中国统计年鉴》,见文件mean.sav。共记录了全国29个省、市、自治区(未包括香港、澳门、台湾地区及海南、青海、西藏数据)当年的城市市政工程建设状况,具体有如下6个指标:road(年末实有道路长度)、area(年末实有道路面积)、bridge(城市桥梁数)、under(城市下水道长度)、water(城市污水处理能力)、lamp(城市路灯数)。现希望考察各省(市)城市设施水平的建设情况差异,特别是各地区在这些指标上分别存在着哪些优势和不足之处。•分析:•这里主要考察各地区在各个指标上有何差异,例如:北京在哪些指标上高于平均水平,哪些指标低于平均水平,而这符合对应分析反映类别间差异的特点,故使用对应分析法。如果分析的目的不同,如综合评价,则应考虑因子分析等方法。•数据格式:•行列变量形成的交叉表,列变量每一个类别以单独变量的形式出现,行变量各类别单独占一行,同时存在数值型变量rowcat_,其取值和变量值选项代表了行变量的不同类别名称,例如:1为广东,2为江苏。对话框中选入road和area,并将它们的取值范围定义为1~2只是为了能够顺利完成程序复制,并没有实际意义。•此处的变量都为数值型变量,因而对于距离的度量选用欧式距离•标准化方法的选择:“使列总和相等,删除均值”•分析:•此处6项指标的均数大不相同,同时它们的量纲也相差较大,最大值、最小值的倍数在几十到几千不等;另外,各省(市)发展水平的差异是希望考察的内容。•故使用“使列总和相等删除均值”这一标化方法更为妥当,它可以消除各指标均数和量纲不同的影响,同时又保留了地区发展水平的差异。•点击“粘贴”按钮,在程序中将table语句右侧的定义“road(12)byarea(12)”改为“all(296)”,这表明数据是以交叉表形式出现,而且为29行、6列•Rowcat_为控制变量,不计入列中•注意:更改时使用英文符号输入。该摘要表中,前两个维度共携带了总信息量的91.9%,因而使用默认的二维所得到的结果是比较好的。Thankyou