zf本章重点:1、什么是对应分析?2、理解对应分析的基本思想3、对应分析的基本步骤4、结合SPSS软件进行案例分析对应分析2020/1/312zf社会科学的数量研究中经常会对品质型(属性)变量进行分析,研究两个或多个品质型变量之间的相关关系。例如:利用储户储蓄数据研究储户收入水平与所选择的储蓄种类间是否存在联系;(该问题中收入水平和储蓄种类均是品质型变量,其中收入水平为定序变量,储蓄种类为定类变量)例如:分析顾客职业与购买汽车的品牌之间的关系,研究不同客户群对汽车的喜爱偏好。(该问题中顾客职业和汽车品牌均是定类的品质型变量)如何研究品质型变量间的关系?2020/1/313zf1交叉列联表描述属性变量(定类或定序尺度变量)的各种状态或是相关关系。例:研讨患肺癌与吸烟是否有关?是否吸烟是否患肺癌吸烟不吸烟合计患肺癌60363未患肺癌321143合计9214106通过列联表的卡方检验进一步探究列联表中变量间的联系。2020/1/314zf问题在于:当属性变量A和B的状态较多时,很难透过列联表作出直观地揭示出变量之间的联系以及变量各分类之间的联系。主要表现在:首先,由于变量的分类值较多使得交叉列联表行列数剧增,列联表庞大,不易于对列联表的直观观察。更主要的是,由于列联表的单元格数较多,极不易于揭示列联表中行列变量之间的联系。其次,在变量分类值较多但样本量却不足够大时,生产的交叉列联表中会出现数据“稀疏”现象,不易于卡方检验等分析方法的运用。怎么办??2020/1/315zf怎样简化列联表的结构?利用降维的思想。如因子分析和主成分分析。但因子分析的缺陷是在于无法同时进行R型因子分析和Q型因子分析。怎么办?对应分析2020/1/316zf2对应分析的基本理论(1)什么是对应分析?对应分析是利用“降维”的方法,以两变量的交叉列联表为研究对象,通过图形的方式,直接揭示变量之间以及变量的不同类别之间的联系,特别适合于多分类属性变量研究的一种多元统计分析方法。2020/1/317zf(2)对应分析的基本思想:首先,编制两品质型变量的交叉列联表,将交叉列联表中的每个数据单元看成两变量在相应类别上的对应点;然后,对应分析将变量及变量之间的联系同时反映在一张二维或三维的散点图上,并使联系密切的类别点较集中,联系疏远的类别点较分散;最后,通过观察对应分布图就能直观地把握变量类别之间的联系.2020/1/318zf(3)对应分析的一大特点:可以在一张二维图上同时表示出两类属性变量的各种状态,以直观描述原始数据结构。对应分析的关键问题是:如何将多个类别点表示在低维空间中,以便于直接观察如何确定各类别点的坐标,以易于鉴别类别间联系的强弱2020/1/319zf3对应分析的基本步骤一、编制交叉列联表并计算概率矩阵P二、根据概率矩阵P确定数据点坐标三、行变量和列变量的分类降维处理四、绘制行列变量分类的对应分布图对应分析采用与因子分析类似的方法降低维数,采用与多维尺度分析类似的方法绘制图形。2020/1/3110zf一、编制交叉列联表并计算概率矩阵P编制两品质变量的交叉列联表,涉及的两变量分别称为行变量和列变量。例如:编制收入水平与储蓄品种的交叉列联表。其中,行变量为收入水平(r个类),列变量为储蓄品种(c个类)。于是得到一个r×c的矩阵X,即:将矩阵X化为概率矩阵P,即:.0212222111211ijrcrrccxcrxxxxxxxxxX要求为列变量的分类数,且为行变量的分类数,其中,比。为各单元频数的总百分其中,,11212222111211ricjijijijrcrrccxxppppppppppP2020/1/3111zf将P矩阵的r行看成r个样本,并将这r个样本看成c维空间中的r个数据点,且各数据点的坐标定义为:),.....,3,2,1;,.....,3,2,1(,),,3,2,1(,.....,,,11321cjripppzrizzzzckikrkkiijijiciiiL二、根据概率矩阵P确定数据点坐标•如果某两个数据点相距较近,则表明行变量的相应两个类别在列变量所有类别上的频数分布差异均不明显。•如:若中等收入水平点与中高收入水平点距离较近,则意味着中等收入水平和中高收入水平对储蓄品种的选择具有相似性;反之则差异明显。2020/1/3112zf同理,将P矩阵的c列看成c个样本,并将这c个样本看成r维空间中的c个数据点,且各数据点的坐标定义为:),,3,2,1;,,3,2,1(,),,3,2,1(,,,,11321cjripppzcizzzzrkkickikijijriiii其中•如果某两个数据点相距较近,则表明列变量的相应两个类别在行变量所有类别上的频数分布差异均不明显。•如:若一年定期储蓄点与活期储蓄点距离较近,则意味着一年定期储蓄和活期对不同收入水平的储户具有选择上的相似性;反之则不具有选择上的相似性。2020/1/3113zf对列变量实施分类降维•将P矩阵的c列看作c个变量,计算c个变量的协方差矩阵A。•从协方差矩阵A出发,计算协方差矩阵A的特征根•以及协方差矩阵A的特征根对应的特征向量•根据累计方差贡献率确定最终提取特征根的个数,通常k取2,并计算出相应的因子载荷矩阵F,即:1,min0,21crkk三、行变量和列变量的分类降维处理kuuu,,,212211222121212111ccuuuuuuF其中,因子载荷是列变量的某分类在某个因子上的载荷,反映了他们之间的相关关系。与因子分析类似,可通过变量(列变量某分类)的共同度测度其方差的解释程度和信息的丢失程度;可通过因子的方差贡献测度因子的重要程度。2020/1/3114zf对行变量实施分类降维•将P矩阵的r行看作r个变量,计算r个变量的协方差矩阵B。•从协方差矩阵B出发,计算协方差矩阵B的特征根和特征向量。•根据累计方差贡献率确定最终提取特征根的个数,通常k取2,并计算出相应的因子载荷矩阵G,即:2211222121212111ccvvvvvvG其中,因子载荷是行变量的某分类在某个因子上的载荷,反映了他们之间的相关关系。与因子分析类似,可通过变量(行变量某分类)的共同度测度其方差的解释程度和信息的丢失程度;可通过因子的方差贡献测度因子的重要程度。2020/1/3115zf因因子载荷F和G中元素,其取值范围是相同的,且元素数量大小的含义也类似因此可将F和G分别看成c个二维点和r个二维点绘制在一个共同的坐标平面中,形成对应分布图,各点的坐标即为相应的因子载荷。四、绘制行列变量分类的对应分布图通过以上步骤,实现了对行列变量多类别的降维,并以因子载荷为坐标,将行列变量的多个分类点直观地表示在对应分布图中,实现了品质变量各类别间差异的量化。通过观察对应分布图中各数据点的远近就能够判断各类别之间的联系。2020/1/3116zf4对应分析的基本操作和案例1、对应分析的基本操作(SPSS):Analyze——datareduction——correspondenceanalysis2020/1/3117zf案例1:客户对购买户型的偏好分析现收集到购买商品房的客户背景资料和房屋购买情况的数据,根据这些数据分析不同客户对户型购买的偏好.(见数据“对应分析.SAV”)2020/1/3118zf1、SPSS操作弹出对应分析对话框:分析Analyze——降维datareduction——对应分析correspondenceanalysis对应分析对话框行变量的选择列变量的选择行变量的取值定义列变量的取值定义2020/1/3119zf行列变量分类值定义窗口单击“定义范围definerange”;在Minimumvalue框输入分类最小值;在Maximum框输入分类最大值单击Update,分类值一次显示在窗口下方的框中。表示不在对分类值重新分组表示指定将哪些分类值合并为一类表示指定某些分类值不参与分析2020/1/3120zf对应分析的Model窗口:进行模型参数设置输入行列变量分类最终提取的因子个数;该数可根据累计方差贡献率给定,或指定2(默认)以便于将各分类点表示在二维平面上指定分类点间距离的定义方式,对品质变量通常选卡方(ChiSquare)即可;其它定距变量选欧氏距离(Euclidean)数据的标准化处理方式NormalizationMethod框中指定数据正态化的方式;当希望重点分析行列变量各类别之间的联系,而非每个变量各类别之间的差异时选‘对称Symmetrical’;当希望重点分析行变量各类别之间的差异时选‘主要行RowPrincipal’;当希望重点分析列变量各类别之间的差异时选‘主要列ColumnPrincipal’;当希望同时分析行列变量各类别之间的差异时选‘主要Principal’;········2020/1/3121zf对应分析的Statistics窗口单击Statistics按钮指定输出哪些统计量;Correspondencetable表示输出行列变量的交叉列联表;Overviewofrowpoints表示输出行变量分类的因子载荷以及方差贡献等;Overviewofcolumnpoints表示输出行变量分类的因子载荷以及方差贡献等;交叉列联表;Rowprofiles表示输出频数的行百分比;Columnprofiles表示输出频数的列百分比;2020/1/3122zf单击Plots按钮指定输出哪些图形。对应分析的Plots窗口输出散点图输出行列变量的对应分析图输出行变量各类别在第一和第二因子上的载荷图输出列变量各类别在第一和第二因子上的载荷图指定散点图中数据点标签的长度输出线性图输出行变量各分类的因子载荷线图输出列变量各分类的因子载荷线图2020/1/3123zf分析结果:CreditCORRESPONDENCEVersion1.0byDataTheoryScalingSystemGroup(DTSS)FacultyofSocialandBehavioralSciencesLeidenUniversity,TheNetherlands对应分析模型的版权信息。对应分析模块是荷兰Leiden大学DTTS课题组的研究成果。由于SPSS套用了该模块,所以每次分析结果中均显示它的版权信息。2020/1/3124zfCorrespondenceTable272731100002347026493811300019257552102900716233355013112051169026119023450020001600035003003141116794185192315332512719家庭年收入5000元以下5000~10000元10000~25000元25000~50000元50000~75000元75000元以上ActiveMargin一室一厅两室一厅两室两厅三室一厅三室两厅三室三厅四室两厅单卫四室二厅双卫四室三厅单卫四室三厅双卫更大户型ActiveMargin购买户型家庭年收入与购买户型的交叉列联表。表中数据为相应的频数。ActiveMargin为边缘频数,是相应的合计数据。由表中可看出,719名客户中,大多数的家庭年收入在5000-10000元、10000-25000万和25000-50000元之间。大多数家庭选择购买了两室一厅、三室一厅和三室两厅。尽管该表大致可以发现客户以及客户的购买倾向,但没有揭示出哪类家庭偏好哪种户型的规律。交叉列联表2020/1/3125zfRowProfiles.087.304.087.304.130.043.043.000.000.000.0001.000.021.365.135.255.198.00