第12章因子分析与对应分析FACTOR返回目录因子分析主成分分析与因子分析概述因子分析过程(操作)因子分析实例利用因子得分进行聚类市场研究中的顾客偏好分析习题及参考答案对应分析对应分析过程(操作)对应分析实例习题及参考答案结束返回主成分分析与因子分析主成分分析与因子分析概述身高体重数据变量观测量i身高h体重w1h1w12h2w23h3w34h4w4………nhnwn主成分概念示意图用p1一个指标来代替原始变量h、w研究n个观测对象的差异。p1、p2可以用原始变量h、w的线性组合来表示:wlhlpwlhlp2221212111主成分分析与因子分析概述变量j观测量ix1x2x3x4x5…xm1x11x12x13x14x15…x1m2x21x22x23x24x25…x2m3x31x32x33x34x35…x3m4x41x42x43x44x45…x4m5x51x52x53x54x55…x5m……………………nxn1xn2xn3xn4xn5…xnmmmmmmmmmmmmmmxlxlxlxlpxlxlxlxlpxlxlxlxlpxlxlxlxlp332211333323213132323222121213132121111参与因子分析的观测量与变量数据主成分分析中的主要统计量返回主成分分析与因子分析概述第i个特征值1)(12imiiiPnppSI关于特征方程的根主成分分析与因子分析概述mSSimiPPmiiiII11第i个成分的贡献率:前k个成分的累计贡献率kiikimiiim111返回主成分分析与因子分析概述,,1,...,ijiijalijm为第i个成分和第j个变量的相关系数返回载荷(loading)因子分析的概念设有原始变量:x1,x2,x3,…,xm。它们与潜在因子之间的关系可以表示为mmmmmmmmmmmmmmezbzbzbzbxezbzbzbzbxezbzbzbzbxezbzbzbzbx332211333332321313223232221212113132121111其中z1~zm为m个潜在因子,共性因子;e1~em为个性因子返回因子分析的概念mkmkmmmkkkkkkefffxefffxefffxefffx2211332321313222221212112121111公因子数为k,初始因子模型为:其中mxx~1是对原始变量进行均值为0,标准差为1标准化后的变量。fi为第i个因子,ij为x’I在共性因子fi上的载荷返回因子分析的概念1)(Varianceix)(ixVa,记做1)()(2232221iimiiiieVxVa由两部分组成:共性方差:2232221imiii特性方差V(e)mjijixVc12)(前k个因子,共性方差为:kjijixVc12)(返回因子分析菜单返回因子分析主对话框现以对12个地区的5个经济指标的调查数据进行因子分析为例,本数据是美国洛杉矶标准大城市统计区中的12个人口调查区的五个经济学变量的数据。返回因子分析简单实例输出1返回TotalVarianceExplained2.87357.46657.4662.87357.46657.4661.79735.93393.3991.79735.93393.399.2154.29797.6969.993E-021.99999.6951.526E-02.305100.000Component12345Total%ofVarianceCumulative%Total%ofVarianceCumulative%InitialEigenvaluesExtractionSumsofSquaredLoadingsExtractionMethod:PrincipalComponentAnalysis.总方差分解返回因子载荷阵因子分析简单实例输出2选择描述统计量的子对话框返回因子提取子对话框返回有关旋转方法选择的子对话框返回因子得分选择项子对话框返回选择输出项对话框返回因子分析实例输出1CorrelationMatrix1.000.010.972.439.022.0101.000.154.691.863.972.1541.000.515.122.439.691.5151.000.778.022.863.122.7781.000.488.000.077.472.488.316.006.000.000.316.043.353.077.006.043.001.472.000.353.001总人口中等校平均校龄总雇员数专业服务项目数中等房价总人口中等校平均校龄总雇员数专业服务项目数中等房价CorrelationSig.(1-tailed)总人口中等校平均校龄总雇员数专业服务项目数中等房价返回原始变量的相关矩阵因子分析实例输出2返回旋转前的因子载荷阵因子分析实例输出3因子得分系数旋转后的因子与原始变量的相关阵返回旋转后的因子载荷阵因子分析实例输出4返回各成分特征值的碎石图旋转后的主成分图因子分析实例输出5返回各观测量的两个因子得分的新变量利用因子得分聚类实例输出1相似性矩阵ProximityMatrix5.2976.606.595.6076.2314.1863.2891.6701.2555.6054.0365.297.7403.4912.934.053.2694.5336.23410.805.5836.2496.606.7405.6384.821.7331.8022.9255.31911.263.0884.168.5953.4915.638.0337.2862.2124.7673.5563.5347.3426.084.6072.9334.825.0336.3961.8404.1433.1903.6086.5235.4316.2314.0531.7337.2866.405.518.6492.5218.075.249.9104.186.2691.8022.2121.845.5185.2906.3029.6736.9117.1413.2894.5332.9254.7674.14.6495.290.6124.155.307.1391.6706.2345.3193.5563.192.5216.302.6121.5901.607.6351.25510.80111.2563.5343.618.0759.6734.1551.5906.3674.1215.6055.5833.0887.3426.52.2496.911.3071.6076.367.2654.0366.2494.1686.0845.43.9107.141.139.6354.121.265Case123456789101112123456789101112SquaredEuclideanDistanceThisisadissimilaritymatrix返回利用因子得分聚类实例输出2ClusterMembership111222222111111331222331331411331331Case1:12:23:34:45:56:67:78:89:910:1011:1112:124Clusters3Clusters2Clusters返回聚为2、3和4类的各观测量分类结果利用因子得分聚类实例输出3VerticalIcicleXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXNumberofclusters2343:37:72:29:912:128:811:116:610:105:54:41:1Case返回平均连接法形成的冰柱图利用因子得分聚类实例输出4返回反映聚类全过程的树形图利用因子得分变量作散点图输出1返回以编号标识的散点图以类号标识的散点图排序后的数据返回市场研究中的顾客偏好分析输出1初始因子载荷阵前3个因子(成分)方差解释TotalVarianceExplained10.83743.34843.3485.80223.20766.5552.0608.24074.795Component123Total%ofVarianceCumulative%ExtractionSumsofSquaredLoadingsExtractionMethod:PrincipalComponentAnalysis.返回市场研究中的顾客偏好分析输出2返回特征值散点图市场研究中的顾客偏好分析输出3数据文件中的三个新变量—因子得分返回17种车型的因子得分散点图返回25个顾客的偏好散点图返回对应分析概述(略)返回对应分析菜单返回对原始数据加权对话框返回对应分析主对话框定义行变量返回指定行变量的数值范围对话框返回定义列变量对话框返回列变量的数值范围对话框返回对应分析--模型选择对话框返回输出统计量和输出项对话框返回输出的统计图形对话框返回对应分析实例输出1返回对应表对应分析实例输出2返回行、列归一化处理表对应分析实例输出3汇总表返回对应分析实例输出4返回行、列得分图习题121.简述主成分分析的基本思想。2.用什么统计量衡量主成分中各成分提供的信息量?3.一般根据什么确定主成分提取的数量?4.简述因子分析的基本思想。5.为什么要对初始因子分析结果进行旋转?6.简述对应分析的基本思想,对应分析与因子分析有什么不同?7.数据data12-04是某医院3年中各月的数据,包括门诊人次、出院人数、病床利用率和周转次数、平均住院天数、治愈或好转率、病死率、诊断符合率、抢救成功率。采用因子分析法探讨综合评价指标。8.数据data12-05是1997年全国31个省市自治区按各种经济类型资产占总资产比重(%)的数据,试对其作对应分析。返回习题参考答案1.从众多的原始变量中根据他们之间的相关性找出几个综合指标,每个综合指标都是原始变量的线性组合。这些指标包含了原始变量的大部分信息。由于综合指标的数量大大低于原始变量数目,从而大大降低了分析计算的工作量。对被研究对象的描述也会因为维数的降低更加容易。2.各成分提供的信息量用方差来衡量。因为主成分分析是把原始变量的总方差分解为各成分的方差。原始变量的总方差等于各成分方差之和(原始变量标准化后总方差等于变量个数)。每个成分即每个综合指标的方差在总方差中的比值就是他的贡献率,贡献率越大说明他对解释原始变量之间差异的能力越大即他包含的信息量越大。因此各成分提供的信息量用方差来衡量。3.一般主成分数的确定主要看:(1)累计贡献率。各成分的方差按降序排序后,前n个成分的累计贡献率达到某个特定值时就取n个成分作为原始变量的主成分。一般要求达到70%以上,否则丢失信息量太大。(2)取特征值=1的的成分定为主成分。4.在研究工作中往往存在不可直接观察到的现象或因素,这些因素表现在各个可以观测到的指标之中。因子分析就是根据可观测到的变量之间的相关性探讨对这种相关性起支配作用的潜在因素的方法。返回习题参考答案5、因子分析的目的不仅仅是找出公因子,更重要的是探讨各因子的专业意义,从而达到分析实际问题的目的。但是在因子分析的初始结果中,各因子的代表变量往往不是能集中表达其专业意义的,因此很难对公因子进行命名和解释。由于因子分解的解并不唯一,可以通过将因子载荷阵乘以一个正交旋转矩阵,得到因子矩阵的变换(旋转)可以解决上述问题。6、见书中p506返回习题参考答案第6题:操作过程:用主成分法进行因子分析。返回习题参考答案执行的程序:FACTOR/VARIABLESx1x2x3x4x5x6x7x8x9/MISSINGLIS