第9章SPSS的多元统计分析9.1.1因子分析的基本原理通常针对变量作因子分析,称为R型因子分析;另一种对样品作因子分析,称为Q型因子分析,这两种分析方法有许多相似之处。R型因子分析数学模型是:设原有p个变量且每个变量(或经标准化处理后)的均值为0,标准差为1。现将每个原有变量用k()个因子的线性组合来表示,即有:上式就是因子分析的的数学模型,也可以用矩阵的形式表示为1,...,pxxkp1111122112211222221122kkkkppppkkpxafafafxafafafxafafafXAF12,,,kfff9.1SPSS在因子分析中的应用其中,X是可实测的随机向量。F称为因子,由于它们出现在每个原有变量的线性表达式中,因此又称为公共因子。A称为因子载荷矩阵,称为因子载荷。称为特殊因子,表示了原有变量不能被因子解释的部分,其均值为0因子分析的基本思想是通过对变量的相关系数矩阵内部结构的分析,从中找出少数几个能控制原始变量的随机变量选取公共因子的原则是使其尽可能多的包含原始变量中的信息,建立模型,忽略,以F代替X,用它再现原始变量X的信息,达到简化变量降低维数的目的。(1,2,,;1,2,,)ijaipjk(1,2,,)ifikXAF9.1SPSS在因子分析中的应用具体步骤:①将原始数据标准化,以消除变量间在数量级和量纲上的不同;②求标准化数据的相关矩阵;③求相关矩阵的特征值和特征向量;④计算方差贡献率与累积方差贡献率;⑤确定因子:设F1,F2,…,Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于85%时,可取前m个因子来反映原评价指标;⑥因子旋转:若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义;⑦用原指标的线性组合来求各因子得分;⑧综合得分:通常以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。9.1SPSS在因子分析中的应用9.1.2因子分析的SPSS操作详解Step01:打开主菜单选择主菜单中的【分析】→【降维】→【因子】命令,弹出【因子分析】对话框,如图所示,这是因子分析的主操作窗口。9.1SPSS在因子分析中的应用Step02:选择因子分析变量在【因子分析】对话框左侧的候选变量中选择进行因子分析的变量将其添加至【变量】列表框中。如果要选择参与因子分析的样本,则需要将条件变量添加至【选择变量】框中,并单击变量值按钮输入变量值,只有满足条件的样本数据才能进行后续的因子分析。Step03:选择描述性统计量单击【描述】按钮,弹出对话框图所示。这里可以选择输出描述性统计量及相关矩阵等内容。9.1SPSS在因子分析中的应用Step04:选择因子提取方法单击【抽取】按钮,弹出对话框图9-3所示。这里可以选择提取因子的方法及相关选项。具体选项含义如下:①单击【方法】框中的箭头按钮,展开下拉列表,从中可以选择因子提取方法:●主成份分析法:该方法假设变量是因子的纯线性组合。第一成分有最大的方差,后续的成分其可解释的方差逐个递减;●不加权最小二乘法:●加权最小二乘法;●极大似然法:●主轴因子提取法:●α因子提取法:●映象因子提取法:9.1SPSS在因子分析中的应用②【分析】栏输出分析矩阵:●相关系数矩阵,系统默认项:●协方差矩阵:③【输出】栏输出与因子提取有关的选项:●输出未经旋转的因子提取结果。此项为系统默认的输出方式;●输出因子的碎石图:它显示了按特征值大小排列的因子序号。它有助于确定保留多少个因子。典型的碎石图会有一个明显的拐点,在该点之前是与大因子连接的陡峭的折线,之后是与小因子相连的缓坡折线。9.1SPSS在因子分析中的应用④【抽取】栏输出与提取结果有关的选择项。由于理论上因子数目与原始变量数目相等,但因子分析的目的是用少量因子代替多个原始变量,选择提取多少个因子是由本栏来决定。●指定提取公因子的数目:用鼠标单击选择此项后,将指定其数目。⑤指定因子分析收敛的最大迭代次数●在对应的参数框中指定因子分析收敛的最大迭代次数:系统默认的最大迭代次数为25。9.1SPSS在因子分析中的应用Step05:选择因子旋转方法单击【旋转】按钮,弹出下图所示。这里可以选择因子旋转方法及相关选项。具体选项含义如下:9.1SPSS在因子分析中的应用Step06:选择因子得分单击【得分】按钮,弹出对话框如下图所示。这里可以选择因子得分方法及相关选项。具体选项含义如下:9.1SPSS在因子分析中的应用Step07:其他选择输出单击【选项】按钮,弹出对话框图9-6所示。这里可以选择一些附加输出项。具体选项含义如下:9.1SPSS在因子分析中的应用9.1.3实例分析:居民消费结构的变动1实例内容消费结构是指在消费过程中各项消费支出占居民总支出的比重。它是反映居民生活消费水平、生活质量变化状况以及内在过程合理化程度的重要标志。而消费结构的变动不仅是消费领域的重要问题,而且也关系到整个国民经济的发展。因为合理的消费结构及消费结构的升级和优化不仅反映了消费的层次和质量的提高,而且也为建立合理的产业结构和产品结构提供了重要的依据。表9-1是某市居民生活费支出费用,具体分为食品、衣着、家庭设备用品及服务、医疗保健、交通通讯、文教娱乐及服务、居住和杂项商品与服务等8个部分。请利用因子分析探讨该市居民消费结构,为产业政策的制定和宏观经济的调控提供参考。9.1SPSS在因子分析中的应用2实例操作表9-1是某市居民在食品、衣着、医疗保健等八个方面的消费数据,这些指标之间存在着不同强弱的相关性。如果单独分析这些指标,无法能够分析居民消费结构的特点。因此,可以考虑采用因子分析,将这八个指标综合为少数几个因子,通过这些公共因子来反映居民消费结构的变动情况。9.1SPSS在因子分析中的应用3实例结果及分析(1)描述性统计表表9-2显示了食品、衣着等这八个消费支出指标的描述统计量,例如均值、标准差等。这为后续的因子分析提供了一个直观的分析结果。可以看到,食品支出消费所占的比重最大,其均值等于39.4750%,其次是文化娱乐服务支出消费和交通通信支出消费。所有的消费支出中,医疗保健消费支出占的比重最低。9.1SPSS在因子分析中的应用均值标准差N食品39.47502.297058衣着6.4875.865928家庭设备用品及服务7.91252.877728医疗保健6.36251.547298交通和通信8.17502.613028文化娱乐服务14.47502.300168居住12.16252.915458杂项商品与服务2.9125.5249189.1SPSS在因子分析中的应用(2)因子分析共同度表是因子分析的共同度,显示了所有变量的共同度数据。第一列是因子分析初始解下的变量共同度。它表明,对原有八个变量如果采用主成分分析法提取所有八个特征根,那么原有变量的所有方差都可被解释,变量的共同度均为1(原有变量标准化后的方差为1)。事实上,因子个数小于原有变量的个数才是因子分析的目的,所以不可能提取全部特征根。于是,第二列列出了按指定提取条件(这里为特征根大于1)提取特征根时的共同度。可以看到,所有变量的绝大部分信息(全部都大于83%)可被因子解释,这些变量信息丢失较少。因此本次因子提取的总体效果理想。9.1SPSS在因子分析中的应用初始抽取食品1.000.842衣着1.000.842家庭设备用品及服务1.000.976医疗保健1.000.954交通和通信1.000.925文化娱乐服务1.000.953居住1.000.978杂项商品与服务1.000.9479.1SPSS在因子分析中的应用(3)因子分析的总方差解释接着Spss软件计算得到相关系数矩阵的特征值、方差贡献率及累计方差贡献率结果如表9-4所示。在表9-4中,第一列是因子编号,以后三列组成一组,组中数据项的含义依次是特征根、方差贡献率和累计贡献率。第一组数据项(第二至第四列)描述了初始因子解的情况。可以看到,第一个因子的特征根值为4.316,解释了原有8个变量总方差的53.947%。前三个因子的累计方差贡献率为94.196%,并且只有它们的取值大于1。说明前3个公因子基本包含了全部变量的主要信息,因此选前3个因子为主因子即可。同时,提取后的因子方差和旋转后的因子方差部分列出了因子提取后和旋转后的因子方差解释情况。从表中看到,它们都支持选择3个公共因子。9.1SPSS在因子分析中的应用9.1SPSS在因子分析中的应用(4)因子碎石图图9-15是因子分析的碎石图。横坐标为因子数目,纵坐标为特征根。可以看到,第一个因子的特征值很高,对解释原有变量的贡献最大;第三个以后的因子特征根都较小,取值都小于1,说明它们对解释原有变量的贡献很小,称为可被忽略的“高山脚下的碎石”,因此提取前三个因子是合适的。9.1SPSS在因子分析中的应用(5)旋转前的因子载荷矩阵表9-5显示了因子载荷矩阵,它是因子分析的核心内容。通过载荷系数大小可以分析不同公共因子所反映的主要指标的区别。从结果看,大部分因子解释性较好,但是仍有少部分指标解释能力较差,例如“食品”指标在三个因子的载荷系数区别不大。因此接着采用因子旋转方法使得因子载荷系数向0或1两极分化,使大的载荷更大,小的载荷更小。这样结果更具可解释性。9.1SPSS在因子分析中的应用(6)旋转后的因子载荷矩阵表9-6显示了实施因子旋转后的载荷矩阵。可以看到,第一主因子在“交通和通信”和“医疗保健”等五个指标上具有较大的载荷系数,第二主因子在“居住”和“衣着”指标上系数较大,而第三主因子在“杂项商品与服务”上的系数最大。此时,各个因子的含义更加突出。9.1SPSS在因子分析中的应用可以看出第一个公因子主要反映了交通和通信、医疗保健、文化娱乐服务、家庭设备用品及服务和食品上有较大载荷,说明第一个公因子综合反映这几个方面的变动情况,可以将其命名为第一基本生活消费因子,即享受性消费因子。第二个公因子在居住、衣着上的载荷系数较大,代表了这两个方面的变动趋势,可以将其命名为第二基本生活消费因子,即发展性消费因子。第三个公因子在杂项商品与服务上的消费变动较大,因此可以将第三个公因子命名为第三基本生活消费因子,即其他类型消费因子。9.1SPSS在因子分析中的应用(7)因子得分系数表9-7列出了采用回归法估计的因子得分系数。根据表中内容可写出以下因子得分函数:因子F1=-0.198X1+0.058X2-0.226X3+0.212X4+0.221X5+0.211X6+0.079X7+0.015X8;因子F2=0.123X1+0.425X2+0.200X3+0.094X4+0.008X5+0.096X6-0.498X7+0.015X8;因子F3=0.365X1-0.059X2-0.174X3+0.069X4+0.119X5-0.077X6-0.088X7+0.779X8;9.1SPSS在因子分析中的应用9.1SPSS在因子分析中的应用9.2.1聚类分析的基本原理1、方法概述聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。2、聚类分析的分类根据分类对象的不同可分为样品聚类和变量聚类。(1)样品聚类样品聚类在统计学中又称为Q型聚类。用SPSS的术语来说就是对事件进行聚类,或是说对观测量进行聚类。它是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分类。9.2SPSS在聚类分析中的应用(2)变量聚类变量聚类在统计学又称为R型聚类。反映同一事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。由于人类对客观事物的认识是有限的,往往难以找出彼此独立的有代表性的变量,而影响对问题的进一步认识和研究。