09 主成分分析与因子分析(管理统计学与SPSS 160应用课件)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

管理统计学2010年11主成分分析与因子分析11.1因子分析11.1.1因子分析的理论与方法11.1.2因子分析的SPSS应用11.2主成分分析11.2.1主成分分析的理论与方法11.2.2主成分分析的SPSS应用11.1因子分析•因子/基础变量:既能包含原来众多变量代表的信息,又能解释这些变量相互依存关系的变量•因子分析:多元统计分析技术的一个分支,用于处理多变量问题,是一种降维、简化数据的技术•因子分析的应用–寻求基本结构–数据化简11.1.1因子分析的理论与方法•因子分析的数学模型•因子分析的有关概念–因子负载–公共因子方差–因子的贡献–因子旋转–解释因子–因子得分•因子分析的步骤因子分析的数学模型•F1,F2,…,Fm称为公共因子,i为Xi的特殊因子•矩阵形式X=AF需满足:–mp–Cov(F,)=0–且)p,,2,1i(,FaFaFaXimim22i11iip21m21pm2p1pm22221m11211P21,FFFF,aaaaaaaaaA,XXXXmFI0101)F(DD2p222100)(DD因子负载•联系观测变量和公共因子的桥梁–公共因子完全不相关时,因子负载aij等于第i个变量和第j个因子之间的相关系数–aij的绝对值越大,公共因子与观测变量关系越大–公共因子彼此不相关时,变量Xi与Xj的相关系数为•比较观测数据计算出的相关系数和模型导出的变量的相关系数,判断因子解是否合适–差别很小,模型很好的拟合观测数据,因子解合适jmim2j2i1j1iijaaaaaar公共因子方差/共同度•观测变量的方差中由公共因子决定的比例•说明用公共因子替代观测变量后,原来每个变量信息被保留的程度•公共因子方差越大,变量能够被因子说明的程度越高•当公共因子彼此正交时,公共因子方差等于和该变量有关的因子负载的平方和2im22i21i2iaaah因子的贡献•用因子所能够解释的总方差衡量的每个公共因子对变量的解释能力•所有公共因子的总贡献为:•实际中,相对指标更为常用,即每个因子所解释的方差占所有变量总方差的比例Vp/k–K为观测变量的个数k1i2ippaVm1ppVV因子旋转•因子结构:因子和变量之间的相关关系•因子模式:因子负载矩阵•因子旋转的条件–一个变量在多个公共因子上有较大的负荷–多个变量在同一个公共因子上有较大的负荷•因子旋转的目的–使同一个因子在各个变量上的负载尽可能的向靠近1和靠近0的两极分离•因子旋转的方式–正交旋转:使因子轴之间仍然保持90度角,因子之间仍旧不相关,因子结构与因子模式等同–斜交旋转:因子之间的夹角是任意的,因子负载不再等于因子和变量之间的相关系数•因子模式与因子结构的关系为S=BW,S为因子结构矩阵,B为因子负载矩阵,W为斜交因子之间的相关系数矩阵解释因子•解释因子的作用–借助因子负载矩阵,找出在某个因子上有显著负载的变量–根据这些变量的意义给因子一个合适的名称•具有较高负载的变量对因子名称的影响较大•解释因子的确定–一般认为绝对值大于0.3的因子负载就是显著的因子得分•因子得分的求解过程–用观测变量的线性组合表示因子–依据因子对应的每个变量的具体数值进行测度•因子得分的计算–在因子分析模型中,不考虑特殊因子的影响,当m=p且A可逆时,该样本在因子F上的得分F=A-1X–实际应用要求mp,只能对因子得分进行估计因子分析的步骤•计算所有变量的相关系数矩阵•提取因子,确定因子的个数和求因子解的方法•进行因子旋转,使因子解的实际意义更容易解释•计算因子得分11.1.2因子分析的SPSS应用•添加分析变量•描述性统计设置•因子提取设置•因子旋转设置•因子得分设置•缺失值及因子负载矩阵设置生育率影响因素分析•变量设置–X1:Multi-parity(%),X2:Contraception(%)–X3:J.school&above(%),X4:Averageincome(元),X5:Urban(%)IdX1X2X3X4X5IdX1X2X3X4X510.9489.8964.51357773.08169.0488.7639.7188015.5222.5892.3255.41298168.651712.0287.2838.76124828.91313.4690.7138.2114819.081811.1589.1336.3397618.23412.4690.0445.12112427.681922.4687.7238.38184536.7758.9490.4641.83108036.122024.3484.8631.0779815.162.890.1750.64201150.862133.2183.7939.44119324.0578.9191.4346.32138342.65224.7890.5731.2690320.2588.8290.7847.33162847.172321.5686.022.3865418.9390.891.4762.36482266.232414.0980.9621.4995614.72105.9490.3140.85169621.242532.3187.67.786512.59112.692.4235.14171732.812611.1889.7141.0193021.49127.0787.9729.5193317.92713.886.3329.6993822.041314.4488.7129.04131321.362825.3481.5631.3110027.351415.2489.4331.0594320.42920.8481.4534.59102425.72153.1691.2137.85137227.343039.664.938.47137431.91添加分析变量Analyze→DataReduction→Factor选择变量:选择参与分析的数据描述性统计设置输出原始变量的基本描述统计量输出因子分析的初始解简单相关系数矩阵相关系数矩阵的逆矩阵显著性检验相关系数矩阵的行列式再生相关阵反映象相关矩阵KMO和Bartlett球形检验因子提取设置7种因子提取方法,默认为主成分分析法标准化后因子分析直接因子分析相关系数矩阵协方差矩阵输出旋转前的因子方差贡献表和因子负载矩阵输出因子碎石图设置提取的因子对应的特征跟范围,默认值1输入提取因子的个数•Principalcomponents/主成分法:把给定的一组相关变量通过线性变换转换成另一组不相关的变量,新的变量按照方差递减的顺序排列,总方差不变•Unweightedleastsquares/普通最小二乘法:使因子模型计算出的相关系数和观测到的相关系数之间的离差平方和最小•Genenralizedleastsquares/广义最小二乘法:用与Unweightedleastsquares同样的原则,迭代过程中,用特殊因子方差倒数调整相关系数矩阵•Maximumlikelihood/最大似然法:类似广义最小二乘法,使因子解最好拟合观测数据变量的相关关系–假设样本来源于多维正态总体,构造样本似然函数使其达到极大–求解过程中相关系数用特殊因子方差倒数加权因子提取方法•Principalaxisfactoring/主轴因子法:类似主成分法,用公共因子方差代替相关系数矩阵主对角线上的元素1–新的矩阵称为调整相关系数矩阵,解调整相关系数矩阵的特征方程求得因子解•Alphafactoring/因子提取法:变量是来自潜在变量空间中的样本,通过给定的总体观测,使提取的公共因子和假设存在的公共因子有最大的相关•Imageanalysis/映像分析法:一个变量分解为两部分–公共部分:由除该变量外的观测变量线性组合预测,即该变量的映像–特有部分:不能被其他变量线性组合预测,即变量的反像–同时考虑样本空间和变量空间,映像的平方相当于公共因子方差,反像的平方相当于特殊因子方差,采用和主成分法类似的过程求得因子解因子提取方法(续)因子提取方法的选择•通常各种方法产生的公共因子方差差别不大–公共因子方差为1时,主成分法和其他6种方法的实质是一样的–公共因子方差较低时,差别比较明显•主成分法–解释变量的方差,假设每个变量的方差能被完全解释,相关系数矩阵主对角线上的元素和其他元素同样重要,甚至更重要•其他方法–解释变量的相关关系,假设观测变量的相关能完全被公共因子解释,方差不一定能完全被公共因子解释–不能被解释的方差只影响相关系数矩阵主对角线上的元素–要求因子解能够拟合相关系数矩阵主对角线以外的元素•提取相同数目的因子,主成分法能够解释更多的方差•变量个数增加,主对角线上元素重要程度降低,差异不再明显•样本量很大时,最大似然法解比其他解的精度有明显提高•依据因子分析的目的和对变量方差了解程度决定的方法–要以最少的因子最大程度地解释原始数据中的方差,或已明确特殊因子和误差带来的方差很小,适合用主成分法–为了确定数据结构但并不了解变量方差的情况,适用其他6种方法因子旋转设置简化因子负载矩阵列,使因子负载平方的方差最大直接斜交旋转法因子自相关的程度可尽量减少解释变量的因子个数Varimax与Quartimax因子解加权平均速度比直接旋转法快,适用于大样本输出旋转后的因子方差贡献表和因子负载矩阵输出旋转后因子负载散点图因子得分设置将因子值作为新变量保存在数据文件中计算因子得分的方法输出因子得分矩阵缺失值及因子负载矩阵设置缺失值处理方法因子负载矩阵显示方式观测的所有分析变量有一个有缺失值就不参与分析只把两个变量协方差或相关系数带有缺失值的观测删除用均值替代缺失值按因子负载的大小排序不显示绝对值太小的因子负载变量共同度、KMO与Bartlett球形检验CommunalitiesInitialExtractionmulti-parity%1.000.887contraception%1.000.913J.school&above%1.000.860averageincome1.000.878urban%1.000.931ExtractionMethod:PrincipalComponentAnalysis.共同度都在85%以上,因子提取效果比较理想KMOandBartlett'sTestKaiser-Meyer-OlkinMeasureofSamplingAdequacy..713Bartlett'sTestofSphericityApprox.Chi-Square106.776df10Sig..000KMO统计量为0.713,Bartlett球形检验的值为0.000,说明案例数据比较适合因子分析相关系数矩阵及相关显著性检验(CorrelationMatrix)multi-parity%contraception%J.school&above%AverageincomeUrban%Correlationmulti-parity%1.000-.761-.542-.453-.453contraception%-.7611.000.293.253.245J.school&above%-.542.2931.000.771.849averageincome-.453.253.7711.000.878urban%-.453.245.849.8781.000Sig.(1-tailed)multi-parity%.000.001.006.006contraception%.000.058.089.096J.school&above%.001.058.000.000averageincome.006.089.000.000urban%.006.096.000.000初始的样本相关系数矩阵或协差阵特征根特征根与方差贡献率表To

1 / 44
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功