主成分分析和因子分析-回归分析和相关分析的区别

steveaik83
2 ℃
2020-01-07

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

主成分分析和因子分析的区别通过主成分分析所得来的新变量是原始变量的线性组合，每个主成分都是由原有P个变量线组合得到，在诸多主成分z中，Z1在总方差中占的比重最大，说明它综合原有变量的能力最强，其余主成分在总方差中占的比重依次递减，说明越往后的主成分综合原信息的能力越弱。以后的分析可以用前面几个方差最大的主成分来进行，一般情况下，要求前几个z所包含的信息不少于原始信息的85％，这样既减少了变量的数目，又能够用较少的主成分反映原有变量的绝大部分信息。如利用主成分来消除多元回归方程的多重共线性，利用主成分来筛选多元线性回归方程中的变量等。通过因子分析得来的新变量是对每一个原始变量进行内部剖析。打比喻来说，原始变量就如成千上万的糕点，每一种糕点的原料都有面粉、油、糖及相应的不同原料，这其中，面粉、油、糖是所有糕点的共同材料，这正好象是因子分析中的新变量即因子变量。正确选择因子变量后，如果想考虑成千上万糕点的物价变动，只需重点考虑面粉、油、糖等公共因子的物价变动即可。所以因子分析不是对原始变量的重新组合，而是对原始变量进行分解，分解为公共因子与特殊因子两部分。即因子分析就是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系，它把原始变量分解为两部分因素，一部分是由所有变量共同具有的少数几个公共因子构成的，另一部分是每个原始变量独自具有的因素，即特殊因子。1、因子分析中是把变量表示成各因子的线性组合，而主成分分析中则是把主成分表示成各个变量的线性组合。在主成分分析中，最终确定的新变量是原始变量的线性组合，如原始变量为x1，x2，...，x3，经过坐标变换,将原有的p个相关变量xi作线性变换,每个主成分都是由原有p个变量线性组合得到。在诸多主成分Zi中,Z1在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。2、主成分分析的重点在于解释各变量的总方差，而因子分析则把重点放在解释各变量之间的协方差。3、主成分分析中不需要有假设(assumptions)，因子分析则需要一些假设。因子分析的假设包括：各个共同因子之间不相关，特殊因子（specificfactor）之间也不相关，共同因子和特殊因子之间也不相关。4、主成分分析中，当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候，主成分一般是独特的；而因子分析中因子不是独特的，可以旋转得到不到的因子。5、在因子分析中，因子个数需要分析者指定（spss根据一定的条件自动设定，只要是特征值大于1的因子进入分析），而指定的因子数量不同而结果不同。在主成分分析中，成分的数量是一定的，一般有几个变量就有几个主成分。和主成分分析相比，由于因子分析可以使用旋转技术帮助解释因子，在解释方面更加有优势。大致说来，当需要寻找潜在的因子，并对这些因子进行解释的时候，更加倾向于使用因子分析，并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量（新的变量几乎带有原来所有变量的信息）来进入后续的分析，则可以使用主成分分析。当然，这中情况也可以使用因子得分做到。所以这种区分不是绝对的。总得来说，主成分分析主要是作为一种探索性的技术，在分析者进行多元数据分析之前，用主成分分析来分析数据，让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用：1）、了解数据(screeningthedata)；2）、和clusteranalysis一起使用；3）、和判别分析一起使用，比如当变量很多，个案数不多，直接使用判别分析可能无解，这时候可以使用主成分分析对变量简化（reducedimensionality）；4）、在多元回归中，主成分分析可以帮助判断是否存在共线性（条件指数CI），还可以用来处理共线性。在算法上，主成分分析和因子分析很类似，不过，在因子分析中所采用的协方差矩阵的对角元素不再是变量的方差，而是和变量对应的共同度（变量方差中被各因子所解释的部分）。应用中的优缺点比较(一)主成分分析1、优点。首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分，对客观经济现象进行科学评价。再次它在应用上侧重于信息贡献影响力综合评价。2、缺点。当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。命名清晰性低。(二)因子分析1、优点:第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高。2、缺点:在计算因子得分时,采用的是最小二乘法,此法有时可能会失效。回归分析和相关分析的区别回归分析和相关分析是互相补充、密切联系的，相关分析需要回归分析来表明现象数量关系的具体形式，而回归分析则应该建立在相关分析的基础上。主要区别有：一、在回归分析中,不仅要根据变量的地位、作用不同，区分出自变量和因变量，把因变量置于被解释的特殊地位，而且以因变量为随机变量，同时，总假定自变量是非随机的可控变量。在相关分析中，变量间的地位是完全平等的，不仅无自变量和因变量之分，而且相关变量全是随机变量。二、相关分析只限于描述变量间相互依存关系的密切程度，至于相关变量间的定量联系关系则无法明确反映。而回归分析不仅可以定量揭示自变量对应变量的影响大小，还可以通过回归方程对变量值进行预测和控制。相关分析和回归分析是极为常用的两种数理统计方法，在科学研究领域有着广泛的用途。然而，由于这两种数理统计方法在计算方面存在很多相似之处，且在一些数理统计教科书中没有系统阐明这两种数理统计方法的内在差别，从而使一些研究者不能严格区分相关分析与回归分析。最常见的错误是：用回归分析的结果解释相关性问题。例如，作者将“回归直线（曲线）图”称为“相关性图”或“相关关系图”；将回归直线的R2(拟合度，或称“可决系数”)错误地称为“相关系数”或“相关系数的平方”；根据回归分析的结果宣称2个变量之间存在正的或负的相关关系。相关分析与回归分析均为研究2个或多个变量间关联性的方法，但2种数理统计方法存在本质的差别，即它们用于不同的研究目的。相关分析的目的在于检验两个随机变量的共变趋势（即共同变化的程度），回归分析的目的则在于试图用自变量来预测因变量的值。在相关分析中，两个变量必须同时都是随机变量，如果其中的一个变量不是随机变量，就不能进行相关分析，这是相关分析方法本身所决定的。对于回归分析，其中的因变量肯定为随机变量（这是回归分析方法本身所决定的），而自变量则可以是普通变量（有确定的取值）也可以是随机变量。如果自变量是普通变量，即模型Ⅰ回归分析，采用的回归方法就是最为常用的最小二乘法。如果自变量是随机变量，即模型Ⅱ回归分析，所采用的回归方法与计算者的目的有关。在以预测为目的的情况下，仍采用“最小二乘法”（但精度下降—最小二乘法是专为模型Ⅰ设计的，未考虑自变量的随机误差）；在以估值为目的（如计算可决系数、回归系数等）的情况下，应使用相对严谨的方法（如“主轴法”、“约化主轴法”或“Bartlett法”）。显然，对于回归分析，如果是模型Ⅱ回归分析，鉴于两个随机变量客观上存在“相关性”问题，只是由于回归分析方法本身不能提供针对自变量和因变量之间相关关系的准确的检验手段，因此，若以预测为目的，最好不提“相关性”问题；若以探索两者的“共变趋势”为目的，应该改用相关分析。如果是模型Ⅰ回归分析，就根本不可能回答变量的“相关性”问题，因为普通变量与随机变量之间不存在“相关性”这一概念（问题在于，大多数的回归分析都是模型Ⅰ回归分析！）。此时，即使作者想描述2个变量间的“共变趋势”而改用相关分析，也会因相关分析的前提不存在而使分析结果毫无意义。需要特别指出的是，回归分析中的R2在数学上恰好是Pearson积矩相关系数r的平方。因此，这极易使作者们错误地理解R2的含义，认为R2就是“相关系数”或“相关系数的平方”。问题在于，对于自变量是普通变量（即其取值有确定性的变量）、因变量为随机变量的模型Ⅰ回归分析，2个变量之间的“相关性”概念根本不存在，又何谈“相关系数”呢？更值得注意的是，一些早期的教科书作者不是用R2来描述回归效果（拟合程度，拟合度）的，而是用Pearson积矩相关系数来描述。这就更容易误导读者。