...第13章因子分析因子分析始于1904年CharsSpearman对学生成绩的分析,在经济领域有着极为广泛的用途。在多个变量的变化过程中,除了一些特定因素之外,还受到一些共同因素的影响。因此,每个变量可以拆分成两部分,一是共同因素,二是特殊因素。这些共同因素称为公因子,特殊因素称为特殊因子。因子分析即是提出多个变量的公共影响因子的一种多元统计方法,它是主成分分析的推广。因子分析主要解决两类问题:一是寻求基本结构,简化观察系统。给定一组变量或观察数据,是否存在一个子集,特别是一个加权子集,来解释整个问题,即将为数众多的变量减少为几个新的因子,以再现它们之间的内在联系。二是用于分类,将变量或样本进行分类,根据因子得分值,在因子轴所构成的空间中进行分类处理。p个变量X的因子模型表达式为:efX'=f称为公因子,称为因子载荷。X的相关系数矩阵分解为:'对于未旋转的因子,1。称为特殊度,即每个变量中不属于共性的部分。13.1因子估计Stata可以通过变量进行因子分析,也可以通过矩阵进行。命令为factor或factormat。webusebg2,cleardescribefactorbg2cost1-bg2cost6factorbg2cost1-bg2cost6,factors(2)*pf主因子方法,用复相关系数的平方作为因子载荷的估计量(默认选项)factorbg2cost1-bg2cost6,factors(2)pcf*pcf主成分因子,假定共同度=1factorbg2cost1-bg2cost6,factors(2)ipf*ipf迭代主因子,重复估计共同度factorbg2cost1-bg2cost6,factors(2)ml*ml极大似然因子,假定变量(至少3个)服从多元正态分布,对偏相关矩阵的行列式进行最优化求解,等价于Rao的典型因子方法13.2预测Stata可以通过predict预测变量得分、拟合值和残差等。webusebg2,clearfactorbg2cost1-bg2cost6predictf1f2*factor1factor2因子分得分predictstdpresiduals*预测标准差和残差...13.3EstatEatat给出了几个非常有用的工具,包括KMO、SMC等指标。webusebg2,clearfactorbg2cost1-bg2cost6estatantiestatkmoestatresidualsestatsmcestatsummarize13.4因子旋转与作图因子分析的旋转方法以及碎石图、得分图、因子载荷图与主成分分析的方法相同,请参见”主成分分析”一章。webusebg2,clearfactorbg2cost1-bg2cost6screeplot/*碎石图*/scoreplot/*得分图*/loadingplot/*因子载荷图*/rotate/*旋转*/例:利用2009年的数据对中国社会发展状况进行综合考察,原始数据如下表:省份人均GDP(元)新增固定资产(亿元)城镇居民人均年可支配收入(元)农村居民家庭人均纯收入(元)高等学校数(所)卫生机构数(个)areax1x2x3x4x5x6北京630292385.824724.8910661.92856497天津554731676.819422.537910.78552784河北232394734.213441.094795.4610515632山西203981772.613119.054097.24699431内蒙古322143309.314432.554656.18397162辽宁312595056.714392.695576.4810414627吉林235143279.912829.454932.74559659黑龙江217272405.411581.284855.59787928上海731242523.226674.911440.26662822江苏396227645.918679.527356.4714613357浙江422143434.822726.669257.939815290安徽144852849.512990.354202.491047837福建301231768.317961.456196.07814478江西147812962.512866.444697.19828229...山东330836852.516305.415641.4312514973河南19593641413231.114454.249411683湖北198603053.413152.864656.3811810305湖南175212478.213821.164512.4611514455广东375895529.219732.866399.7912515819广西14966141914146.043690.346810427海南17175230.212607.844389.97162220重庆180251381.914367.554126.21476265四川153782918.712633.384121.219020738贵州882490311758.762796.93455848云南12587155113250.223102.6599249西藏13861137.412481.513175.8261326陕西182462262.812857.893136.46888812甘肃12110575.210969.412723.793910534青海17389322.811640.433061.2491582宁夏17892403.912931.533681.42151629新疆198931162.911432.13502.9376739程序:clear*定义变量的标签labelvararea省份labelvarx1人均GDP(元)labelvarx2新增固定资产(亿元)labelvarx3城镇居民人均年可支配收入(元)labelvarx4农村居民家庭人均纯收入(元)labelvarx5高等学校数(所)labelvarx6卫生机构数(个)describefactorx1-x6screeplot/*碎石图(特征值等于1处的水平线标示保留主成分的分界点)*/*检验estatkmo/*KMO检验,越高越好*/estatsmc/*SMC检验,值越高越好*/rotate/*旋转*/loadingplot,yline(0)xline(0)/*载荷图*/...*预测predictscorefitresidualq/*预测变量得分、拟合值和残差以及残差的平方和*/predictf1f2labelvarf1收入因子labelvarf2投资、社会因子listareaf1f2summarizef1f2correlatef1f2scoreplot,xtitle(收入因子)ytitle(投资、社会因子)///mlabel(area)yline(0)xline(0)/*得分图*/分析:首先通过主因子分析(factor),得到主成分因子:Factoranalysis/correlationNumberofobs=31Method:principalfactorsRetainedfactors=3Rotation:(unrotated)Numberofparams=15--------------------------------------------------------------------------Factor|EigenvalueDifferenceProportionCumulative-------------+------------------------------------------------------------Factor1|3.281931.425440.65540.6554Factor2|1.856481.816770.37071.0261Factor3|0.039710.062440.00791.0341Factor4|-0.022720.03972-0.00451.0295Factor5|-0.062440.02293-0.01251.0170Factor6|-0.08538.-0.01701.0000--------------------------------------------------------------------------LRtest:independentvs.saturated:chi2(15)=211.52Probchi2=0.0000Factorloadings(patternmatrix)anduniquevariances-----------------------------------------------------------Variable|Factor1Factor2Factor3|Uniqueness-------------+------------------------------+--------------x1_s|0.8609-0.4463-0.1125|0.0469x2_s|0.62740.6026-0.1061|0.2320x3_s|0.8800-0.39310.0998|0.0611x4_s|0.9120-0.36580.0365|0.0332x5_s|0.65080.65260.0349|0.1494x6_s|0.34270.76160.0572|0.2993-----------------------------------------------------------从上面的分析可以看出,只有两个成分大于1大于的特征值,同时两个成...分解释了全部六个变量组合的方差还多。不重要的第2到6个主成分在随后的分析中可以放心地省略去。运行factor命令后,我们可以接着运行screeplot命令画出碎石图。碎石图中特征值等于1处的水平线标示了保留主成分的常用分界点,同时再次强调了本例中的成分3到成分6并不重要。01234Eigenvalues123456NumberScreeplotofeigenvaluesafterfactor碎石图检验的方法还是跟上一章的主成分分析一样,由于我们都是选用实际的数据来进行分析,所以在一般情况下,检验都是通得过的,可以忽略,觉得有需要的再进行检验。旋转会进一步简化因子结构。在提取因子之后,键入rotate命令进行旋转。Factoranalysis/correlationNumberofobs=31Method:principalfactorsRetainedfactors=3Rotation:orthogonalvarimax(Kaiseroff)Numberofparams=15--------------------------------------------------------------------------Factor|VarianceDifferenceProportionCumulative-------------+------------------------------------------------------------Factor1|2.904890.672140.58010.5801Factor2|2.232762.192280.44591.0260Factor3|0.04047.0.00811.0341--------------------------------------------------------------------------LRtest:independentvs.saturated:chi2(15)=211.52Probchi2=0.0000Rotatedfactorloadings(patternmatrix)anduni