1因子分析与聚类分析理论简介1.1因子分析法因子分析法是一种通过分析多个变量间协方差矩阵(或相关系数矩阵)的内部依赖关系,找出能代表所有变量的少数几个随机变量的计量分析方法。其中,找出的几个随机变量是不可测量的,将其称为公因子。每个公因子之间是互不相关的,所有变量都可以由这几个公因子的线性表示。因子分析通过减少变量的数目,用少数因子代替所有变量去分析整个经济问题,大大简化了现实分析过程。假设有N个样本,P个指标,TPXXXX,,,21是随机向量,需要寻找的公因子是TmFFFF,,,21,则将模型112121111mmFaFaFaX222221212mmFaFaFaX...pmpmpppFaFaFaX2211称为因子模型。将矩阵ijaA称为因子载荷矩阵,将ija称为因子载荷(Loading),因子载荷的实质是公因子Fi与变量Xj的相关系数。其中,为特殊因子,代表公因子以外的影响因素,在实际分析时一般忽略不计。对于需要求出的的公因子,其实际含义取决于该公因子在哪些变量上有较大的载荷。但一般情况下,初始因子模型的因子载荷矩阵都比较复杂,不利于因子的解释。因此可进一步通过因子旋转,给出对各公因子更加合理明显的解释。公因子求出后,可以进一步用回归估计等方法求出各个公因子得分的数学模型,将其表示成变量的线性形式,从而计算求出得分。模型如下:niniiiXbXbXbF2211(i=1,2,...,m)1.2层次聚类法聚类分析的实质是按照距离的远近将数据分为若干个类别,以使得类别内数据的“差异”尽可能小,类别间的“差异”尽可能大。“差异”的描述是通过距离或相似性的方法来描述。在统计学中最常用的是距离表达式欧几里得距离,对于两条数据),,(111zyx和),,(222zyx,欧几里得距离的计算公式是:221221221)()()()2,1(zzyyxxEuclid本文应用的是聚类分析法中的层次分析法,选用的是欧几里得距离的计算方法。层次分析法通过把距离接近的数据一步一步归为一类,直到数据数据完全归为一个类别为止,再利用一些相应的指标来确定聚为几类的结果是最为合适的。显然,这一系列的聚类结果存在着嵌套,或者说是层次的关系,由于这种结果上的层次关系,整个分析过程,特别是每一步中完成的合并或分割都可以用一张二维空间的图形来表示,这种图被称为“树状图”,是层次聚类法结果解释的重要工具。本文也将利用这一工具对我国商业银行竞争力水平进行研究。2股份制商业银行竞争力的实证分析2.1样本数据的选取和处理一、样本选取本文评价的是我国股份制商业银行的竞争力,以我国国有商业银行和城市商业银行的比较研究得出我国股份制商业银行竞争力的优势与劣势。由于数据选取的局限性(在本文写作过程中,各家商业银行还未全部公布2009年年报),本文数据主要来自于各商业银行的年报数据[44]以及各家银行网站披露相关信息,因此鉴于数据搜集原因,本文采用了2008年的股份制商业银行、国有商业银行和城市商业银行的的数据。同时由于无法获得中国光大银行、广东发展银行、恒丰银行、浙商银行和渤海银行等五家银行的财务报表(这五家股份制商业银行不是上市商业银行,非上市银行披露的数据一般不具有全面性和及时性,真实度也较差),所以本文最终研究的是7家股份制商业银行:中信银行、华夏银行、深圳发展银行、招商银行、上海浦东发展银行、兴业银行、民生银行。同理,本文选取了4家国有商业银行1作为比较研究对象:中国工商银行、中国银行、中国建设银行和交通银行。考虑到已上市城市商业银行也具有一定的竞争力,在某些方面有借鉴之处,且代表了城市商业银行的新兴力量,因此将已上市的3家城市商业银行纳入股份制商业银行竞争力对比研究当中,作为比较研究对象,这3家已上市城市商业银行为:北京银行、上海银行、南京银行。二、指标的标准化在指标处理前,先要对原始数据标准化,标准化后的变量为X*i,j,即第i个银行的j指标,具体的标准化如下:对于正指标:ijijijijijXmanXXXXminmin*对于逆指标:ijijijijijXXXXXminmaxmax*其中,正指标与银行竞争力得分呈正相关关系,相应的逆指标与竞争力得分成负相关关系。标准化消除了正逆指标的影响,正指标原本越大,处理后也越大,逆指标情况则相反。2.2实证分析2.2.1因子分析运用SPSS软件对原始指标数据进行实证分析,可以得到相关系数矩阵及变量共同度表,见表2.1,分析可得所有变量的共同度都比较大。变量共同度说明了全部公因子反映出原变量信息的百分比,描述了全部公因子对变量X的总方差所做的贡献。较大的变量共同度说明变量空间转化为因子空间时,保留了比较多的信息。12008年中国银监会我国银行业的最新分类将交通银行从股份制商业银行划转为国有商业银行。所以进行因子分析是有依据的。表2.1变量共同度表Tab.2.1Commonvariabledegreetable变量X1X2X3X4X5X6X7X8共同度0.8790.9590.8720.9660.7960.9730.9640.960变量X9X10X11X12X13X14X15X16共同度0.9520.9040.9050.6290.8890.9080.7720.960变量X17X18X19X20X21X22X23X24共同度0.9600.9700.9770.8880.8390.9460.8460.699变量X25X26共同度0.6280.925对SPSS软件产生的总方差分析表进行整理,可以得到表2.2的各因子对原始指标数据的贡献率。表2.2因子分析特征值及方差贡献率表Tab.2.2Eigenvalueandvariancecontributionoffactoranalysistable因子特征值方差贡献率(%)累计贡献率(%)F17.25827.91627.916F24.93018.96046.876F32.89811.14558.021F42.78810.72268.743F52.76710.64479.387F62.3238.93688.323由上表2.2可知,因子F1~F6对原始指标数据的累计贡献率达到88.323%,超过了85%的标准,其特征值也较大,均超过1的标准;同时,因子中F1的方差贡献率最大,为27.916%,其次是F2,为18.960%,说明因子F1和F2是银行竞争力因素中更重要的因素。通过SPSS软件产生的碎石图可以更直观的挑选出特征值较大的因子,从第F7开始,折线趋于平缓。因此,我们选择Fl~F6作为决定商业银行竞争力的公因子。图2.1碎石图从SPSS软件我们可以得到因子F1~F6的载荷矩阵ijaA。因子载荷ija是实际上就是公因子Fi和变量Xj的相关系数,表示变量Xj依赖因子Fi的程度,反映变量Xj对于公因子Fi的重要性。因此,因子载荷ija的绝对值越大,表示变量Xj对公因子Fi越重要。通过正交旋转得到的因子载荷矩阵,即表2.3,可以进一步明确因子的具体意义。表2.3正交旋转后的因子载荷矩阵Tab.2.3Orthogonalrotatedfactorloadingmatrix指标因子123456资产利润率X10.2200.7410.1670.5000.0460.016净资产收益率X20.007-0.074-0.0580.9700.0760.060每股收益X3-0.268-0.0520.1850.862-0.0010.140人均利润率X4-0.3080.5930.0160.563-0.447-0.051营业费用率X50.4710.6030.0490.031-0.437-0.123资本充足率X60.0200.962-0.066-0.153-0.1130.074核心资本充足率X70.0860.955-0.014-0.198-0.0640.011不良贷款率X8-0.672-0.1770.6580.089-0.1370.133贷款损失准备率X90.5080.354-0.6920.297-0.040-0.028最大客户贷款比率X100.110-0.1370.0460.0830.928-0.049十大客户贷款比率X110.355-0.215-0.0150.0170.823-0.236人民币流动性比率X12-0.3220.468-0.1560.095-0.413-0.319外币流动性比率X13-0.1180.8730.0790.053-0.1070.303存贷比X140.7570.4690.006-0.264-0.1570.142现金资产比率X15-0.4290.013-0.235-0.1750.452-0.546总资产X160.919-0.047-0.192-0.0880.179-0.191机构网点数X170.919-0.047-0.192-0.0880.179-0.191存款份额X180.935-0.132-0.1800.0040.193-0.091贷款份额X190.925-0.159-0.1980.0140.204-0.118存款增长率X20-0.1690.1610.8960.1020.1130.079贷款增长率X21-0.4870.3100.6670.0840.0040.233股权集中程度X22-0.5070.0110.2040.015-0.1560.789股东集中程度X23-0.1370.2200.0060.108-0.0040.876流通股占比X24-0.583-0.3160.2690.179-0.2040.336非利息收入占比X250.2340.109-0.507-0.3920.388-0.001本科以上学历员工占比X26-0.856-0.2520.2470.1640.098-0.175根据上表,得到因子模型:X1=0.220F1+0.741F2+……+0.046F5+0.016F6X2=0.007F1—0.074F2+……+0.076F5+0.060F6……X24=0.234F1+0.109F2+……+0.388F5—0.001F6X25=-0.856F1—0.252F2+……+0.098F5—0.175F6从因子模型可以看出,因子F1的总资产、机构网点数、存款份额、贷款份额、本科学历以上员工占比、存贷比的系数分别为0.919、0.919、0.935、0.925、0.856、0.757,远大于其他变量的系数,所以因子F1主要是代表银行规模、市场占有率、人力资源以及流动性的因子;因子F2的资本充足率、核心资本充足率、外币流动性比率、资产利润率、人均利润率、营业费用率的系数分别为0.962、0.955、0.873、0.741、0.593、0.603,大于其他变量的系数,所以因子F2主要代表的是资本充足度、流动性和盈利性因子;因子F3的存款增长率、贷款增长率、不良贷款率、贷款损失准备率、非利息收入占比的系数分别为0.896、0.667、0.658、0.692、0.507,远大于其他变量的系数,所以F3主要反映银行的市场份额增长率、资产质量以及创新能力;因子F4的净资产收益率、每股收益的系数分别为0.970、0.862,显著大于其他变量的系数,所以F4主要反映银行的盈利性;因子F5的最大客户贷款比例、十大客户贷款比例的系数分别为0.928、0.823,远大于其他变量的系数,所以F5主要代表银行的贷款集中度;因子F6的股权集中程度、股东集中程度的系数分别为0.789、0.876,远大于其他变量的系数,所以F6主要反映银行公司治理情况。公因子求出后,考察各公因子的得分。SPSS会自动计算出公因子得分,保存在fac_1~fac_6中,六个公因子分别从不同方面反映了银行竞争力各因素的情况,但单独使用某一公因子并不能对各银行竞争力水平做出综合评价,因此按各公因子对应的方差贡献率为权数计算如下综合统计量:662211FFFFnnn(n=6)即:F=0.279F