多元统计分析方法研究一、如何做主成分分析二、如何做因子分析三、如何做聚类分析四、如何做判别分析第十一章一、基本思想二、数学模型三、模型的求解四、主成分的性质五、基本步骤与应用实例一、基本思想二、数学模型三、因子载荷的统计含义四、因子的求解五、因子得分六、基本步骤与应用实例一、基本思想二、统计量三、分类方法四、基本步骤与应用实例一、基本思想二、基本方法三、判别效果的评价四、基本步骤与应用实例主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来的指标的信息。二维空间多维空间x1y1x2y22121212211cossinsincoscossinsincosxxyyxxyxxy旋转变换的目的是为了使得n个样本点在y1轴方向上的离散程度最大,即y1的方差最大,变量y1代表了原始数据的绝大部分信息,在研究问题时,即使不考虑变量y2也损失不多的信息。Y1与y2除起了浓缩作用外,还具有不相关性。Y1称为第一主成分,y2称为第二主成分。npnnppxxxxxxxxx............................................212222111211ppppppppppxuxuxuyxuxuxuyxuxuxuy................................22112222121212121111如果系数uij满足;而且系数uij的确使yi、与yj(i≠j)相互无关,并使y1是x1,x2,…,xp的一切线性组合中方差最大者,y2是与y1不相关的x1,x2,…,xp的所有线性组合中方差最大者,……,yp是与y1,y2,…,yp-1都不相关的x1,x2,…,xp的所有线性组合中方差最大者,则称y1,y2,…,yp为原变量的第一,第二,…,第p主成分。piuuuipii,,2,1,1......22221在应用主成分分析研究问题时,通常先将数据标准化,以消除量纲对结果的影响。标准化的常用公式为:)()(iiiixDxExzx为了求出主成分,只需求样本协方差矩阵S或相关系数矩阵R的特征根和特征向量就可以。(可以证明,变量x1,x2,…,xp标准化以后,其协方差矩阵S与相关系数矩阵R相等。)性质1:第k个主成分yk的系数向量是第k个特征根λk所对应的标准化特征向量Uk。性质2:第k个主成分的方差为第k个特征根λk,且任意两个主成分都是不相关的,也就是主成分y1,y2,…,yp的样本协方差矩阵是对角矩阵。性质3:样本主成分的总方差等于原变量样本的总方差。性质4:第k个样本主成分与第j个变量样本之间的相关系数为:该相关系数又称为因子载荷量。主成分个数的选取kjkjkjkuzxyrxyr),(),((1)对原变量的样本数据矩阵进行标准化变换(2)求标准化数据矩阵的相关系数矩阵R(3)求R的特征根及相应的特征向量和贡献率等(4)确定主成分的个数(5)解释主成分的实际意义和作用【例11.1】我国2000年各地区大中型工业企业主要经济效益指标见表11.1,对各地区经济效益作出分析。【解】1.将数据标准化(结果见附表1),并求相关矩阵R为:1079.0117.0245.0181.0163.0007.01521.0430.0621.0523.0385.01127.0615.0771.0773.01058.0418.0146.01375.0566.01704.012.求R的特征根及相应的单位正交特征向量和贡献率由R的特征方程求得R的单位特征根λ为:0IR085.0162.0279.0590.0017.1445.1422.37654321再由齐次线性方程组求得特征向量U,将具体结果整理为下表:piik1对应的特征向量U1j.440-.250.414.016.157-.509.538U2j.460.228.241.398.082-.205-.690U3j-.408.227.247.591.530.175.244U4j.158.690-.373.233-.354-.223.366U5j.487-.126.130.243-.252.748.219U6j.408.153-.450-.285.708.158.037U7j-.022.566.592-.544.007.182.012特征根3.4221.4451.0170.5900.2790.1620.08548.88%20.65%14.52%8.43%3.99%2.32%1.21%3.确定主成分的个数q按的原则,取三个主成分就能够对工业企业经济效益进行分析,且这三个主成分的累计方差贡献率达到84.06%主成分的表达式为:17592.0645.05130.04373.03247.02241.01414.07566.06153.05126.04690.03227.02228.01251.07022.06408.05487.04158.0348.0246.01440.0321zxzxzxzxzxzxzxyzxzxzxzxzxzxzxyzxzxzxzxzxzxzxy4.主成分的经济意义y1的含义是在综合其它变量所反映信息的基础上,突出地反映了企业经营风险的大小。y2在综合其它变量信息的基础上,突出地反映了企业投入资金的周转速度。y3在综合其它变量信息的基础上,突出地反映了工业产品满足社会需求的情况Excel操作因子分析的基本思想是通过对变量相关系数矩阵内部结构的研究,找出能够控制所有变量的少数几个潜在随机变量去描述多个显在随机变量之间的相关关系,换句话说,因子分析是把每个可观测的原始变量分解为两部分因素,一部分是由所有变量共同具有少数几个公共因子构成的,另一部分是每个原始变量独自具有的,即特殊因子部分,对于所研究的问题就可试图用最少个数的不可观测的公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。(一)符号与假定设有n个样本,每个样本观测p个变量,记:原始变量矩阵为X:,公共因子变量矩阵为F:,特殊因子矩阵为E:假定因子模型具有以下性质:1.E(x)=0,cov(x)=∑2.E(F)=0,cov(F)=I3.E(E)=0,cov(e)=diag(σ12,σ22,…,σp2)4.Cov(F,E)=0pxxxX......21qFFFF......21peeeE......21pppppppppppeFaFaFaxeFaFaFaxeFaFaFax........................2211222221212112121111若用矩阵形式表示,则为:X=AF+E式中的A,称为因子载荷矩阵,并且称aij为第i个变量在第j个公共因子上的载荷,反映了第i个变量在第j个公共因子上的相对重要性。可以证明因子载荷aij为第i个变量xi与第j个公共因子Fj的相关系数,即反映了变量与公共因子的关系密切程度,aij越大,表明公共因子Fj与变量xi的线性关系越密切。变量共同度公共因子的方差贡献设相关系数矩阵的特征根为λ1≥λ2≥…≥λp,相应的特征向量为U1,U2,…,Up,设由列向量构成的矩阵有A表示,即A=ppUUU,......,,2211一般来说,公共因子的个数q要小于等于变量的个数p1.用公式对原始数据标准化2.建立相关系数矩阵R3.根据及求R的单位特征根λ与特征向量U;4.根据求因子载荷矩阵A;5.写出因子模型X=AF+E)()(xDxExzx0IR0UIRUA【例11.2】仍以我国2000年各地区大中型工业企业主要经济效益指标作为研究对象,试求:(1)正交因子模型;(2)各个变量的共同度以及特殊因子方差;(3)每个因子的方差贡献率以及三个因子的累计方差贡献率;【解】1.(1)将原始数据标准化后求得其相关系数矩阵R为1079.0117.0245.0181.0163.0007.01521.0431.0621.0523.0385.01127.0615.0771.0773.01058.0418.0146.01375.0566.01704.01(2)特征根与特征向量017.1445.1422.3321.440-.250.414.460.228.241-.408.227.247U=.158.689-.373.487-.126.130.408.153-.450-.022.566.592(3)因子载荷矩阵为:.597.680.040--.454.184.754.131-.151.901-.376.829.293.249.273.754-.243.274.851.417-.301.814UA(4)因子模型为73217632165321543214332132321213211597.0680.0040.0454.0184.0754.0131.0151.0901.0376.0829.0293.0249.0273.0754.0243.0274.0851.0417.0301.0814.0eFFFxeFFFxeFFFxeFFFxeFFFxeFFFxeFFFx变量因子载荷共同度特殊因子方差F1F2F3X1X2X3X4X5X6X7.814.851-.754.293.901.754-4.02E-02-.301.274.273.829-.151.184.680.417.243.249-.376.131-.454.597.926.858.705.914.853.808.8200.0740.1420.2950.0860.1470.1920.180方差贡献率48.88%20.66%14.52%——累计方差贡献率48.88%69.53%84.05%——其基本思想是认为研究的样本或变量之间存在着程度不同的相似性,根据一批样本的多个观测指标,具体找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本(或变量)聚合为一类,把另外一些彼此之间相似程度较大的样本(变量)也聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样本(或变量)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统;最后再把整个分类系统画成一张图,将亲疏关系表示出来。聚类分析可以分为Q型聚类和R型聚类两种,Q型聚类是指对样本进行分类,R型聚类是指对变量进行分类。通常Q型聚类采用距离统计量,R型聚类采用相似系数统计量分类的形成类与类间的距离1、先对数据进行变换处理,消除量纲对数据的影响;2、认为各样本点自成一类(即n个样本点一共有n类),然后计算各样本点之间的距离,并将距离最近的两个样本点并成一类;3、选择并计算类与类之间的距离,并将距离最近的两类合并;4、重复上面作法直至所有样本点归为所需类数为止;5、最后绘制聚类图。【例11.3】为了研究2000年我国部分地区工业企业经济效益的分布规律,根据调查资料做类型划分。判别分析是在已知研究对象用某种方法已分成若干类的情况下,确定新的观察数据属于已知类别中的哪一类的分析方法。判别分析方法在处理问题时,通常要给出一个衡量新样本与已知组别接近程度的描述指标,即判别函数,同时也指定一种判别规则,用以判定新样本的归属。距离判别费歇尔判别贝叶斯判别每次从已知类别的样本中剔除一个样本点,用剩余的样本建立判别函数,然后用