因子分析公共卫生学院一、前言•变量的相关性公共因子?•将多个实测变量转换成少数几个不相关的综合指数二、因子分析模型一般地,设X=(x1,x2,…,xp)’为可观测的随机变量,且有•f=(f1,f2,…,fm)’为公共(共性)因子(commonfactor),简称因子(factor)imimiiiiefafafaX2211•e=(e1,e2,…,ep)’为特殊因子(specificfactor)f和e均为不可直接观测的随机变量•μ=(μ1,μ2,…,μp)’为随机变量x的总体均值•A=(aij)p*m为因子负荷(载荷)(factorloading)矩阵通常先对x作标准化处理,使标准化得到的新变量均值为零,方差为1.这样就有假定(1)fi的均数为0,方差为1;(2)ei的均数为0,方差为δi;(3)fi与ei相互独立.则称x为具有m个公共因子的因子模型imimiiiefafafax2211如果再满足(4)fi与fj相互独立(i≠j),则称该因子模型为正交因子模型。正交因子模型具有如下特性:•x的方差可表示为设iimiiiaaaxVar222211)(222212imiiiaaah(1)hi2是m个公共因子对第i个变量的贡献,称为第i个共同度(communality)或共性方差,公因子方差(commonvariance)(2)δi称为特殊方差(specificvariance),是不能由公共因子解释的部分•因子载荷(负荷)aij是随机变量xi与公共因子fj的相关系数。•设称gj2为公共因子fj对x的“贡献”,是衡量公共因子fj重要性的一个指标。2211,2,...,pjijigajm三、因子分析的步骤•输入原始数据xn*p,计算样本均值和方差,进行标准化计算(处理);•求样本相关系数矩阵R=(rij)p*p;•求相关系数矩阵的特征根λi(λ1,λ2,…,λp0)和相应的标准正交的特征向量li;•确定公共因子数;•计算公共因子的共性方差hi2;•对载荷矩阵进行旋转,以求能更好地解释公共因子;•对公共因子作出专业性的解释。四、因子分析提取因子的方法•主成分法(principalcomponentfactor)1,2,...,;1,2,...,ijjjialipjm每一个公共因子的载荷系数之平方和等于对应的特征根,即该公共因子的方差。221pjijjiag•极大似然法(maximumlikelihoodfactor)假定原变量服从正态分布,公共因子和特殊因子也服从正态分布,构造因子负荷和特殊方差的似然函数,求其极大,得到唯一解。•主因子法(principalfactor)设原变量的相关矩阵为R=(rij),其逆矩阵为R-1=(rij)。各变量特征方差的初始值取为逆相关矩阵对角线元素的倒数,δi’=1/rii。则共同度的初始值为(hi’)2=1-δi’=1-1/rii。以(hi’)2代替相关矩阵中的对角线上的元素,得到约化相关矩阵。(h1’)2r12…r1pr21(h2’)2…r2pR’=..…...….rp1rp2…(hp’)2R’的前m个特征根及其对应的单位化特征向量就是主因子解。•迭代主因子法(iteratedprincipalfactor)主因子的解很不稳定。因此,常以估计的共同度为初始值,构造新的约化矩阵,再计算其特征根及其特征向量,并由此再估计因子负荷及其各变量的共同度和特殊方差,再由此新估计的共同度为初始值继续迭代,直到解稳定为止。•Heywood现象•残差矩阵五、因子旋转•目的:使因子负荷两极分化,要么接近于0,要么接近于1。•常用的旋转方法:(1)方差最大正交旋转(varimaxorthogonalrotation)•基本思想:使公共因子的相对负荷(lij/hi2)的方差之和最大,且保持原公共因子的正交性和公共方差总和不变。•可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的解释。(2)斜交旋转(obliquerotation)•因子斜交旋转后,各因子负荷发生了较大变化,出现了两极分化。各因子间不再相互独立,而彼此相关。各因子对各变量的贡献的总和也发生了改变。•适用于大数据集的因子分析。六、因子得分•Thomson法,即回归法回归法得分是由Bayes思想导出的,得到的因子得分是有偏的,但计算结果误差较小。•Bartlett法Bartlett因子得分是极大似然估计,也是加权最小二乘回归,得到的因子得分是无偏的,但计算结果误差较大。•因子得分可用于模型诊断,也可用作进一步分析的原始资料。七、因子分析应用实例八、因子分析应用的注意事项•应用条件(1)变量是计量的,能用线性相关系数(Pearson积叉相关系数)表示它们之间的相关性。(2)总体的同质性•样本量没有估计公式。至少要保证样本相关系数稳定可靠。•因子数目一般认为,累积贡献要达到80%以上。但要注意Heywood现象。谢谢!