目录内容摘要...........................................................1关键词.............................................................11引言.............................................................12统计原理.........................................................12.1因子分析原理和方法............................................12.2聚类分析......................................................23分析过程与结果...................................................23.1因子分析......................................................23.1.1指标体系..................................................23.1.2.数据准备.................................................33.1.3数据处理..................................................33.1.4提取公因子................................................43.1.5建立因子载荷矩阵..........................................53.1.6因子得分和综合得分........................................63.2聚类分析......................................................84结论与建议.......................................................9参考文献..........................................................11英文摘要..........................................................12附表............................................................131我国城镇基本医疗保险的多元统计分析研究【内容摘要】城镇基本医疗保险是我国社会保障体系中的重要组成部分,随着经济的不断发展,人民生活水平的不断提高,医保已成为政府和人民日益关注的重点问题.从总体上看,我国的城镇基本医疗保险取得了不错的成效,但在其发展过程中仍存在一定的问题.本文应用SPSS统计软件,根据多元统计方法中的因子分析,结合我国各地区2010年的城镇基本医疗保险现状进行研究分析,并用因子分析的结果进行聚类分析,综合分析了各地区的城镇基本医疗保险在发展中存在的问题,并提出建议,同时为我国相关部门在开展相应工作中提供了一定的科学依据.【关键词】SPSS统计软件;城镇基本医疗保险;因子分析;聚类分析1引言1998年12月颁布的《国务院关于建立城镇职工基本医疗保险制度的决定》标志着我国的基本医疗保险制度基本建立起来.为实现基本建立覆盖城乡全体居民的医疗保障体系的目标,国务院决定从2007年起开展城镇居民基本医疗保险试点,至2010年城镇居民基本医疗保险在全国全面推开.截至2011年全国已有47291万人参加了城镇基本医疗保险,参保人数逐年上升,城镇基本医疗保险制度取得巨大成就,且在不断发展和完善.城镇基本医疗保险制度的实行为我国经济体制改革提供社会保障支持的同时起到了维护社会稳定的积极作用[1].文[1]用因子分析的方法对我国2004年的城镇职工基本医疗保险现状进行研究分析,但从2007年起,我国推出了城镇居民基本医疗保险,此后,城镇职工基本医疗保险和城镇居民基本医疗保险统称为城镇基本医疗保险.本文以我国2010年城镇基本医疗保险现状为研究对象,运用SPSS13.0统计软件,采用多元统计方法,使用因子分析和聚类分析对我国2010年各地区城镇基本医疗保险现状进行研究,找出各地区发展差异并提出相应建议.2统计原理2.1因子分析原理和方法因子分析也称因素分析,是一种经常应用的处理多变量,高维度数据集的数据处理技术.它是用较少个数的公共因子的线性函数和特定因子之和来表达原来观测的每个变量,从研究相关矩阵内部的依赖关系出发,把一些错综复杂的变量归纳为少数几个综合因子的2一种多变量统计分析方法.其核心是用较少的互相独立的因子反应原有变量的绝大部分信息,可以将这一思想用数学模型来表示[2].设p个可观测变量12,,...,pxxx与q个公共因子(其中qp)满足1122...,(1,2,...,)iiiiqqixafafafip.此模型便是因子分析模型.由于12,,...,qfff是不可观测的因子,所以此模型有别于线性回归模型.若记111121112212222212,,,pqppppqqqxaaafxaaafXAFxaaaf.则因子分析模型的向量矩阵形式为:XAF.其中矩阵A称为公因子载荷阵,ija称为因子载荷,表示第i个变量在第j个公因子上的载荷,F称为公共因子向量,X为原变量向量,称为随机误差或特殊因子[3].建立因子分析模型的目的是找出公因子,解释每个公因子的实际意义,以便对实际问题进行分析.由因子模型矩阵得到的初始因子载荷矩阵,如果因子负荷的大小相差不大,对因子的解释可能有困难,因此,为得出较明确的分析结果,往往要对因子载荷矩阵进行正交旋转或斜交旋转,通常采用方差极大旋转法.通过旋转,使每个因子负荷在新的坐标系中能按列向0或1两极分化,同时也包含按行向两极分化[4].2.2聚类分析聚类分析是统计学中研究“物以类聚”问题的多元统计方法[2],常用的方法有动态聚类法和系统聚类法,本文将采用系统聚类法.其基本思想是:将n个样品看成n类,计算类与类之间的距离,并将类间距离最短的两类合并为一个新类,得到1n类,合并后重新计算新类与其他类的距离.如此不断反复,直到最后只剩下一类为止[3].3分析过程与结果3.1因子分析3.1.1指标体系本文选取以下8个指标作为我国城镇基本医疗保险评价的指标体系:医疗保险覆盖率3(1x),参保人数增长率(2x),当期基金总额占当地GDP比例(3x),基金当期结余率(4x),基金人均累计结余占当地社会平均工资比例(5x),人均门诊费用占当地社会平均工资比例(6x),人均住院费用占当地社会平均工资比例(7x),人均保险费用支出占当地社会平均工资比例(8x).3.1.2数据准备本文原始数据来源于《中国统计年鉴2011》,《中国卫生统计年鉴2011》,《中国人力资源与社会保障统计年鉴2011》.3.1.3数据处理将数据进行标准化处理后,通过观察相关系数矩阵,运用KMO统计量和Bartlett球形检验对数据进行检验.(1)计算原有变量的简单相关系数矩阵并进行统计检验.观察相关系数矩阵,如果相关系数矩阵中大部分相关系数值均小于0.3,即各个变量间大多为弱相关,原则上这些变量是不适合进行因子分析的.(2)KMO统计量:用于比较变量间简单相关系数和偏相关系数的指标,数学定义为:222ijijijijijijrKMOrp.其中2ijr是变量ix和其他变量jx间的简单相关系数;ijp是变量ix和其他变量jx间在控制了剩余变量下的偏相关系数.由上式可知:KMO统计量的取值在0~1之间.当所有变量的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1.KMO值越接近1,意味着变量间的相关性越强,原有变量越适合作因子分析.KMO度量标准:0.9以上表示非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极度不适合.(3)巴特利特球度检验(Bartletttestofsphericity):巴特利特球度检验以原有变量的相关系数矩阵为出发点,其原假设是:相关系数矩阵是单位阵.如果巴特利特球度检验的检验统计量的观测值比较大,且对应的概率P值小于给定的显著性水平,则拒绝原假设,认为相关系数矩阵不太可能是单位阵,原有变量适合做因子分析[2].将数据输入,通过观察相关系数矩阵(表1),借助KMO检验和Bartlett球形检验(表2),考察变量间是否存在一定的线性关系,是否适合用因子分析提取因子.从表1可以4知道各变量间存在着一定的线性关系,能够从中提取公因子,表2表明参与分析的31个样本的KMO统计量为0.579,Bartlett球形检验0.001p,故本文所选取的样本数据适合用因子分析的方法进行分析.表1变量的相关系数矩阵表2KMO检验和Bartlett球形检验KMOandBartlett'sTest.579108.42428.000Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.Approx.Chi-SquaredfSig.Bartlett'sTestofSphericity3.1.4提取公因子由表3,根据累积贡献率大于85%提取4个公因子.提取的4个因子1234,,,ffff旋转后的特征根分别为2.244,1.807,1.764,1.078,贡献率分别为:28.049%,22.584%,22.047%,13.476%,累积贡献率达到86.157%,总体上原有变量的信息丢失较少,基本能够反映出原始指标所代表的省,市,自治区的城镇基本医疗保险的情况,因子分析效果较理想.表3未旋转和旋转后的相关系数矩阵的特征值和贡献率5TotalVarianceExplained3.16339.54139.5413.16339.54139.5412.24428.04928.0491.83322.90762.4481.83322.90762.4481.80722.58450.632.98912.36274.811.98912.36274.8111.76422.04772.680.90811.34786.157.90811.34786.1571.07813.47886.157.4175.21991.376.3874.83596.211.2072.58898.799.0961.201100.000Component12345678Total%ofVarianceCumulative%Total%ofVarianceCumulative%Total%ofVarianceCumulative%InitialEigenvaluesExtractionSumsofSquaredLoadingsRotationSumsofSquaredLoadingsExtractionMethod:PrincipalComponentAnalysis.3.1.5建立因子载荷矩阵对提取的4个公因子建立原始因子载荷距阵(表4),由因子载荷矩阵就可得到因子分析模型,如112340.7000.5160.0150.273xffff,其他变量可相应用这四个公共变量表示.为便于看出各公因子的实际意义,简化对因子和变量的解释,使一个变量只在尽可能少的因子上有比较高的载荷,对因子载荷距阵进行方差极大正交旋转,得到旋转后的因子载荷矩阵(表5).从表5可以看出公因子1f在当期基金总额占当地GDP比例(3x),人均门诊费用占当地社会平均工资比例(6x),人