1多元统计分析在大学生综合素质评价中的应用摘要德育和智育是衡量大学生综合素质的重要因素,本文根据天津工业大学某年度某班级学生的各科成绩和影响学生综合素质的相关因素的实际数据,应用因子分析对影响学生综合素质的各因素进行主成份分析,计算各个学生的因子综合得分并按得分高低进行排序,把它和常见的的两种评价方法进行比较,结果发现该才法能够弥补仅仅依靠平均积点分和按绘合浏评总分排序的不足.最后,以因子综合得分和平均积点分和综合浏评总分为指标采用聚类分析对所有学生进行分类,得出了令人满意的结果。实证分析结果表明因子分析和聚类分析是衡量学生综合素质行之有效的方法。关键词:因子分析聚类分析综合素质评价统计分析21绪论1.1研究背景多元统计分析中的因子分析法[l]是通过对原始数据的相关系数矩阵内部结构的研究,将多个指标转化为少量互不相关且不可观测的随机变量(即因子),以提取原有指标绝大部分的信息的统计方法。进行因子分析圆首先需将原始数据作标准化处理,建立相关系数矩阵并计算其特征值和特征向量,接着从中选择特征值大于等于1的特征值个数为公共因子数,根据特征值累计贡献率大于80%来确定公共因子,然后求得正交或斜交因子载荷矩阵,最后计算公共因子得分和因子综合得分。将因子分析法和聚类分析用于综合评价,近年来出现不少研究成果,文献[2]将因子分析和聚类分析用于中国各地区建筑业综合竞争力评价问题,文献[3]研究了大学生毕业论文满意度的问题,文献[4一6]分别研究了教学质量评价问题、中国各地区综合竞争力评价等问题。文献[7一8]应用模糊综合评判法对影响学生综合素质的各指标进行评价,但这种方法仅仅得到了各指标的一个权重,并没有把这些评价结果和原有方法作比较。1.2研究的现实意义目前高等学校中比较常见的用于评价学生奖学金的获得与否,常常仅仅根据学生成绩的好坏(平均积点分)来评定并定等级,这样做的一个弊端就是把成绩的好坏作为衡量学生综合素质的唯一指标,而高校里的其它评优都以此为标准,结果造成这样一个事实:大学里只要成绩好就行。然而,大学里影响学生综合素质的因素不仅仅这些,还有诸如:英语四六级、国家计算机等级考试、数学建模竞赛、课外学术活动、发表论文、全国大学生英语竞赛、数学竞赛等反映学生智育水平的指标;热爱集体、乐于助人、积极参与活动、不迟到、不早退等体现学生个人生活作风的指标;积极向上、锐意进取、自强、自立等体现学生个人思想作风的指标等等,而如果要考虑学生这些方面的表现比较常见的方法则是根据下文给出的学生的综合测评分来定等级。作者认为已有的这两种方法都带有一定的局限性,都不能公正公平的评价大学生的综合素质。因为平均积点分高低反映的仅仅是学生学习成绩的好坏,仅仅是学生学习刻苦的程度,对于大学生来说,仅仅成绩好是不够的,更重要的是要具备良好的思想道德品质。而综合测评总分的计算方法是学生自评互评、班级考评和班主任考评的加权平均加上德育和智育分,它反映的是班级所有同学对该生的综合评价,涉及到该生的为人、格、成绩等各方面的因素,但是带有一定的主观性。为了科学衡量大学生的综合素质,综合各个相关因素给出每个大学生综合素质高低的一个量化标准,本文尝试着应用因子分析和聚类分析对学生的综合素质进行评价,首先采用因子分析对六个相关指标进行分析,分析各个指标对学生综合素质所起的作用,得出各主因子的因子得分和因子综合得分,其次依据因子综3合得分进行排序,并把他和常用的两种评价方法(评价积点分和综合测评总分)作比较,最后对结果进行分析。分析结果表明:这种方法能够比较好的弥补原有两种方法的局限性(具体分析结果见下文中的表7),而且给出了学生综合素质总体表现优秀、良好、中等和及格的划分标准,都得出了比较好的结果。1.3本文结构安排第一章绪论,讲述本文研究的背景及其研究的现实意义;第二章主要说明了本文研究的数据的来源,是以天津工业大学的某学院为例进行的研究;第三章主要介绍了本文所用到的因子分析和聚类分析这两种分析方法。并进一步介绍了因子分析的概念,定义,模型等;介绍了聚类分析的概念和定义;第四章为本文的最主要部分,及运用因子分析和聚类分析解决本文研究问题的过程,并得出结果。第五章为本文的结论部分。42本文数据来源和研究方法说明本研究主要以天津工业大学某年度某班级25位同学的各科实际考试成绩和影响综合测评各相关因素所得的实际数据为原始数据,该原始数据主要有六个指标,具体含义解释如上表。常用的两种评价方法:一种是采用平均积点分(计算方法如上);一种是采用综合测评总分,其计算方法为:-综合测评总分23456*1*2*36xxxxxX1平均积点分平均积点分=*各科成绩该科学分总学分,该指标可衡量一个学生学习成绩好坏,是评价一个学生综合素质常用的方法,在该学校是一位同学能否评优、享受各类奖学金奖金的重要参考指标X2学生自评互评让班级每位学生对全班25位同学从思想品德(20分)、学习情况(20分)、生活作风(20)、学科竞赛(20)、待人处事(20)五个方面进行打分求和作为每位学生对全班25位同学的评价分,最后对每位同学的评价分求平均作为每位学生的自评互评分X3班级考评分让全班同学公开投票选出5位大家都信任的代表,本着公平、公正的原则,综合同学们各方面的表现,对全班25个同学打分,最后求平均作为每位学生的班级考评分X4班主任考评分班主任本着对各位同学的了解,综合考虑德、智、体各方面,按照公平、公正的原则,给全班25位同学打分作为每位学生的班主任考评分X5德育分从思想品德的表现状况、班干部工作力度、乐于助人的具体事迹、锐意进取的精神状态等事关思想道德水平的一个量化分值X6智育分考虑学生的英语四六级、国家计算机等级考试、数学建模竞赛、英语竞赛等事关学生科技文化素质的一个量化分值(其中六个指标具体含义以“天津工业大学综合测评管理条例”为例)53因子分析和聚类分析3.1因子分析3.1.1因子分析的介绍因子分析(factoranalysis)模型是主成分分析的推广。它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。相对于主成分分析,因子分析更倾向于描述原始变量之间的相关关系;因此,因子分析的出发点是原始变量的相关矩阵。因子分析的思想始于1904年CharlesSpearman对学生考试成绩的研究。近年来,随着电子计算机的高速发展,人们将因子分析的理论成功地应用于心理学、医学、气象、地质、经济学等各个领域,也使得因子分析的理论和方法更加丰富。本章主要介绍因子分析的基本理论及方法,运用因子分析方法分析实际问题的主要步骤及因子分析的上机实现等内容。3.1.2因子分析的基本思想因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。对于所研究的某一具体问题,原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。在经济统计中,描述一种经济现象的指标可以有很多,比如要反映物价的变动情况,对各种商品的价格做全面调查固然可以达到目的,但这样做显然耗时耗力,为实际工作者所不取。实际上,某一类商品中很多商品的价格之间存在明显的相关性或相互依赖性,只要选择几种主要商品的价格或进而对这几种主要商品的价格进行综合,得到某一种假想的“综合商品”的价格,就足以反映某一类物价的变动情况,这里,“综合商品”的价格就是提取出来的因子。这样,对各类商品物价或仅对主要类别商品的物价进行类似分析然后加以综合,就可以反映出物价的整体变动情况。这一过程也就是从一些有错综复杂关系的经济现象中找出少数几个主要因子,每一个主要因子就代表经济变量间相互依赖的一种经济作用。抓住这些主要因子就可以帮助我们对复杂的经济问题进行分析和解释。因子分析还可用于对变量或样品的分类处理,我们在得出因子的表达式之后,就可以把原始变量的数据代入表达式得出因子得分值,根据因子得分在因子所构成的空间中把变量或样品点画出来,形象直观地达到分类的目的。因子分析不仅仅可以用来研究变量之间的相关关系,还可以用来研究样品之间的相关关系,通常将前者称之为R型因子分析,后者称之为Q型因子分析。6我们下面着重介绍型因子分析。3.1.3因子分析的基本理论及模型为了对因子分析的基本理论有一个完整的认识,我们先给出CharlesSpearman1904年用到的例子。在该例中Spearman研究了33名学生在古典语(C)、法语(F)、英语(E)、数学(M)、判别(D)和音乐(Mu)六门考试成绩之间的相关性并得到如下相关阵:CFEMDMuCFEMDMu1.000.830.780.700.660.630.831.000.670.670.650.570.780.671.000.640.540.510.700.670.641.000.450.510.660.650.540.451.000.400.630.570.510.510.401.00Spearman注意到上面相关阵中一个有趣的规律,这就是如果不考虑对角元素的话,任意两列的元素大致成比例,对C列和E列有:0.830.700.660.631.20.670.640.540.51于是Spearman指出每一科目的考试成绩都遵从以下形式:iiiXaFe式中,iX为第i门科目标准化后的考试成绩,均值为0,方差为1。F为公共因子,对各科考试成绩均有影响,是均值为0,方差为1。ie为仅对第i门科目考试成绩有影响的特殊因子,F与ie相互独立。也就是说,每一门科目的考试成绩都可以看作是由一个公共因子(可以认为是一般智力)与一个特殊因子的和。在满足以上假定的条件下,就有:cov(,)()()varijiijjijijXXEaFeaFeaaFaa于是,有cov(,)cov(,)ijjikkXXaXXa(3—1)7(3—1)式与i无关,也正与在相关矩阵中所观察到的比例关系相一致。除此之外,还可以得到如下有关iX方差的关系式:var()var()var()var()iiiiiXaFeaFe2var()var()iiaFe2var()iiae因为ia是一个常数,F与ie相互独立且F与iX的方差均被假定为1。于是有:21var()iiae因此,常数ia的意义就在于其平方表示了公共因子F解释iX的方差的比例,因此被称之为因子载荷,而2ia被称作共同度。对Spearman的例子进行推广,假定每一门科目的考试成绩都受到m个公共因子的影响及一个特殊因子的影响,于是(2—1)就变成了如下因子分析模型的一般形式:1122iiiimmiXaFaFaFe…(3—2)式中,iX为标准化后的第i门科目的考试成绩,均值为0,方差为1。1F,2F,…,mF是彼此独立的公共因子,都满足均值为0,方差为1。ie为特殊因子,与每一个公共因子均不相关且均值为0。则1ia,2ia,…,ima为对第i门科目考试成绩的因子载荷。对该模型,有:22212var()var()1iiiimiXaaae…式中,22212iiimaaa…表示公共因子解释iX方差的比例,称为iX的共同度,相对的var()ie可称为iX的特殊度或剩余方差,表示iX的方差中与公共因子无关的部分。因为共同度不会大于1,因此,11ija。由模型(3—2)还可以很容易地得到如下iX与jX相关系数的关系式:1122ijijijimjmraaaaaa…所以当iX与jX在某一公共因子上的载荷均较大时,也就表明了iX与jX的相关8性较强。3.1.4因子分析模型和因子载荷矩阵因子分析模型:111112211111112211111112211111112211mmmmmmmmXaFaFaFXaFaFaFXaFaFaFXaFaFaF