1基于数据仓库的学生体质健康状况分析评价模型及其实现扬州环境资源职业技术学院计算机科学与技术系吴振慧摘要本论文对数据仓库、联机分析处理和模糊综合评价进行了研究。通过对《学生体质健康标准(试行方案)》的分析,提出了对学生的体质健康状况进行模糊综合评价的方法。结合数据仓库中的数据转移技术、多维建模技术设计了一个以体质健康测试成绩分析为主题的数据仓库,并在此基础上运用联机分析处理技术初步实现了一个学生体质健康数据分析系统。运用模糊综合评价方法建立了对学生的体质健康状况进行科学评价的模型。关键词数据仓库联机分析处理模糊评价体质健康一、引言目前,我国对健康和增强体质十分重视,许多高等院校、中等学校,以及国民体质监测中心都建立了体质信息管理数据库,并在此基础上开发了管理信息系统。但是,这些系统通常都是面向部门事务处理的分散的数据库,分别处理当前各自的业务,各个部门的数据按自己的业务需要进行组织,缺乏从管理决策的高度来考虑数据的管理。信息资源杂乱且缺乏有效的利用,各相关部门无法对历史数据进行全局分析和综合决策。《学生体质健康标准(试行方案)》要求每个学生每学年都要参加体质健康测试,这样年复一年地积累大量数据,快速增长的数据收集、存放在大型和大量数据库中,如果没有强有力的分析方法和工具,人们根本不能理解这些数据。所以从各级决策者的角度来看,数据处理的重点应该从传统的业务过程扩展到对业务数据的分析处理,并从中得到面向各种主题的统计信息和决策支持信息。数据仓库技术的出现和发展为上述问题的解决带来了新的契机,并提供了强有力的工具和手段。数据仓库将来自各个数据库的信息进行集成,从事物的历史和发展的角度组织和存储数据,供用户进行数据分析,并辅助决策,成为决策支持的新型应用领域。二、相关技术概述1.数据仓库著名的数据仓库专家W.H.Inmon在其著作《BuildingtheDataWarehouse》一书中对数据仓库给予如下描述,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库。其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。2.联机分析处理联机分析处理(OnlineAnalyticalProcessing,简称OLAP)是一项允许用户分析大型数据库从而对其包含信息深入洞察的技术,其概念最早是由关系数据库之父E.F.Codd于1993年提出的。指出联机分析处理是以多维分析为基础,刻画了在管理和决策过程中对数据进行多层面、多角度的分析处理的要求。OLAP是一类软件技术,它使分析人员、经理、管理人员通过对信息(这2些信息从原始数据转换而来,反映了用户所能理解的企业的真实的“维”)的多种可能的观察角度进行快速、一致和交互性的存取,以获得对问题的深入理解。OLAP的特性主要体现为多维性、快速性、分析性和信息性。3.数据仓库、OLAP在MIS中的应用为了解决MIS在分析与决策支持上的不足,近年来出现了以数据仓库技术为基础的决策支持系统,该方案包含了三个方面的内容。(1)数据仓库技术(DataWarehouse,DW)(2)联机分析处理技术(On-LineAnalyticalProcessing,OLAP)(3)数据挖掘技术(DataMining,DM)DW、OLAP和DM最初是作为三种独立的信息处理技术出现的,它们可以分别应用到信息系统的设计和实现中。DW用于综合性的数据存储和组织;OLAP集中于数据的多维分析;DM则致力于知识的自动发现。4.模糊综合评价模糊综合评价是对受多种因素影响的事物作出全面评价的一种十分有效的多因素决策方法,其基本思想就是考虑与被评价事物相关的各个因素,应用模糊变换原理和最大隶属度原则进行综合评价。所以,模糊综合评价又称模糊综合决策或模糊多元决策。模糊综合评价法的原始数学模型(1)建立被评价对象的因素集U(2)建立评价集V(3)建立单因素模糊评价Ri,然后由各单因素评价向量得到模糊评价矩阵R(4)建立权重集A(5)综合评价权重向量A与评价矩阵R的合成就是被评价对象的最终评价结果,即:B=AοR=(b1,b2,……bn)三、《学生体质健康标准》(试行方案)介绍《学生体质健康标准》(试行方案)是全国教育科学“十五”规划国家级重点课题《〈学生体质健康标准〉的研究》的重要成果,由教育部、国家体育总局共同组织、研制。《学生体质健康标准》大学生测试项目必测项目选测试项目备注身高体重肺活量台阶试验50米跑立定跳远选测一项坐位体前屈握力仰卧起坐(女)选测一项在进行评价时,对五项指标进行评价。身高标准体重、肺活量体重指数、台阶指数、50米跑或立定跳远(选评一项)、握力体重指数或仰卧起坐(女生)或坐位体前屈(选评一项)。在评价后,以100分进行记分,各项评价分数的权重系数是,身高标准体重15分,台阶指数20分,肺活量体重指数15分,50米跑或立定跳远30分,握力体重指数或仰卧起坐(女生)或坐位体前屈20分。在《学生体质健康标准(试行方案)》实施办法中规定:总分达86分以上为优秀,76-85分为良好,60-75分为及格,59分以下为不及格。达到良好等级以上者,方可评为三好学生、获奖学金,达到优秀成绩者,方可获奖学分;学生毕业时,《标准》成绩达到60分为及格,准予毕业。《标3准》成绩不及格者,高等学校按肄业处理。四、学生体质健康状况分析评价模型一般来说,对学生的体质健康状况进行分析与评价的最终用户是各级体育运动管理者或体育科研工作人员,他们大多并不关心测试的数据细节本身,而是隐藏在这些细节数据中的有用信息。如:不同时期学生的体质健康状况的发展变化情况及其评价;不同地区学生的体质健康状况的差异;不同项目的成绩情况分析;比较学生的体质在该标准下比以前是进步还是退步了……通过掌握这样的统计汇总信息,不仅提高工作效率、缩短工作周期,同时能够为各层领导者制定更加科学合理的健身锻炼计划提供依据,为全面提高学生的身体素质提供决策支持。1.学生体质健康状况的表示反映学生体质健康状况的指标通常为学生的身体形态、身体机能、身体素质等方面。即体质健康状况=F(身体形态,身体机能,身体素质)。而身体形态由“身高标准体重”项目反映,身体机能由“肺活量体重指数”项目反映,身体素质通常又由“台阶试验、1000米跑、800米跑、50米跑、立定跳远、坐位体前屈、仰卧起坐、握力体重指数”等各项中的部分项目予以反映。由于各项目具有各自不同的权重,为了使各测试项目具有更好的可比性,在原有的学生各项目测试成绩的基础上,我们可以将学生的身体健康状况各项指标成绩用百分制数值表示出来,即某项目换算得分=项目测试得分/权重。在这里,各个项目测试得分是依照《学生体质健康标准》确定的。2.学生体质健康状况的模糊评价在《学生体质健康标准》中,各种测试指标的评分标准多为跳跃式的设计,其划分等级的中界值是一条清晰的界限,在此线上下的微小变化,就会被判为两个不同的等级。相反,同一年级组中尽管上限和下限的差值较大,但仍属于一个等级,这显然不够合理。因此,我们采用模糊数学的方法进行综合评价,会更科学一些。同时,由于反映学生身体形态和身体机能的项目,分别有身高标准体重和肺活量体重指数,因此影响学生体质健康状况的因素个数较少,在此,我们只需采用单层次的模糊综合评价,具体步骤如下。(1)选择因素集U={u1,u2,u3,u4,u5},u1=身高标准体重,u2=肺活量体重指数,u3=台阶试验,u4=50米跑/立定跳远,u5=坐位体前屈/握力体重指数/仰卧起坐(女)。参照北京大学的测评项目,我们选择测试的项目包括身高、体重、肺活量、台阶试验、立定跳远、握力六个项目共五项指标,即体质指数、肺活量体重指数、台阶试验、立定跳远和握力。(2)评价集V={不及格v1,及格v2,良好v3,优秀v4}。(3)用A、B、C分别表示某因素隶属依次等级的中界值,如以大学男生的台阶试验为例,A、B、C分别是39、45、53。类似的,肺活量体重指数的A、B、C分别是43、56、69;立定跳远的A、B、C分别是194、226、249;握力的A、B、C分别是40、55、69。用xi表示ui的测试值,rij表示评价对象ui隶属等级vj的程度,即隶属度,根据专家经验,按下列公式构造隶属函数。不及格的隶属函数:1xi≤A(B-xi)/(B-A)A<xi≤B0xiB及格的隶属函数:4xi/Axi≤A1Axi≤B(C-xi)/(C-B)Bxi≤C0xiC良好的隶属函数:0xi≤A(xi-A)/(B-A)Axi≤B1Bxi≤CC/xixiC优秀的隶属函数:0xi≤B(xi-B)/(C-B)Bxi≤C1xiC(4)单因素评价矩阵r。r=(ri1,ri2,ri3,ri4)。在此基础上得到评价模糊矩阵:r11r12r13r14R=r21r22r23r24r31r32r33r34r41r42r43r44r51r52r53r54(5)确定指标权重A。根据专家所制定的标准可知,A=(0.15,0.15,0.2,0.3,0.2)。(6)综合评价结果。B=A·R。五、课题的总体设计1.数据仓库工具的选择经过综合考察各大厂商提供的数据仓库解决方案,本课题确定选用Microsoft的数据仓库产品及其相关技术作为本系统开发的平台和工具。2、系统结构框图MIS界面Web界面OLAP界面MIS应用服务OLAP工具层OLAP服务数据库多维数据集数据仓库评价模型5B/S三层体系结构作者设计的“学生体质健康状况分析评价系统”是一个B/S(Browse/Server)结构模式的客户端查询分析评价系统,主要功能是向各级体育运动管理者提供数据,按其要求对数据进行组织和分析,帮助各级管理者了解和把握学生体质健康的状况。这种结构,能够在充分利用数据仓库系统及其相应的决策工具的基础上,发现准确而广泛的决策信息,并在此基础上做出正确的预测或决策。3.查询和分析工具的选择经过数据处理的多维数据集,可在其上运用多种查询和分析报告工具,进行复杂的OLAP操作,得出相应的分析统计结果。在此使用Excel2000中提供的OLAP数据透视表视图功能。六、系统实现1.数据源分析学生体质健康测试关系数据库xsjk中包括以下表。(1)项目表(#项目编号,项目名,权重,男生及格标准,男生优秀标准,女生及格标准,女生优秀标准,项目性质(反映的是身体形态、身体机能还是身体素质),类型(是可选项还是必选项),最好成绩,备注)。(2)学生表(#学生号,学生姓名,性别编号,专业编号,(所在)高校编号,(所属)地区编号,入校时间,学生密码,备注)。(3)成绩表(#学生号,#项目编号,#测试时间,测试成绩,项目得分,评价等级,换算得分,备注)。(4)专业表(#专业编号,专业名称)。(5)地区表(#地区编号,地区名)。(6)高校表(#高校编号,高校名,高校所在地,高校性质)。(7)性别表(#性别编号,性别)。2.数据仓库的设计该系统的事实数据应该是“各项成绩”,而时间、地区、项目、高校和专业等就是我们分析的角度即维度数据,如图所示。测试事实表项目号学生号测试时间成绩项目维度表项目编号项目名称权重学生维度表学生号学生姓名性别所在专业所属地区所在高校时间维度表测试时间年度63.数据转移的具体实施在正式开始执行数据转换之前,首先为xsjk的数据仓库新建一个数据库xsjk_dw,然后利用SQLServer2000提供的数据转换服务将相关数据转入事实表或维度表。当所需的数据表全部建立之后,通过设置事实表和维表的主键、外键,在事实表和各个维表之间建立关联,就最终实现了数据仓库。4.创建多维数据集使用SQLServer2000中的AnalysisManager(分析管理器)来创建数据分析中的维度和多维数据集,并为分析应用程序提供多维数据查询和分析服务。5.数据的分析微软将Excel当作一个OLAP