1广广西西区区首首届届研研究究生生数数学学建建模模竞竞赛赛题目摘要:竞赛题目:针对高校助学金等级评定这一热点问题,我们将众多因素分类,归为班级评定、家庭年收入、月消费金额、国家助学贷款因素、单亲因素、医疗支出因素、教育支出因素、债务因素、突发性因素。将这些影响评定结果的因素作为变量,利用模糊数学的方法来建立模型,通过求解来计算他们各自对最后结果的影响程度。第一步是分析众多影响因素,同时忽略一些属于偶发的特例。将所有数据以人为一组,根据统计,利用模糊统计方法来计算其隶属值,设定隶属值一等为,二等为,三等为。设N为单个学生的单个因素的模糊关系矩阵,M为银子权重矩阵,S为总体评定结果。N、S的结果通过对全部数据进行模糊统计求得,M通过方程求得。M反映的是单个因素对评价整体的影响程度最后,根据N,带入M值,可得出最终结果,据此判定助学金等级。2论文正文基于模糊数学理论的高等学校助学金等级评定设计模型一、问题的重述随着2007年国家资助高校贫困生新政策的出台,国家对贫困生的资助力度和资助面都在加大。根据新的资助政策的要求,各地各高校根据本地实际情况制定本校的家庭经济困难认定办法。但在评审的过程中,因为资助力度的加大,覆盖面的加大,又出现了一些新问题。此外,家庭经济困难学生认定工作包含了太多的因素,而当前我国高校已经有的助学金等级评定方法大多采用定性或半定量的方法,而不是完全定量的方法。这种评定方法存在一定程度的主观因素过强、信息不对等和不容易操作等问题。统计学上的定性数据包括分类数据和顺序数据,是一组表示事物性质、规定事物类别的文字表述型数据,不能将其量化,只能将其定性。定量数据就是可以被量化的、用数值表示大小的数据。通常各地各高校将家庭经济困难学生大体分为2—3档,分为2档的等级为:一般困难和特别困难;分为3档的等级为:一般困难、比较困难和特别困难。困难学生的比例一般在20%左右。西部高校、农林地矿油核高校、理工科类高校困难学生比例稍高约在25—30%。本文要解决的问题是:1、在参考附录文件的基础上,用数学建模的方法给出一种更公平、易操作的全定量助学金等级评定方法,并用附录的数据说明给出方法的合理性;2、缩小给与不给的差距;3、明确界定一般困难和不困难。二、问题的分析要评定高等学校助学金等级,首先要对学生的贫困程度作一个划分。而对于鉴定一个学生是否为贫困生,其影响因素有很多,本题所列举的因素有6个,例如班级评定的困难等级、家庭年收入、月消费金额、是否国家贷款、是否生源地贷款和贫困原因。而对于影响贫困程度的诸多因素中,其界定标准是不太明确的,而且定性描述很多,因此需要利用一种统一的标准,使这些不同的因素定量化,方可以进行计算。本文引进模糊综合评价方法,运用模糊数学的基础理论将其定性的描述(如困难等级、贫困原因等)进行定量化,并根据各因素的隶属特征用模糊统计方法得出评价指标的权重分配,建立起模糊数学模型,最后汇总计算出助学金等级评价指数,以此来判断出该给与何等奖学金。三、问题假设与约定1.等级认定中忽略除了提及因素之外的其他不可预测的因素;2.因素六“贫困原因”分离成四个一级指标后,每个指标均可单独成为一3个因素来进行评价而对结果不造成影响;3.在综合评价模型中,为考查一学生的贫困程度,家庭年收入情况与月消费情况等其他因素而选取的考查时段是具有代表性的4.题中给出的数据真实可靠。5.国家在短时间内不会改变发放助学金政策。四、符号说明及其名词定义A——班级评定贫困等级B——家庭年收入因素C——家庭月消费因素D——是否已办过国家或者生源地贷款因素E——单亲因素F——家中是否有其他兄弟姐妹读书因素G——家庭是否有固定收入因素H——家庭成员医疗费用的因素M——权重因子矩阵P——加权因子R——模糊关系矩阵S——总体评定结果向量V——评语等级论域U——评价因素论域隶属度——若对论域(研究的范围)U中的任一元素x,都有一个数A(x)∈0,1与之对应,则称A为U上的模糊集,A(x)称为x对A的隶属度论域——任何科学理论中的研究对象构成的一个不空的集合。频数——一组数据在某个确定的范围内出现的数据的个数五、模型建立与求解5.1.数据的分析与处理5.1.1.剔除定量数据中的异常值众所周知,对于所获得的一批定量化数据,由于受各种各样的因素影响,总会存在异常值。这些异常值值得关注,忽视异常值的存在有时是十分危险的,不加剔除地把异常值包括进模型数据的计算分析过程中,对模型的结果会带来不良影响。那么,如何对数据中的异常值进行判别?箱线图为我们提供了识别异常值的标准,使用箱线图可以直观的识别数据中的异常值,而且结果比较客观。本题附录数据中所给出的定量化数据有两组,一组是家庭年收入,另外一组是月消费金额。要想利用数据进行分析,首先得把异常值排除。对此我们通过matlab软件编程对这两组数据进行箱线图描绘,经分析图形得出,家庭年收入因素中存在异常值,大于15000的为异常值;月消费金额中存在异常值,大于500的为异常值,如下图1、图2所示。4-0.100.10.20.30.40.50.60.70.80.911.11.21.31.41.51.61.71.81.922.1x1041家庭年收入箱线图中的异常值图11001502002503003504004505005506001月消费金额中的异常值图2我们将存在异常值的各行数据在EXCEL里用筛选法把其筛选出来,并把它另存一个EXCEL数据表,从而将其剔除掉。5.1.2.确定研究样本数据剔除异常值后的数据既可作为建模的研究依据,即通过研究该数据的规律反过来建立模型;又可以用来对所建数学模型的合理性检验。但这样会出现一个问题:用原数据(即剔除异常值后的数据,以下相同)建立模型后,再用它反过来检验模型,模型的准确性肯定体现不出来。因此本文将一部分数据从原数据中抽样分离出来,从而将原数据分为两个部分,一部分数据用作研究建立模型用,称为样本数据;另外一部分用于模型的合理性检验,称为检验数据,这样既减少了要处理的数据量,又可对模型实行其准确性的检验。样本数据的抽样方法:以定量化数据为抽样基准。考虑到家庭年收入因素变化较月消费金额大,且异常值较多,故以其作为抽样研究对象,并确定采用分层抽样方法。将家庭年收入按国家助学金的一、二、三等级分成互不交叉的三层,然后再按照一定的比例,从各层独立地抽取一定数量的个体,并保证该个体具有典型代表性,最后将各层取出的个体合在一起作为样本。为方便计算,抽取100内限值内限之外的值异常值5个数据作为样本数据,剩下129个数据作为模型检验数据。5.1.3.定性数据定量化如何将定性数据全部定量化是本文需要解决的重要问题,为避免重复阐述,这里将该方法的具体步骤放到“5.2.模型的建立”这一小节来讨论。5.2.模型的建立5.2.1.建模的思想模糊综合评价方法,是一种利用模糊集理论对某一考核系统进行综合评价十分有效的多因素决策方法。在贫困生贫困程度认定中涉及大量定性指标及多种影响因素相互作用,运用模糊综合评价法建立的数学模型有利于量化定性指标,并综合定量指标,做出较为科学的综合评价[1]。模糊综合评价方法应用模糊关系合成的原理,从多个因素对被评判事物隶属等级状况进行综合性评价[2]。它包含五个基本要素:(l)评价因素论域U;(2)评语等级论域V;(3)模糊关系矩阵R;(4)评价因素权重向量M;(5)总体评定结果向量S。针对本题的具体情况,该方法的思想,首先是确定影响因素并构成因素集,然后根据样本数据100人的统计结果,利用模糊统计方法来计算出隶属度。由于对一个贫困生的总体评定是对单个影响因子进行综合的结果,并且每个因子对于总体评定结果的影响是不同的,令M为因子权重矩阵,R为不同学生个体的单个因素模糊关系矩阵,S为总体评定的结果,则有下面的模糊关系方程:S=R*M。S、R的结果已经通过模糊统计的方法获得,M则可以通过S=R*M方程来求解。M值在实际运用当中有着重要意义,它反映了各因素对评定结果的影响程度,任意一个学生可根据具体情况写出其单个因素模糊关系矩阵,再把M值代入,便可算出其最终结果,根据它便可判断所属等级[3]。5.2.2.建模具体步骤a).建立评价因素论域U。将各影响因素按顺序组合成一个因素集,这些因素的集合便为评价因素论域,记为U=(A,B,C,D,E,F,G,H),论域中的各个元素(如A)表示各个影响因素。b).确定评价的指标体系。根据因素集U建立起一个二级指标评价体系表,如下表所示。需要说明的是,由于因素六“贫困原因”比较复杂,为了使其便于分析,这里将它归纳分离为父母情况(E)、有无其他人读书(F)、家庭有无固定收入(G)和健康情况(H)等四个一级指标。表1因素集构成的二级评价指标系统一级指标二级指标A:班级评定的困难等级A1特困生A2一般困难学生B:家庭年收入情况(由箱线图统计得出)B1X=2000B22000X=5000B35000X=8000B4X8000C:家庭月消费情况(由箱线图统计得出)C1X=200C2200X=300C3300X=350C4X3506D:贷款情况D1无贷款D2有贷款D3生源地贷款E:父母情况E1孤儿E2单亲E3双亲F:有无其他人读书F1有1人以上F2没有G:家庭有无固定收入G1没有固定收入G2有固定收入H:健康情况H1有成员不健康H2所有成员都健康c).确定评语等级论域V。对每个因素的评价可以有几个评语,根据题目所给的附录数据可知,助学金等级的评语有三级:一等(v1)、二等(v2)、三等(v3)。因此评语等级论域为V=(vl,v2,v3)。d).统计得出模糊矩阵R。给定评语等级论域V=(vl,v2,v3)的一个加权因子P=[0.8,0.5,0.2],运用模糊统计知识计算得出上表各个二级指标因素(如A1、A2,B1、B2等)的隶属度,然后以样本数据为基础,统计出100个学生关于各因素的模糊关系矩阵R(计算过程见“5.3.模型的求解”)。到此步,所有的定性数据已经全部量化成一个模糊关系矩阵R,这个矩阵是用来求出权重因子M值的,它对于评定等级结果有很大影响,故也常被称之为评价矩阵。由此可见,求出评价矩阵R的过程,实质也是量化定性指标的过程,这就很好地解决了题目中如何将定性数据定量化的问题。e).计算出评价因素权重向量M值。根据公式S=R*M,结合统计结果得出的S、R值,最终可算出M值来。我们所建立的模型就是把每个可能影响最后评定等级的因素设为变量,通过求模糊数学来求解它对最终结果的影响程度,构造一个F公式求解X,X即判定值:X=Ai*x1+Bi*x2+Ci*x3+Di*x4+Ei*x5+Fi*6x+Gi*x7+Hi*x8。这里M=[x1x1x1x1x1x1x1x1]T,给定评语等级论域V=(vl,v2,v3)的一个加权因子P=[0.8,0.5,0.2],赋一个学生的具体因素情况进去之后与权重因子相乘得出X值来,根据X的值落在哪个加权因子的小邻域内,便可认定该学生的贫困等级。5.3.模型的求解以样本数据为基础,根据建模的具体步骤,给出模型求解的详细过程。5.3.1.求解隶属度问题求解隶属度,须构造隶属函数,而隶属函数是模糊数学中最重要、最基本的量。确定隶属函数有多种方法,在本文中采用模糊统计方法来确定。现在以班级评定的困难等级因素A为例,将其具体的操作过程描述如下:对于A的两种情况“特困生A1”、“一般困难A2”,给定三个评语等级(一等、二等、三等)。根据样本数据进行统计得出各困难等级获助学金等级的人数,如:是特困生且获得一等助学金的人数为41个,是特困生且获得二等助学金的人数为12个,是特困生且获得三等助学金的人数为0个,依次填入A1所在的列上,如表2所示。然后给定评语等级论域V=(vl,v2,v3)的一个加权因子P=[0.8,0.5,0.2],并定义频数为A1分别获一二三等助学金的人数总和,即为41+12=53。若Ai的评语频数为7A=[a1,a2,a3]T,则隶属度为:U(i)=(0.8*a1+0.5*a2+0.2*a3)/(a1+a