1•21世纪的社会是信息社会,其影响最终将要比十九世纪由农业社会转向工业社会更加深刻。•“一个国家总的信息流的平均增长与工业潜力的平方成正比”。•信息资源与自然资源和物质资源被称为人类生存与发展的三大资源。数据处理与数据建模方法2实际中大量信息或海量信息对应着大量的数据或海量数据,从这些数据中寻求所需要的问题答案--数据建模问题。通过实际对象过去或当前的相关信息,研究两个方面问题:(1)分析研究实际对象所处的状态和特征,依此做出评价和决策;(2)分析预测实际对象未来的变化状况和趋势,为科学决策提供依据。数据处理与数据建模方法3数据处理与数据建模方法1.数据建模的一般问题2.数据处理的一般方法3.数据建模的综合评价方法4.数据建模的动态加权方法5.数据建模的综合排序方法6.数据建模的预测方法4•实际对象都客观存在着一些反映其特征的相关数据信息;•如何综合利用这些数据信息对实际对象的现状做出综合评价,或预测未来的发展趋势,制定科学的决策方案?--数据建模的综合评价、综合排序、预测与决策等问题。数据建模一般问题的提出:一、数据建模的一般问题一般5综合评价是科学、合理决策的前提。综合评价的基础是信息的综合利用。综合评价的过程是数据建模的过程。数据建模的基础是数据的标准化处理。一、数据建模的一般问题如何构成一个综合评价问题呢?6依据相关信息对实际对象所进行的客观、公正、合理的全面评价。如果把被评价对象视为系统,则问题:在若干个(同类)系统中,如何确定哪个系统的运行(或发展)状况好,哪个状况差?即哪个优,哪个劣?一类多属性(指标)的综合评价问题。综合评价:一、数据建模的一般问题7综合评价问题的五个要素(1)被评价对象:被评价者,统称为评价系统。(2)评价指标:反映被评价对象的基本要素,一起构成评价指标体系。原则:系统性、科学性、可比性、可测性和独立性。(3)权重系数:反映各指标之间影响程度大小的度量。(4)综合评价模型:将评价指标与权重系数综合成一个整体指标的模型。(5)评价者:直接参与评价的人。8综合评价过程的流程确定指标初始值计算综合评价指标对nsss,,,21进行综合评价排序或分类?明任确务明目确的确定评价指标规范化指标mxxx,,,21指预标处的理权重系数m确系定数权综合评价指标),(wxfy选价择模评型依指标nyyy,,,21对nsss,,,21排序或分类9二、数据处理的一般方法1.数据类型的一致化处理方法极大型:期望取值越大越好;极小型:期望取值越小越好;中间型:期望取值为适当的中间值最好;区间型:期望取值落在某一个确定的区间内为最好。一般问题的数据指标12,,,(1)mxxxm可能有“极大型”、“极小型”、“中间型”和“区间型”指标。什么是一致化处理?为什么要一致化?10二、数据处理的一般方法1.数据类型的一致化处理方法(1)极小型:对某个极小型数据指标x,则1(0)xxx,或xMx.(2)中间型:对某个中间型数据指标x,则2()1,()22()1,()2xmmxMmMmxMxMmxMMm11二、数据处理的一般方法1.数据类型的一致化处理方法(3)区间型:对某个区间型数据指标x,则1,1,1,axxacxaxbxbxbc其中[,]ab为x的最佳稳定区间,max{,}camMb,M和m分别为x可能取值的最大值和最小值。122.数据指标的无量纲化处理方法在实际数据指标之间,往往存在着不可公度性,会出现“大数吃小数”的错误,导致结果的不合理。(3)功效系数法:二、数据处理的一般方法(1)标准差法:ijjijjxxxs(2)极值差法:ijjijjjxmxMmijjijjjxmxcdMm(1,2,,;1,2,,)injm[0,1]ijx1122111[()]njijinjijjixxnsxxn11max{}min{}jijinjijinMxmx13二、数据处理的一般方法3.模糊指标的量化处理方法在实际中,很多问题都涉及到定性,或模糊指标的定量处理问题。诸如:教学质量、科研水平、工作政绩、人员素质、各种满意度、信誉、态度、意识、观念、能力等因素有关的政治、社会、人文等领域的问题。如何对有关问题给出定量分析呢?14按国家的评价标准,评价因素一般分为五个等级,如A,B,C,D,E。如何将其量化?若A-,B+,C-,D+等又如何合理量化?根据实际问题,构造模糊隶属函数的量化方法是一种可行有效的方法。二、数据处理的一般方法3.定性指标的量化处理方法15假设有多个评价人对某项因素评价为A,B,C,D,E共5个等级:{v1,v2,v3,v4,v5}。譬如:评价人对某事件“满意度”的评价可分为{很满意,满意,较满意,不太满意,很不满意}将其5个等级依次对应为5,4,3,2,1。这里为连续量化,取偏大型柯西分布和对数函数作为隶属函数:二、数据处理的一般方法53,ln31,])(1[)(12xbxaxxxf其中ba,,,为待定常数.16二、数据处理的一般方法3.定性指标的量化处理方法53,ln31,])(1[)(12xbxaxxxf其中ba,,,为待定常数.当“很满意”时,则隶属度为1,即1)5(f;当“较满意”时,则隶属度为8.0,即8.0)3(f;当“很不满意”时,则隶属度为0.01,即01.0)1(f.计算得,3915.0,8942.0,1086.1a3699.0b。则53,3699.0ln3915.031,)8942.0(1086.11)(12xxxxxf17二、数据处理的一般方法3.定性指标的量化处理方法根据这个规律,对于任何一个评价值,都可给出一个合适的量化值。据实际情况可构造其他的隶属函数。如取偏大型正态分布。53,3699.0ln3915.031,)8942.0(1086.11)(12xxxxxf18模糊定性指标量化的应用案例(1)CUMCM2003-A,C:SARS的传播问题(2)CUMCM2004-D:公务员招聘问题;(3)CUMCM2005-B:DVD租赁问题;(4)CUMCM2008-B:高教学费标准探讨问题;(5)CUMCM2008-D:NBA赛程的分析与评价问题;(6)CUMCM2009-D:会议筹备问题。19三、数据建模的综合评价方法适用条件:各评价指标之间相互独立。对不完全独立的情况,其结果将导致各指标间信息的重复,使评价结果不能客观地反映实际。1.线性加权综合法用线性加权函数1mjjjywx作为综合评价模型,对n个系统进行综合评价。主要特点:(1)各评价指标间作用得到线性补偿;(2)权重系数的对评价结果的影响明显。202.非线性加权综合法用非线性函数mjwjjxy1作为综合评价模型,对n个系统进行综合评价。其中jw为权系数,且要求1jx。适用条件:各指标间有较强关联性。三、数据建模的综合评价方法主要特点:(1)突出了各指标值的一致性,即平衡评价指标值较小的指标影响的作用;(2)权重系数大小的影响不是特别明显,而对指标值的大小差异相对较敏感。21三、数据建模的综合评价方法3.逼近理想点(TOPSIS)方法设定系统指标的一个理想点),,,(**2*1mxxx,将每一个被评价对象与理想点进行比较。基于这种思想的综合评价方法称为逼近理想点的排序方法(Thetechniquefororderpreferencebysimilaritytoidealsolution,简称为TOPSIS)。如果某一个被评价对象指标),,,(21imiixxx在某种意义下与),,,(**2*1mxxx最接近,则被评价对象),,,(21imiixxx为最好的。22三、数据建模的综合评价方法假设理想点为),,,(**2*1mxxx,对于被评价对象),,,(21imiixxx,则定义二者之间的加权距离:nixxfwymjjijji,,2,1,)(1*,3.逼近理想点(TOPSIS)方法其中jw为权系数,),(*jijxxf为ijx与*jx之间的某种意义下距离。23返回通常可取2**)(),(jijjijxxxxf,则综合评价函数为nixxwymjjijji,,2,1,)(12*。三、数据建模的综合评价方法3.逼近理想点(TOPSIS)方法按照),,2,1(niyi值的大小对各被评价方案进行排序选优,其值越小方案就越好。特别地,当某个0iy时,则对应的方案就是最优的。24综合评价方法的应用案例(1)CUMCM1993-B:足球队排名问题;(2)CUMCM2001-B:公交车调度问题;(3)CUMCM2002-B:彩票中的数学问题;(4)CUMCM2004-D:公务员招聘问题;(5)CUMCM2005-A:长江水质的评价和预测问题;(6)CUMCM2005-C:雨量预报方法评价问题;(7)CUMCM2006-B:艾滋病疗法评价与预测问题;(8)CUMCM2007-C:手机“套餐”优惠几何问题;(9)CUMCM2008-B:高教学费标准探讨问题;(10)CUMCM2008-D:NBA赛程的分析与评价问题;(11)CUMCM2009-D:会议筹备问题。25四、数据建模的动态加权综合方法1.动态加权问题的一般提法设有n个被评价对象(或系统)12,,,(1)nSSSn,每个系统都有m属性(或评价指标)12,,,(1)mxxxm。对每一个ix都可分为K个等级12,,,Kppp(1)K。而对每一个kp都包含一个()()[,)iikkab,且()()iikkab(1,2,,;1,2,,)imkK,即当()()[,)iiikkxab时,则ix属于第k类kp(1)kK。问题:如何对n个系统做出综合评价呢?26四、数据建模的动态加权方法注意:问题对于每一个属性而言,既有不同类别的差异,同类别的又有不同量值的差异。对于既有“质差”,又有“量差”的问题,合理有效的方法是动态加权综合评价方法。1.动态加权问题的一般提法27四、数据建模的动态加权方法2.动态加权函数的设定(1)分段变幂函数1()()(),[,](1,2,,)kiiikkwxxxabkK,其中1im。28四、数据建模的动态加权方法2.动态加权函数的设定(2)偏大型正态分布函数20,()1,iiixiixwxex当时,当时,其中参数i可取()()11[,)iiab中的某定值。29返回四、数据建模的动态加权方法2.动态加权函数的设定(3)S型分布函数2()()11()()12()()()()12,,()12,,iiiiKiiiKKiiKxaaxcbawxxbcxbba其中参数()()11(),()0.52(1)iiKicabwcim且。30根据标准化后的指标值,仍用ix表示,相应动态权函数()(1,2,,)iwxim,则1()miiiiXwxx。若每个系统的m个属性都N组样本观测值{}ijx,则每一个系统都有N个综合评价指标值()(1,2,,;kXjkn1,2,,)jN。按其大小排序可给出n个系统的N个排序方案。四、数据建模的动态加权方法3.动态加权的综合评价模型31五、数据建模的综合排序方法1.综合排序问题的一般提法设有n个系统12,,,(1)nSSSn,每个系统都有m属性12,,,(1)mxxxm。相应的都有N组本观测值为{}(1;1)ijximjN。如果按照某种方法由每一组样本都可以给出n个系统12,,,(1)nSSSn的一个排序,则共有N个不同的排序结果。问题:如何给出n个系统的最终排序结果呢?32五、数据建模的综合排序方法2.综合排序问题的方法Bo