数据处理方法与依据

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据处理的方法与工具吕士钦太原理工大学LOGO1概述•近几年,数学建模竞赛的规模越来越大,水平越来越高;赛题难度也越来越大,对学生数据处理能力要求也越来越高,最困难的有两个方面:(1)无数据建模问题;(2)海量数据问题。LOGO无数据建模问题例如:(1)2010B:2010年上海世博会影响力的定量评估;(2)2008B:高等教育学费标准探讨;往往为综合评价类模型,赛题来自于实际问题,开放程度比较高,需要据相关多因素信息及收集到数据对实际对象进行客观、公正、合理的全面评价。LOGO无数据建模问题数据收集手段与方法:(1)权威机构或相关部门发布;(2)通过搜索引擎在Internet搜索;(3)通过问卷、实验等自主采集;例如:公交车门的高度是按照成年男子与车门顶部碰头的机率不超过1%设计的,山西省欲采购一批公交车,请问应将车门高度设计成多高比较合适?LOGO无数据建模问题问题的关键在于获取山西省成年男子的身高情况,我们优先考虑的方法是(1)(2),在无法通过前两种方法获取的情况下,可以通过(3)获得。显然取样,进而可以获得山西成年男子身高X的样本均值和样本方差,剩下的就是求解一个简单的概率问题而已:P(Xh)=99%LOGO海量数据建模问题•2000A:DNA序列分类;•2000B:钢管订购和运输;•2001A:血管的三维重建;•2001B:公交车调度;•2002B:彩票中的数学;•2003A:SARS的传播;•2004A:奥运会临时超市网点设计;LOGO海量数据建模问题•2004B:电力市场的输电阻塞管理;•2005A:长江水质的评价和预测;•2005B:DVD在线租赁;•2006A:出版社的资源配置;•2006B:艾滋病疗法的评价及疗效的预测……尤其是:2011年夏令营:测井曲线自动分层问题(10M)LOGO海量数据建模问题显然大批量数据是很难手工处理的,需要我们借助于计算机以及一些数据处理软件来完成,需要掌握基本的计算机使用与编程能力。实在无法完成大批量数据处理的情况下,随机截取典型性数据也不失为一种合理的解决办法。LOGO海量数据建模问题数学建模中常用软件:WorldMATLABMathematicaLindoExeclSPSSC&C++LingoLOGO海量数据建模问题软件学习的关键:(1)数据的读入;(2)异常数据处理;(3)数据规范化与归一化;(4)常见问题与软件功能的对应。(5)绘图与可视化输出。LOGO(1)数据的读入数据的读入:a)复制、粘贴;b)功能函数。•Matlab中textread():a=textread('data.txt','%*s%*s%f%*s','headerlines',3,'delimiter','')headerlines是文件头有多少行delimiter就是词跟词之间的分隔符。%s是字符串的意思,%f是浮点数的意思而在它们中间加上*,表示跳过这个词。%*s%*s的意思就是跳过前两个词。LOGO(1)数据的读入•Matlab中imread():该函数用于读取图片文件中的数据。filename='e.bmp';imgRgb=imread(filename);%读入一幅彩色图像imshow(imgRgb);%显示彩色图像•Matlab中xlsread():该函数用于读取Execl文件中的数据。LOGO(1)数据的读入•Lingo中@file():该函数用于文本文件的读入。•Lingo中@TEXT():该函数输出数据(文本文件)。•Lingo中@OLE()该函数与电子表格软件(如EXCEL)连接;•Lingo中@ODBC()该函数与数据库连接。LOGO(1)数据的读入@FILE和@TEXT:文本文件输入输出MODEL:SETS:MYSET/@FILE(‘myfile.txt’)/:@FILE(‘myfile.txt’);ENDSETSMIN=@SUM(MYSET(I):SHIP(I)*COST(I));@FOR(MYSET(I):[CON1]SHIP(I)NEED(I);[CON2]SHIP(I)SUPPLY(I));DATA:COST=@FILE(‘myfile.txt’);NEED=@FILE(‘myfile.txt’);SUPPLY=@FILE(‘myfile.txt’);@TEXT(‘result.txt’)=@STATUS(),SHIP,@DUAL(SHIP),@RANGED(SHIP)@DUAL(CON1),@RANGEU(CON2);ENDDATAENDmyfile.txt文件的内容、格式:Seattle,Detroit,Chicago,Denver~COST,NEED,SUPPLY,SHIP~12,28,15,20~1600,1800,1200,1000~1700,1900,1300,1100LOGO(1)数据的读入c)计算机语言编程文本文档中写着:1Intel_Pentium_E_214049502AMD_Athlon64_X2_3600+46503Intel_Celeron_4204800......要求将这些读入C程序中(编号,名称,价格,已售出量组成)#includestdio.hstructHardware_database{intnumber;charname[40];intprice;intsales;}CPU[50];intmain(intargc,char*argv[]){inti;FILE*CPU_record;PU_record=fopen(c:\\CPU_Data.txt,r);for(i=1;feof(CPU_record)==0;i++){fscanf(CPU_record,%d%s%d%d\n,&CPU[i].number,CPU[i].name,&CPU[i].price,&CPU[i].sales);printf(%d,%s,%d\n,CPU[i].number,CPU[i].name,CPU[i].price);}printf(PressAnyKeytoBack);getchar();fclose(CPU_record);return0;}LOGO(2)异常数据处理LOGO(2)异常数据处理a)散点图。Matlab中可由plot()实现,在SPSS中可通过点选菜单的方式实现。画散点图还可以帮助我们找出数据的规律。LOGO(2)异常数据处理b)3σ检测法LOGO(2)异常数据处理LOGO(2)异常数据处理C)聚类分析法LOGO(2)异常数据处理异常数据处理:剔除均值替代回归替代异常数据的处理由SPSS、SAS、mintab实现比其他软件更方便。LOGO(3)数据规范化在实际中的评价指标12,,,(1)mxxxm之间,往往都存在着各自不同的单位和数量级,使得这些指标之间存在着不可公度性,这就为综合评价带来了困难,尤其是为综合评价指标建立和依据这个指标的大小排序产生不合理性。如果不对这些指标作相应的无量纲处理,则在综合评价过程中就会出“大数吃小数”的错误结果,从而导致最后得到错误的评价结论。无量纲化处理又称为指标数据的标准化,或规范化处理。常用方法:标准差法、极值差法和功效系数法等。LOGO(3)数据规范化假设m个评价指标12,,,mxxx,在此不妨假设已进行了类型的一致化处理,并都有n组样本观测值(1,2,,;1,2,,)ijxinjm,则将其作无量纲化处理。(1)标准差方法:令ijjijjxxxs(1,2,,;1,2,,)injm,其中1221111,[()](1,2,,)nnjijjijjiixxsxxjmnn。显然指标(1,2,,;1,2,,)ijxinjm的均值和均方差分别为0和1,即[0,1]ijx是无量纲的指标,称之为ijx的标准观测值。LOGO(3)数据规范化(2)极值差方法:令ijjijjjxmxMm(1,2,,;1,2,,)injm,其中11max{},min{}(1,2,,)jijjijininMxmxjm。则[0,1]ijx是无量纲的指标观测值。(3)功效系数法:令ijjijjjxmxcdMm(1,2,,;1,2,,)injm,其中,cd均为确定的常数。c表示“平移量”,d表示“旋转量”,即表示“放大”或“缩小”倍数,则[,]ijxccd。譬如若取60,40cd,则[60,100]ijx。LOGO(3)数据规范化极大型指标:总是期望指标的取值越大越好;极小型指标:总是期望指标的取值越小越好;中间型指标:总是期望指标的取值既不要太大,也不要太小为好,即取适当的中间值为最好;区间型指标:总是期望指标的取值最好是落在某一个确定的区间内为最好。在将数据无量纲化之前,在有些问题下,特别是综合评价模型中,还需要将数据根据处理目标一致化。一般说来,数据指标一般说来,在评价指标中可能包含有:LOGO(3)数据规范化(1)极小型指标:对于某个极小型指标x,则通过变换1(0)xxx,或变换xMx,其中M为指标x的可能取值的最大值,即可将指标x极大化。(2)中间型指标:对于某个中间型指标x,则通过变换2()1,()22()1,()2xmmxMmMmxMxMmxMMm其中M和m分别为指标x的可能取值的最大值和最小值,即可将中间型指标x极大化。LOGO(3)区间型指标对于某个区间型指标x,则通过变换1,1,1,axxacxaxbxbxbc其中[,]ab为指标x的最佳稳定的区间,max{,}camMb,M和m分别为指标x的可能取值的最大值和最小值。即可将区间型指标x极大化。LOGO(3)数据规范化例:长江水质的综合评价模型(1)溶解氧(DO)的标准化注意到溶解氧(DO)为极大型指标,首先将数据指标作极小化处理,即令倒数变换111xx,相应的分类标准区间变为1111111111(0,],(,],(,],(,],(,],(,)7.57.566553322,然后通过极差变换5.011xx将其数据标准化,对应的分类区间随之变为(0,0.2667],(0.2667,0.3333],(0.3333,0.4],(0.4,0.6667],(0.6667,1],(1,)LOGO(2)高锰酸盐指数(CODMn)的标准化高猛酸盐指数本身就是极小型指标,即由极差变换将其数据标准化,即令1522xx,对应的分类区间随之变为(0,0.1333],(0.1333,0.2667],(0.2667,0.4],(0.4,0.6667],(0.6667,1],(1,)(3)氨氮(NH3-N)的标准化氨氮也是极小型指标,对指标数据作极差变换将其数据标准化,即令233xx,对应的分类区间随之变为(0,0.075],(0.075,0.25],(0.25,0.5],(0.5,0.75],(0.75,1],(1,)LOGO(4)PH值的处理酸碱度(PH值)的大小反映出水质呈酸碱性的程度,通常的水生物都适应于中性水质,即酸碱度的平衡值(PH值略大于7),在这里不妨取正常值的中值7.5。当PH7.5时水质偏酸性,当PH7.5时偏碱性,而偏离值越大水质就越坏,PH值属于中间型指标。为此,对所有的PH值指标数据作均值差处理,即令5.7325.15.7444xxx,则将其数据标准化。谢谢!lvshiqin@tyut.edu.cnQQ:33248688太原理工大学数学学院

1 / 31
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功