41数据分析处理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

2020/1/191第五讲数据分析处理建立数学模型解决现实问题目的真实世界的背景不容忽视需要收集、分析背景数据数据作用于模型的形式:初期:寻求变量间的关系中期:模型参数估计后期:模型检验2020/1/1921.建立数学模型的初始研究阶段,对数据的分析有助于寻求变量间的关系部分模型完全建立在数据的基础上如数据拟合以及经验模型2.利用数据来估计模型中出现的参数值,称为模型参数估计3.利用数据进行模型检验:通常用实际数据对模型得到的理论值进行检验数据是建立数学模型的重要依据!2020/1/193§1数据的收集与整理各种类型的数据为我们认识事物的内在规律、研究事物之间的关系、预测事物今后的可能发展等一系列问题,提供了丰富的材料和科学依据。如何收集、整理和分析数据,挖掘有用结果?2020/1/194着手建立模型时,关于数据需考虑以下问题:1.需要哪些以及何种形式的数据?2.如何去获得数据?怎样表达数据?3.如何对数据进行整理、分析?获取方式图书馆文件检索网上资料检索询问相关部门人员试验、观察并记录2020/1/195例1有人想分析出一所大学开水房拥挤的原因,并提出解决方案。例1开水房拥挤成因分析数据采集需要什么形式的数据,与建模目的和所选择的模型的特点有关。例2渡口模型数据性质收集数据并非多多益善,要善于剔除冗余数据2020/1/196用数学模型描述现实问题,模型中参数的估计、模型的求解以及模型的合理性很大程度取决于数据的准确可信。实验数据中总存在实验误差在建模工作的各个环节,实验误差都可能造成失之毫厘,谬之千里的失误。2020/1/197实验误差随机误差:系统误差:过失误差:由一系列偶然因素引起的一类不易控制的测量误差。实验观察过程中服从确定性规律的误差。明显歪曲实验结果的误差。无法避免,可增加试验次数,取算术平均来减小。不能通过增加实验次数求算术平均值来消除。但可用其他方法识别、消除。可以识别、并加以处理。2020/1/198在实验数据中,三类实验误差常常同时错综复杂的存在着。控制实验数据的质量整理实验数据消除实验误差重要工作2020/1/199例3施肥效果分析误差的处理方法:1.用统计检验方法检验出异常数据;2.尽可能寻找产生异常点的技术上或物理上的原因,作为处理异常值的依据。3.根据经验和实际背景知识做出实验数据的检查修正,异常数据的舍弃处理。2020/1/1910§2经验模型一.基于数据分析的建模方法在建立数学模型的过程中,经常需要建立变量之间的关系,但往往由于对研究对象的内部机理不甚了解,不能通过合理的假设,或根据物理定律、原理,经过机理分析法而得到。可借助于由实验或测量得到的一批离散数据,通过对数据充分观察和分析,获得数据所含信息,揭示变量间的内在联系,并选择适当的数学式对变量间的关系进行拟合,建立经验模型,或者进行数据曲线拟合。2020/1/1911两类变量关系确定性关系:确定的函数关系。相关关系:存在相依关系,但未达到相互确定的程度。两类数据一类是已知规律(函数)的测试数据(在特定时间点或距离上的数据)。另一类数据呈现随机性,可看成具有某种概率分布的随机样本值。2020/1/19121.数据拟合法(适用于第一类数据)基本思想:已知函数y=f(x)的一组测试数据(xi,yi),(i=1,2,…,n),要寻求一个函数ψ(x),使ψ(x)对上述测试数据的误差较小,即ψ(xi)≈yi,于是可以用ψ(x)来近似替代f(x)。常用的数据拟合方法:一般插值法、最小二乘法、样条函数光顺法等。针对两种不同类型的数据,有不同的建立模型方法:2020/1/1913插值法的基本思想:寻找f(x)的近似替代函数φ(x),在插值节点xi上满足φ(xi)=yi,(i=1,2,…,n),其余点用φ(x)近似替代f(x),称φ(x)为f(x)的插值函数。最小二乘法基本思想:寻找f(x)的近似替代函数φ(x),使niiixxf12))()((min.2.回归分析方法对于随机数据进行拟合,用到统计学中的回归分析方法。2020/1/1914二.经验模型的建立以上两种建模方法都是建立在对数据进行充分分析的基础上。寻找或选择适当的函数拟合变量之间的关系(函数关系或回归关系)是重要的环节。一般步骤1)绘制数据散布图(或连线图);2)分析数据散布图(或连线图);3)选择函数关系形式。通过分析数据散布图可以获得对变量间关系的感性认识,形成初步的看法,以便于对问题做进一步的分析。2020/1/19152)分析数据散布图;对数据散布图进行分析,可以分析出变量的关系是:1)线性的还是非线性的?2)有无周期性?3)呈现何种变化趋势?变化率如何?…,等等有用的初步结论。例2.1建立一个简洁的函数关系式来描述某个地区人的身高和体重的对应关系,数据见表7.4(p156)。曲线特征是体重W随身高H的增长而单调增长,但可以观察到是非线性增长。2020/1/19161.氮施肥量N、磷施肥量P关于土豆产量的数据散布图(P157图7.2及图7.3)。2.海浪潮高度x随时间t的数据散布图。练习试分析3)选择函数关系形式。1.形式尽可能简洁,尽可能线性化;原则2.依据实际问题的精度要求,合乎实际规律。续例2.1选择幂函数W=,描述身高体重关系。acH优点:此函数可以线性化。2020/1/1917两边取对数,有cHaWlnlnlncbHxWyln,ln,ln令变换为线性函数y=ax+b例2.2可选二次函数y=b0+b1x+b2x2描述氮肥施肥量与土豆产量间的变量关系。注:其中b0=y(0)=15.18关于磷肥施肥量和土豆产量的变量关系可选择威布尔模型:0,xBeAyKx2020/1/1918合理性;,Ayx有1.;)0(BAy2.3.y是单调升函数;也可以选择S函数:0,1xbeayxS函数也满足:;1,ayx1.当;1)0(bay2.3.y是单调升函数;哪个模型更好?2020/1/1919分析:S模型所含参数更少,另外若令,,1xexyyxbay可得线性模型2020/1/1920§3模型的参数估计数学建模的一个重要工作是建立变量间的数学关系式,但公式中几乎总是涉及一些参数。如用下面三个数学式描述肥素的施肥水平对土豆产量的影响:氮肥:y=b0十b1x+b3x2xbeay1磷肥:或y=A-Be-Cx要得到最终可应用于实际的经验模型,必须确定公式中的各个参数。2020/1/1921求模型中参数的估计值有三种常用方法:图解法、统计法、机理分析法对经验模型的精度要求不高,只需对参数做出粗略估计时可采用图解法。例3.1磷施肥量与土豆产量的关系式y=A-Be-Cx需估计三个参数A、B、C,观察图7.3,数据点都位于直线y=43的下方,并且数据点越来越靠近这条直线,可以估计A=43。1.图解法2020/1/1922例3.2(见P158例7.2.1)表中给出了12月1日(星期二)和12月2日(星期三)两天内的海浪潮高度值(相对于海堤上的零标尺记号,以米为单位)。我们能依据此表来预测12月5日(星期六)下午1:00的海浪高度值吗?分析:根据对数据散布图的分析,采用函数x(t)=asin[b(t-t*)],其中x(t*)=0(1)或采用函数x(t)=asin(bt)+ccos(bt)(2)需估计振幅a和频率b解决方法:直接量出高低浪之间的高度差为6.6米,3.3ˆa(米)2020/1/1923量出海浪变化周期约为12.3小时3.122b511.0ˆb(每小时)得经验模型x(t)=3.3sin[0.511(t-t*)]t≥0。将频率的估计代入(2)式,有x(t)=asin(0.511t)+ccos(0.511t)代入x(0)=c=2.4及x(23)=3.67.2ˆa得关于海浪潮随时间变化的另一经验模型x(t)=2.4cos(0.511t)-2.7sin(0.511t),t≥0。模型应用预测12月5日下午1:00的海浪潮高度为2020/1/1924x(109)=2.4cos(5.11×109)-2.7sin(5.11×109)=2.4cos(55.7)-2.7sin(55.7)=2.4cos(5.430-2.7sin(55.7)≈3.6(米)误差分析:这一时刻潮位的实际观察值为4.1米,相对误差大约是12%,请考虑一下成因。思考:仔细分析图5.5,可发觉图中(1)x=0似乎不是海浪高低潮位的中值;(2)振幅随时间的延续似乎在轻微地增大。我们怎样考虑这些细节来修改模型,以获得更准确的预报呢?参数估计的统计处理,往往运用最小二乘法估计。2.统计法2020/1/1925设有一组样本值:(x1,y1),(x2,y2),…,(xn,yn),对选定的一元回归函数μ(x),回归模型为Y=μ(x)+ε,ε~N(0,σ2)令=μ(xi),i=1,2,…,n,称yˆniniiiiixyyy1122)]([)ˆ(S=为模型的残差平方和。应选取μ(x)中的未知参数,使S达最小值。当回归函数为μ(x)=a+bx,回归模型Y=a+bx+ε,ε~N(0,σ2)2020/1/1926称为一元线性回归模型,其残差平方和为niiibxay12)(S=对S分别求关于a,b的偏导数,并令其等于零niiiiniiixbxaybxay110)(2,0)(2得整理得正规方程(组)如下:2020/1/1927niiiniiniiniiniiyxxbxayxbna112111,xbyallbxxxyˆˆˆ有,11niixnxniiyny11其中一元线性回归模型参数估计公式2020/1/1928niixxxxl12)(niiixyyyxxl1))((部分非线性回归函数经变量代换可化为线性函数,利用线性参数估计公式进行估计,如例3.1磷施肥量和土豆产量的回归函数选为xbeay1xexyy,1令xbay对数据进行相应变换,可估计出2020/1/1929aˆ=0.0232,bˆ=0.0073,得到磷施肥量和土豆产量的经验公式xey0073.00232.01x≥0分析:有,与目测法的结论惊人一致。43limyx例3.2若用威布尔函数作为磷施肥量和土豆产量的回归函数y=43-Be-Cx,x≥0令z=43-y,得z=Be-Cx,x≥0两边取对数,有2020/1/1930lnz=lnB-Cx相对于新变量x,lnz,这是一元线性函数。特点:统计分析法应用于变量间存在相关关系的情形,并且需要较多数据为基础。3.机理分析法通过对问题的内部机理进行分析,找出变量间的因果关系,从而确定出参数。例3.3录像机磁带计数器模型注1.由于数据个数太少,不能用统计法估计参数2.这里采用机理分析法求参数的估计值,可利用的数据个数已是允许的最少个数了。

1 / 30
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功