1第七章数据分析建模方法(下)*在建立数学模型的过程中,经常需要建立变量之间的关系.*由于对研究对象的内部机理不甚了解,不能通过合理的假设,或根据物理定律、原理,经过机理分析法而得到.问题解决思路2*选择适当的数学式对变量间的关系进行拟合.*通过对数据充分观察和分析,获得数据所含信息;*揭示变量间的内在联系;xoy*借助于由实验或测量得到的一批离散数据.3两类变量关系确定性关系确定的函数关系相关关系存在相依关系,但未达到相互确定的程度.两类数据已知规律(函数)的测试数据(在特定时间点或距离上的数据)呈现随机性的数据,可看成具有某种概率分布的随机样本值.4针对两种不同类型的数据,有不同的建立模型方法:1.数据拟合法(适用于第一类数据)基本思想已知函数y=f(x)的一组测试数据(xi,yi),(i=1,2,…,n),寻求一个函数ψ(x),使ψ(x)对上述测试数据的误差较小,即ψ(xi)≈yi,于是可以用ψ(x)来近似替代f(x).常用的数据拟合方法:一般插值法、最小二乘法、样条函数光顺法等.5插值法的基本思想寻找f(x)的近似替代函数φ(x),在插值节点xi上满足φ(xi)=yi,(i=1,2,…,n),其余点用φ(x)近似替代f(x),称φ(x)为f(x)的插值函数.)(xfxixiy6最小二乘法基本思想寻找f(x)的近似替代函数φ(x),使niiixxf12))()((.min2.随机分析方法对于随机数据进行拟合,可用统计学中的回归分析方法或时间序列分析方法.二.经验模型的建立以上两种建模方法都是建立在对数据进行充分分析的基础上.7寻找或选择适当的函数拟合变量之间的关系(函数关系或回归关系)是重要的环节.一般步骤1)绘制数据散布图;2)分析数据散布图;3)选择函数关系形式.1)通过分析数据散布图可以获得对变量间关系的感性认识,形成初步的看法,以便于对问题做进一步的分析.见p1568氮施肥量N-土豆产量数据散布图9磷施肥量-土豆产量数据散布图102)分析数据散布图;对数据散布图进行分析,可以分析出变量的关系是:1)线性的还是非线性的?2)有无周期性?3)呈现何种变化趋势?变化率如何?…,等等有用的初步结论.11例1建立一个简洁的函数关系式来描述某个地区人的身高和体重的对应关系,数据见表7.4(p156).曲线特征是体重W随身高H的增长而单调增长,但可以观察到是非线性增长.身高-体重数据散布图12练习试分析以下问题1.氮施肥量N、磷施肥量P关于土豆产量的数据散布图(P153例7.1.1).2.海浪潮高度x随时间t的数据散布图.133)选择函数关系形式1.形式尽可能简洁,尽可能线性化;原则2.依据实际问题的精度要求,合乎实际规律.续例7.2.1选择幂函数W=,描述身高体重关系.acH优点此函数可以线性化.两边取对数,有cHaWlnlnln14cbHxWyln,ln,ln令变换为线性函数.baxy例7.2.2可选二次函数注:其中b0=y(0)=15.18.描述氮肥施肥量与土豆产量间的变量关系.2210xbxbby关于磷肥施肥量和土豆产量的变量关系可选择威布尔模型:15合理性?;,.1Ayx当有0,xBeAyKx;)0(.2BAy3.y是单调升函数.也可以选择S函数:0,1xbeayx16S函数也满足:;1,.1ayx当;1)0(.2bay3.y是单调升函数;哪个模型更好?分析S模型所含参数更少,另外若令,,1xexyy.xbay可得线性模型17重要定理(维尔斯脱拉斯)若函数f(x)在有限闭区间上连续,则存在一个多项式序列{Pn(x)}在有限闭区间[a,b]上一致收敛于f(x).称f(x)在[a,b]上可由多项式函数逼近.],[),()(limbaxxfxPnn例6.2.3估计供水塔的水流量试用以下数据估计任意时刻(包括水泵正在输水的时间内)从水塔流出的流量f(t),并估计一天的总用水量.18时间(秒)水位(0.01英尺)时间(秒)水位(英尺)03175466363350331631104995332606635305453936316710619299457254308713937294760574301217921289264554292721240285068535284225223279571854276728543275275021269732284269779254水泵开动35932水泵开动82649水泵开动39332水泵开动85968347539435355089953339743318344592370334019某小镇某天水塔水位散布图20思考为什么考虑用多项式函数?有什么优点?nnnxaxaxaaxP2210)(假设水位高度(或水塔的水容量)是连续变化的.可以选择n次多项式Pn(x)来近似描述水位随时间的变化规律.问题归结为选择足够大的n及估计各个系数值.21参见电子科技大学《概率统计》p228“非线性交调的频率设计”问题.