数学建模-多元统计模型专题

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

多元统计模型——数模竞赛辅导专题河南科技大学数学与统计学院武新乾(2010-07-23)一、前言24年前(1986年),美国出现了大学生数学建模竞赛。随着改革开放的进程,数模竞赛逐渐传入我国。1992年,开始国内第一届大学生数学建模比赛。数模竞赛一经传入,便受到了全国高校的普遍关注,引起了大学生的广泛兴趣。特别是近年来,虽然试题难度不断增大,但是,参赛的学生规模空前膨胀,获奖的组队也日益增加,论文质量不断提高。综观18年的竞赛试题,问题广泛,解决方案多种多样,其中基于统计分析的问题屡见不鲜。比如:1992年A题(简单记为1992A,下同)“施肥方案对作物、蔬菜的影响”,采用多元二次回归、全回归、逐步回归和二次响应面回归;1993A“非线性交调的频率设计”,采用最小二乘方法(简单记为LS);1998A“资产投资收益与风险模型”和2000A“DNA序列的分类”,都采用多元分析方法;2001A“血管管道的三维重建”和“血管切片的三维重建”,分别采用LS方法和非线性拟合;2001B“公交车调度的规划数学模型”,采用聚类分析、平滑方法和随机过程的有关知识;2003A“SARS传播的数学原理及预测与控制”和“SARS传播的研究”,均考虑了时间序列的应用;2003A“SARS传播预测的数学模型”,采用非线性拟合,建立了指数模型;2004A“MS网点的合理布局”采用了聚类分析,“基于利润最大化的实运商业网点分布微观经济模型”采用多元统计分析方法,另外,“临时超市网点的规划模型研究”考虑了经验分布的应用;2004B“电力市场的输电阻塞优化管理(指导教师:肖华勇)”和“电力市场输电阻塞管理模型”,均使用了多元线性回归;2005A“长江水质的评价和预测”、“长江水质的评价预测模型”(二元线性回归预测)、“基于回归分析的长江水质预测与控制”,均考虑了回归分析,此外,“长江水质评价和预测的研究”、“水质的评价和预测模型”,均考虑了时间序列分析方法和多元线性回归模型;2005B“DVD在线租赁系统的优化设计”应用了抽样统计和随机服务模型,“DVD在线租赁问题”和“DVD租赁优化方案(指导教师:孙浩)”考虑了二项分布和随机模拟;2005B“DVD在线租赁问题研究”和2005C“雨量预报方法的评价模型”考虑了均值的应用;2006B“艾滋病疗法评价及疗效预测模型”使用了二次曲线和多元方差分析,“艾滋病疗法评价及疗效的预测模型”使用了逐步回归方法,“艾滋病疗法的评价及疗效的预测模型”应用了假设检验和方差分析,“艾滋病疗法的评价及疗效的预测”使用了线性拟合、二次和三次曲线拟合与非线性回归,“基于数据统计分析的艾滋病疗效评价方法”采用了F-检验和二次多项式回归;2007A“中国人口区域结构向量模型”采用了倒数曲线模型拟合,“基于Leslie模型的中国人口预测及蒙特卡罗仿真(指导教师:梅长林)”应用了概率方法;2008A“数码相机定位”应用了多元线性回归分析;2008B“高等教育学费标准探讨(华南农业大学,编号1910)”应用了因子分析、主成分分析和聚类分析,“高等教育学费标准的探讨(华南农业大学,编号1920)”采用了多元回归分析、数据挖掘和模拟退火算法,“关于高等教育学费标准的评价及建议(编号cumcm0849)”和“高校学费合理性研究(编号cumcm0860)”分别考虑了回归分析和曲线拟合。由是可知,多元统计分析是常见的解决数模竞赛的主要工具之一,务必给以充分的重视和加强训练指导。二、回归分析1.一元线性回归经典的一元线性回归模型为,1,,iiiyabxin,(1)其中,iixy为观察值,i为独立同分布(i.i.d.)随机误差序列,并且2~0,iN。易知,参数a和b的最小二乘估计(LSE)为ˆˆˆ,xyxxlaybxbl,(2)其中1111,nniiiixxyynn,22211nnxxiiiilxxxnx,11nnxyiiiiiilxxyyxynxy。于是,所得线性回归方程为ˆˆˆyabx。(3)在应用回归方程(3)进行拟合、预测和控制之前,必须进行检验问题01:0,:0HbHb。(4)常用统计量为212nSSRSSRFSSEnSSE,(5)其中221ˆˆˆnixxxyiSSRyyblbl为回归平方和,21ˆniiiSSEyy为残差平方和。当原假设0H成立时,~1,2FFn。(6)对于给定的显著性水平01,由1,2PFFn,查表确定临界值1,2Fn。当1,2FFn时,拒绝原假设0H,说明x与y之间存在线性关系,回归方程有意义。否则,回归方程无意义,这时有几种可能性:①x确实对y无任何影响;②x对y有影响,但不是线性关系;③除x以外,还有另外的因素对y有影响,这时需要进一步研究。变量x与y之间的线性关系的判断,除了上述方差分析法以外,还可以利用相关系数检验法。样本相关系数12211niixyinnxxyyiiiixxyylrllxxyy,(7)它是总体相关系数的估计量。r具有一个特性,它只依赖于样本容量n和总体相关系数。当原假设0:0H成立时,统计量22~21ntrtnr。(8)这说明也可以利用t检验法对原假设进行检验。诚然,在使用统计软件进行假设检验时,往往会输出p值,也可以直接利用p进行检验判断,这里pPFf,f为统计量F的样本值。当p时,拒绝原假设0H,认为x对y的线性影响是显著的,否则,认为x对y的线性影响是不显著的。只有当拒绝原假设0H,即认为x对y的线性影响是显著时,才能利用线性回归方程(3)进行预测和控制。此时,个体0y与集体平均0Ey的点预测为00ˆˆˆyabx。(9)个体0y的区间预测(置信水平为1)为2000211ˆ1,212niixxSSEyFnynnxx200211ˆ1,212niixxSSEyFnnnxx,(10)或者为00ˆˆ,ydyd,(11)其中1200ˆ21dtnxCCx为预报半径,ˆ2SSEn,12111nxxCx。集体平均0Ey的区间预测(置信水平为1)为2000211ˆ1,22niixxSSEyFnynnxx200211ˆ1,22niixxSSEyFnnnxx,(12)或者为0101ˆˆ,ydyd,(13)其中11200ˆ2dtnxCCx。在实际应用中,为了方便起见,当0x取值在x附近并且样本容量n比较大时,通常使用0.05000ˆˆˆˆ22yyy,(14)或者0.01000ˆˆˆˆ33yyy(15)来进行预测和控制。比如,要控制y在12yyy中,只需通过0.051122ˆˆˆˆˆˆ2,2yabxyabx(16)或者0.011122ˆˆˆˆˆˆ3,3yabxyabx(17)分别求出1x和2x,从而确定变量x值的控制范围。2.多元线性回归经典的多元线性回归模型为01122,1,,iiimimiybbxbxbxin,(18)其中12,,,,iiimixxxy为观察数据,i为独立同分布(i.i.d.)随机误差序列,并且2~0,iN。易知,参数012,,,,mbbbbb的最小二乘估计(LSE)为1012ˆˆˆˆˆ,,,,mbbbbbXXXY,(19)其中1111212212221211,1mmnnnnmyxxxyxxxYXyxxx。于是,所得线性回归方程为01122ˆˆˆˆˆmmybbxbxbx。(20)方程的显著性检验012112:0,:,,,mmHbbbHbbb不全为0。(21)常用统计量为11nmSSRSSRmFSSEnmmSSE,(22)其中21ˆniiSSRyy为回归平方和,21ˆniiiSSEyy为残差平方和。当原假设0H成立时,~,1FFmnm。(23)对于给定的显著性水平01,由,1PFFmnm,查表确定临界值,1Fmnm。当,1FFmnm时,拒绝原假设0H,即在显著性水平下,变量12,,,mxxx对y的线性影响显著,回归方程有意义。否则,回归方程无意义,此时有如下几种可能性:①12,,,mxxx确实对y无影响;②12,,,mxxx对y有影响,但是非线性关系;③除12,,,mxxx以外,还有另外的因素对y有影响,这时需要进一步研究。只有通过方程的显著性检验,才能进一步对(偏)回归系数进行显著性检验。检验问题01:0,:01,2,,jjjjHbHbjm。(24)检验统计量为1jjPFSSEnm,(25)或者ˆ1jjjjbltSSEnm,(26)其中2ˆjjjjPbl,jjl为1L的第j个对角元素,而LXX,X是中心化的数据矩阵,即111122121122221122mmmmnnnmmxxxxxxxxxxxxXxxxxxx。在原假设0jH成立的条件下,~1,1,~1jjFFnmttnm。(27)当1,1jFFnm或者2~1jttnm时,拒绝原假设0jH,表明变量jx对y的作用是显著的(jx在回归方程中是显著的);否则,接受原假设0jH,说明jx对y的作用是不显著的,可以将其从回归方程中剔除。只有当回归方程的显著性检验和回归系数的显著性检验均通过以后,才可以利用回归方程(20)进行预测和控制。给定一组变量值0010201,,,,mxxxx,对应的0y和0Ey的点预报为001012020ˆˆˆˆˆmmybbxbxbx。(28)0y的预报区间(区间估计)为00ˆˆ,ydyd,(29)其中1200ˆ11dtnmxXXx为预报半径,ˆ1SSEnm。当0jx取值在1,2,,jxjm附近并且样本容量n充分大时,通常使用近似预报区间,即当0.05时,预报区间为00ˆˆˆˆ2,2yy;(30)当0.01时,预报区间为00ˆˆˆˆ3,3yy。(31)0Ey的预报区间(区间估计)为0101ˆˆ,ydyd,(32)其中11200ˆ1dtnmxXXx。在实际问题中,常希望通过控制m个变量中的某一个(或者少数几个)来满足对输出0y的要求,这就是常说的控制问题。比如,如何控制自变量12,,,mxxx的取值,使得因变量满足0AyB。当0.05时,解不等式00ˆˆ2,ˆˆ2.yByA(33)解此不等式(在有解的情况下),即得自变量01020,,,mxxx的控制范围。3.非线性回归常见的非线性回归模型分为两种类型。第一类:形式上是非线性的,但是,经过变换以后可以转化为线性模型,称为第一类非线性回归。第二类:本质上是非线性的,称为第二类非线性回归。第一类非线性回归,又称为可化为线性模型的回归或者为化曲线为直的回归。常见的有:双曲线型11yx;指数函数型xyce或者0xycec;幂函数型0ycxc;对数函数型lnyx;S型1xye;……。第二类非

1 / 10
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功