统计回归模型1牙膏的销售量2水塔流量估计回归模型是用统计分析方法建立的最常用的一类模型数学建模的基本方法机理分析测试分析通过对数据的统计分析,找出与数据拟合最好的模型•不涉及回归分析的数学原理和方法•通过实例讨论如何选择不同类型的模型•对软件得到的结果进行分析,对模型进行改进由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。1牙膏的销售量问题建立牙膏销售量与价格、广告投入之间的模型预测在不同价格和广告费用下的牙膏销售量收集了30个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价9.260.556.804.253.70307.930.055.803.853.80298.510.256.754.003.7527.38-0.055.503.803.851销售量(百万支)价格差(元)广告费用(百万元)其它厂家价格(元)本公司价格(元)销售周期基本模型y~公司牙膏销售量x1~其它厂家与本公司价格差x2~公司广告费用110xy222210xxy55.566.577.577.588.599.510x2y-0.200.20.40.677.588.599.510x1y22322110xxxyx1,x2~解释变量(回归变量,自变量)y~被解释变量(因变量)0,1,2,3~回归系数~随机误差(均值为零的正态分布随机变量)MATLAB统计工具箱模型求解[b,bint,r,rint,stats]=regress(y,x,alpha)输入x=~n4数据矩阵,第1列为全1向量]1[2221xxxalpha(置信水平,0.05)22322110xxxyb~的估计值bint~b的置信区间r~残差向量y-xbrint~r的置信区间Stats~检验统计量R2,F,py~n维数据向量输出由数据y,x1,x2估计参数参数估计值置信区间17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p=0.00000123结果分析y的90.54%可由模型确定参数参数估计值置信区间17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p=0.0000012322322110xxxyF远超过F检验的临界值p远小于=0.052的置信区间包含零点(右端点距零点很近)x2对因变量y的影响不太显著x22项显著可将x2保留在模型中模型从整体上看成立22322110ˆˆˆˆˆxxxy销售量预测价格差x1=其它厂家价格x3-本公司价格x4估计x3调整x4控制价格差x1=0.2元,投入广告费x2=650万元销售量预测区间为[7.8230,8.7636](置信度95%)上限用作库存管理的目标值下限用来把握公司的现金流若估计x3=3.9,设定x4=3.7,则可以95%的把握知道销售额在7.83203.729(百万元)以上控制x1通过x1,x2预测y2933.8ˆˆˆˆˆ22322110xxxy(百万支)模型改进x1和x2对y的影响独立22322110xxxy21422322110xxxxxy参数参数估计值置信区间17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p=0.00000123参数参数估计值置信区间29.1133[13.701344.5252]11.1342[1.977820.2906]-7.6080[-12.6932-2.5228]0.6712[0.25381.0887]-1.4777[-2.8518-0.1037]R2=0.9209F=72.7771p=0.000030124x1和x2对y的影响有交互作用两模型销售量预测比较21422322110ˆˆˆˆˆxxxxxy22322110ˆˆˆˆˆxxxy2933.8ˆy(百万支)区间[7.8230,8.7636]区间[7.8953,8.7592]3272.8ˆy(百万支)控制价格差x1=0.2元,投入广告费x2=6.5百万元预测区间长度更短略有增加yˆx2=6.5x1=0.2-0.200.20.40.67.588.59x1yˆ-0.200.20.40.67.588.59x1yˆ56787.588.599.510x2yˆ567888.599.51010.5x2yˆ22322110ˆˆˆˆˆxxxy21422322110ˆˆˆˆˆxxxxxy两模型与x1,x2关系的比较yˆ交互作用影响的讨论2221.06712.07558.72267.30ˆ1xxyx价格差x1=0.1价格差x1=0.32223.06712.00513.84535.32ˆ1xxyx21422322110ˆˆˆˆˆxxxxxy5357.72x加大广告投入使销售量增加(x2大于6百万元)价格差较小时增加的速率更大56787.588.599.51010.5x1=0.1x1=0.3x2yˆ1.03.011ˆˆxxyy价格优势会使销售量增加价格差较小时更需要靠广告来吸引顾客的眼球完全二次多项式模型22521421322110xxxxxxyMATLAB中有命令rstool直接求解00.20.47.588.599.5105.566.57x1x2yˆ)ˆ,ˆ,ˆ,ˆ,ˆ,ˆ(ˆ543210从输出Export可得2水塔流量估计问题的提出时刻(h)水位(cm)00.921.842.953.874.985.907.017.938.97968948931913898881869852839822时刻(h)水位(cm)9.9810.9210.9512.0312.9513.8814.9815.9016.83////108210501021994965941918时刻(h)水位(cm)17.9319.0419.9620.8422.01422.9623.8824.9925.91892866843822////105910351018已知一天水位测量记录.圆柱形水塔:高12.2、直径17.4米水位降至约8.2米升到约10.8米时,水泵工作.水泵每天供水一两次,每次约两小时.估计任何时刻流水量、一天总用水量.问题的分析流量是单位时间流出的水的体积.(2)拟合水位~时间函数、求导数,得连续时间流量.★水泵不工作时段流量计算:水位对时间的变化率.★水泵供水时段的流量计算:(1)数值微分、拟合;★模型检验:t=0-8.97,水位下降968-822=146,这一时段用水量=146*水塔的截面积.模型假设1.流量只取决于水位差,与水位本身无关.2.水泵第1次供水:t=9-11;第2次供水:t=20.8-23.3.水泵工作时单位时间的供水量大致为常数.4.流量是时间的连续函数.5流量与水泵是否工作无关.6.流量:单位时间流出的水的高度*水塔截面积.1.拟合水位~时间函数.流量估计3.一天总用水量的估计.2.确定流量~时间函数.算法设计与编程1.拟合第1、2时段的水位,并导出流量.2.拟合供水时段的流量.3.一天总用水量的估计.4.流量及总用水量的检验.Watertower.m051015202514161820222426283032051015202514161820222426283032n=(3,4)的拟合流量曲线n=(5,6)的拟合流量曲线计算结果各时段和一天总用水量及两个供水时段水泵的功率(n1,n2)y1y2y12y3yp1p2(3,4)146.18258.1048.5078.501263.4154.25143.59(5,6)146.52257.7646.1376.301252.5153.06142.67分析及改进数据拟合、数值积分精度足够.流量曲线与原始记录基本上相吻合,零点到十点钟流量很低,十点到下午三点是用水高峰.)(106.125501.08.23724223L供水时段用3次曲线拟合4点不够好.全天平均流量22(cm/h).一天总用水量: