第十章统计回归模型10.1牙膏的销售量10.2软件开发人员的薪金10.3酶促反应10.4投资额与国民生产总值和物价指数回归模型是用统计分析方法建立的最常用的一类模型数学建模的基本方法机理分析测试分析通过对数据的统计分析,找出与数据拟合最好的模型•不涉及回归分析的数学原理和方法•通过实例讨论如何选择不同类型的模型•对软件得到的结果进行分析,对模型进行改进由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。10.1牙膏的销售量问题建立牙膏销售量与价格、广告投入之间的模型预测在不同价格和广告费用下的牙膏销售量收集了30个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价9.260.556.804.253.70307.930.055.803.853.80298.510.256.754.003.7527.38-0.055.503.803.851销售量(百万支)价格差(元)广告费用(百万元)其它厂家价格(元)本公司价格(元)销售周期基本模型y~公司牙膏销售量x1~其它厂家与本公司价格差x2~公司广告费用110xy222210xxy55.566.577.577.588.599.510x2y-0.200.20.40.677.588.599.510x1y22322110xxxyx1,x2~解释变量(回归变量,自变量)y~被解释变量(因变量)0,1,2,3~回归系数~随机误差(均值为零的正态分布随机变量)MATLAB统计工具箱模型求解[b,bint,r,rint,stats]=regress(y,x,alpha)输入x=~n4数据矩阵,第1列为全1向量]1[2221xxxalpha(置信水平,0.05)22322110xxxyb~的估计值bint~b的置信区间r~残差向量y-xbrint~r的置信区间Stats~检验统计量R2,F,py~n维数据向量输出由数据y,x1,x2估计参数参数估计值置信区间17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p=0.00000123结果分析y的90.54%可由模型确定参数参数估计值置信区间17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p=0.0000012322322110xxxyF远超过F检验的临界值p远小于=0.052的置信区间包含零点(右端点距零点很近)x2对因变量y的影响不太显著x22项显著可将x2保留在模型中模型从整体上看成立22322110ˆˆˆˆˆxxxy销售量预测价格差x1=其它厂家价格x3-本公司价格x4估计x3调整x4控制价格差x1=0.2元,投入广告费x2=650万元销售量预测区间为[7.8230,8.7636](置信度95%)上限用作库存管理的目标值下限用来把握公司的现金流若估计x3=3.9,设定x4=3.7,则可以95%的把握知道销售额在7.83203.729(百万元)以上控制x1通过x1,x2预测y2933.8ˆˆˆˆˆ22322110xxxy(百万支)模型改进x1和x2对y的影响独立22322110xxxy21422322110xxxxxy参数参数估计值置信区间17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p=0.00000123参数参数估计值置信区间29.1133[13.701344.5252]11.1342[1.977820.2906]-7.6080[-12.6932-2.5228]0.6712[0.25381.0887]-1.4777[-2.8518-0.1037]R2=0.9209F=72.7771p=0.000030124x1和x2对y的影响有交互作用两模型销售量预测比较21422322110ˆˆˆˆˆxxxxxy22322110ˆˆˆˆˆxxxy2933.8ˆy(百万支)区间[7.8230,8.7636]区间[7.8953,8.7592]3272.8ˆy(百万支)控制价格差x1=0.2元,投入广告费x2=6.5百万元预测区间长度更短略有增加yˆx2=6.5x1=0.2-0.200.20.40.67.588.59x1yˆ-0.200.20.40.67.588.59x1yˆ56787.588.599.510x2yˆ567888.599.51010.5x2yˆ22322110ˆˆˆˆˆxxxy21422322110ˆˆˆˆˆxxxxxy两模型与x1,x2关系的比较yˆ交互作用影响的讨论2221.06712.07558.72267.30ˆ1xxyx价格差x1=0.1价格差x1=0.32223.06712.00513.84535.32ˆ1xxyx21422322110ˆˆˆˆˆxxxxxy5357.72x加大广告投入使销售量增加(x2大于6百万元)价格差较小时增加的速率更大56787.588.599.51010.5x1=0.1x1=0.3x2yˆ1.03.011ˆˆxxyy价格优势会使销售量增加价格差较小时更需要靠广告来吸引顾客的眼球完全二次多项式模型22521421322110xxxxxxyMATLAB中有命令rstool直接求解00.20.47.588.599.5105.566.57x1x2yˆ)ˆ,ˆ,ˆ,ˆ,ˆ,ˆ(ˆ543210从输出Export可得10.2软件开发人员的薪金资历~从事专业工作的年数;管理~1=管理人员,0=非管理人员;教育~1=中学,2=大学,3=更高程度建立模型研究薪金与资历、管理责任、教育程度的关系分析人事策略的合理性,作为新聘用人员薪金的参考编号薪金资历管理教育0113876111021160810303187011130411283102编号薪金资历管理教育422783716124318838160244174831601451920717024619346200146名软件开发人员的档案资料分析与假设y~薪金,x1~资历(年)x2=1~管理人员,x2=0~非管理人员1=中学2=大学3=更高其它中学,,x013其它大学,,x014资历每加一年薪金的增长是常数;管理、教育、资历之间无交互作用教育443322110xaxaxaxaay线性回归模型a0,a1,…,a4是待估计的回归系数,是随机误差中学:x3=1,x4=0;大学:x3=0,x4=1;更高:x3=0,x4=0模型求解443322110xaxaxaxaay参数参数估计值置信区间a011032[1025811807]a1546[484608]a26883[62487517]a3-2994[-3826-2162]a4148[-636931]R2=0.957F=226p=0.000R2,F,p模型整体上可用资历增加1年薪金增长546管理人员薪金多6883中学程度薪金比更高的少2994大学程度薪金比更高的多148a4置信区间包含零点,解释不可靠!中学:x3=1,x4=0;大学:x3=0,x4=1;更高:x3=0,x4=0.x2=1~管理,x2=0~非管理x1~资历(年)残差分析方法结果分析443322110ˆˆˆˆˆˆxaxaxaxaay残差yyeˆe与资历x1的关系05101520-2000-1000010002000e与管理—教育组合的关系123456-2000-1000010002000残差全为正,或全为负,管理—教育组合处理不当残差大概分成3个水平,6种管理—教育组合混在一起,未正确反映。应在模型中增加管理x2与教育x3,x4的交互项组合123456管理010101教育112233管理与教育的组合426325443322110xxaxxaxaxaxaxaay进一步的模型增加管理x2与教育x3,x4的交互项参数参数估计值置信区间a011204[1104411363]a1497[486508]a27048[68417255]a3-1727[-1939-1514]a4-348[-545–152]a5-3071[-3372-2769]a61836[15712101]R2=0.999F=554p=0.000R2,F有改进,所有回归系数置信区间都不含零点,模型完全可用消除了不正常现象异常数据(33号)应去掉05101520-1000-5000500e~x1123456-1000-5000500e~组合去掉异常数据后的结果参数参数估计值置信区间a011200[1113911261]a1498[494503]a27041[69627120]a3-1737[-1818-1656]a4-356[-431–281]a5-3056[-3171–2942]a61997[18942100]R2=0.9998F=36701p=0.000005101520-200-1000100200e~x1123456-200-1000100200e~组合R2:0.9570.9990.9998F:22655436701置信区间长度更短残差图十分正常最终模型的结果可以应用模型应用制订6种管理—教育组合人员的“基础”薪金(资历为0)组合管理教育系数“基础”薪金101a0+a39463211a0+a2+a3+a513448302a0+a410844412a0+a2+a4+a619882503a011200613a0+a218241426325443322110ˆˆˆˆˆˆˆˆxxaxxaxaxaxaxaay中学:x3=1,x4=0;大学:x3=0,x4=1;更高:x3=0,x4=0x1=0;x2=1~管理,x2=0~非管理大学程度管理人员比更高程度管理人员的薪金高大学程度非管理人员比更高程度非管理人员的薪金略低对定性因素(如管理、教育),可以引入0-1变量处理,0-1变量的个数应比定性因素的水平少1软件开发人员的薪金残差分析方法可以发现模型的缺陷,引入交互作用项常常能够改善模型剔除异常数据,有助于得到更好的结果注:可以直接对6种管理—教育组合引入5个0-1变量10.3酶促反应问题研究酶促反应(酶催化反应)中嘌呤霉素对反应速度与底物(反应物)浓度之间关系的影响建立数学模型,反映该酶促反应的速度与底物浓度以及经嘌呤霉素处理与否之间的关系设计了两个实验:酶经过嘌呤霉素处理;酶未经嘌呤霉素处理。实验数据见下表:方案底物浓度(ppm)0.020.060.110.220.561.10反应速度处理764797107123139159152191201207200未处理6751848698115131124144158160/线性化模型经嘌呤霉素处理后实验数据的估计结果参数参数估计值(×10-3)置信区间(×10-3)15.107[3.5396.676]20.247[0.1760.319]R2=0.8557F=59.2975p=0.00008027.195ˆ/1ˆ1104841.0ˆ/ˆˆ122xxy21xy111121对1,2非线性对1,2线性