10.1牙膏的销售量某大型牙膏制造企业为了更好地拓展产品市场,有效地管理库存,公司董事会要求销售部门根据市场调查,找出公司生产的牙膏销售量与销售价格、广告投入等之间的关系,从而预测出在不同价格和广告费用下的销售量。为此,销售部的研究人员收集了过去30个销售周期(每个销售周期为4周)公司生产的牙膏的销售量、销售价格、投入的广告费用,以及同期其它厂家生产的同类牙膏的市场平均销售价格,见表1-1(其中价格差指其它厂家平均价格与公司销售价格之差)。试根据这些数据建立一个数学模型,分析牙膏销售量与其它因素的关系,为制订价格策略和广告投入策略提供数量依据表1-1牙膏销售量与销售价格、广告费用等数据销售周期公司销售价格(元)其他厂家平均价格(元)价格差(元)广告费用(百万元)销售量(百万支)13.853.80-0.055.57.3823.754.000.256.758.5133.704.300.607.259.5243.603.700.005.507.5053.603.850.257.009.3363.63.800.206.508.2873.63.750.156.758.7583.83.850.055.257.8793.83.65-0.155.257.10103.854.000.156.008.00113.904.100.206.507.89123.904.000.106.258.15133.704.100.407.009.10143.754.200.456.908.86153.754.100.356.808.90163.804.100.306.808.87173.704.200.507.109.26183.804.300.507.009.00193.704.100.406.808.75203.803.75-0.056.507.95213.803.75-0.056.257.65223.753.65-0.106.007.27233.703.900.206.508.00243.553.650.107.008.50253.604.100.506.808.75263.704.250.606.809.21273.753.65-0.056.508.27283.753.750.005.757.67293.803.850.055.807.93303.704.250.556.809.26-1-一、问题重述根据过去30个销售周期(每个销售周期为4周)公司生产的牙膏的销售量、销售价格、投入的广告费用,以及同期其它厂家生产的同类牙膏的市场平均销售价格,见表1-1。根据这些数据建立一个数学模型,分析牙膏销售量与其它因素的关系,为制订价格策略和广告投入策略提供数量依据二、问题分析由于牙膏是生活必需品,对大多属顾客来说,在购买同类产品的牙膏是更多地会在意不同品牌之间的价格差异,而不是它们的价格本身。因此,在研究各个因素对销量的影响时,用价格差代替公司销售价格和其他厂家平均价格更为合适。三、模型假设1.画出牙膏销售量与价格差,公司投入的广告费用的散点图2.由散点图确定两个函数模型,再由这两个函数模型解出回归模型3.对模型进行改进,添加新的条件确定更好的回归模型系数,得到新的回归模型4.对模型进一步改进,确定最终的模型四、符号约定牙膏销售量为y,其他厂家平均价格和公司销售价格之差(价格差)为x1,公司投入的广告费用为x2,其他厂家平均价格和公司销售价格分别为x3和x4,x1=x3-x4。基于上面的分析,我们仅利用1x和2x来建立y的预测模型。五、模型的建立和求解1.基本模型利用表1-1的数据用matlab作出y与x1的散点图(图1-1),y与x2的散点图(图1-2)代码如下:x1=[-0.050.250.600.250.20.150.05-0.150.150.20.10.40.450.350.30.50.50.4-0.05-0.05-0.10.20.10.50.6-0.0500.050.55];x2=[5.56.757.255.576.56.755.255.2566.56.2576.96.86.87.176.86.56.2566.576.86.86.55.755.86.8];y=[7.388.519.527.59.338.288.757.877.187.898.159.18.868.98.879.2698.757.957.657.2788.58.759.218.277.677.939.26];A1=polyfit(x1,y,1);yy1=polyval(A1,x1);A2=polyfit(x2,y,2);x5=5:0.05:7.25;yy2=polyval(A2,x5);subplot(1,2,1);plot(x1,y,'o',x1,yy1);title('图1y对x1的散点图');subplot(1,2,2);plot(x2,y,'o',x5,yy2);title('图2y对x2的散点图');-2-图(1-1)与图(1-2)从图1可以发现,随着1x的增加,y的值有比较明显的线性增长趋势,图中的直线是用线性模型:011yx(1)拟合的(其中是随机误差)。而在图2中,当x2增大时,y有向上弯曲增加的趋势,图中的曲线是用二次函数模型:021222yxx(2)综合上面的分析,结合模型(1)和(2)建立如下的回归模型:02112232yxxx(3)(3)式右端的x1和x2称为回归变量(自变量),02112232xxx是给定价格差x1,广告费用x2时,牙膏销售量y的平均值,其中的参数0123,,,称为回归系数,由表1-1的数据估计,影响y的其他因素作用都包含在随机误差中。如果模型选择合适,应该大致服从值为0的正态分布。2.模型求解在刚刚运行的代码后面,继续使用regress工具求解,代码为:x6=[ones(30,1)x1'x2'(x2.^2)'];[b,bint,r,rint,stats]=regress(y',x6,0.05)运行结果如图(1-3)得到模型(3)的回归系数估计值及其置信区间(置信水平α=0.05)、检验统计量2R,F,p,2s得结果见表1-2,参数参数估计值参数置信区间017.3244[5.7282,28.9206-3-11.3070[0.6829,1.9311]2-3.6956[-7.4989,0.1077]30.3486[0.0379,0.6594]2R=0.9054F=82.9409p0.00012s=0.0490表1-2模型(3)计算结果图(1-3)3.结果分析表1-2显示,2R=0.9054指因变量y(销售量)的90.54%可由模型决定,F值远远超过F检验的临界值,P远小于α,因而模型(3)整体来看是可用的表1-2的回归系数中2的置信区间包含零点,表示回归变量2x(对因变量y的影响)是不太显著的,但由于2x是显著的,我们仍将2x留在模型中4.销售量预测将回归系数的估计值带入模型(3),即可预测公司未来某个销售周期牙膏的销售量y,预测值记为y,得到模型(3)的预测方程:02123122yxxx(4)只需要知道该销售周期的价格差x1和投入的广告费用x2,就可以计算预测值y。5.模型改进模型(3)中回归变量x1和x2对因变量y的影响是相互独立的,即牙膏销售量y的均值与广告费用-4-x2的二次关系由回归系数2和3确定,而不依赖于价格差x1,同样的,y的均值与x1的线性关系由回归系数1确定,而不依赖于x2。根据直觉和经验可以猜想,x1和x2之间的交互作用会对y有影响,不妨简单地用x1,x2的乘积代表它们的相互作用,于是将模型(3)增加一项,得到:02112232412yxxxxx(5)在这个模型中,y的均值与2x的二次关系为2241232xxx(),由系数确定,并依赖于价格差x1。在上述运行程序后继续输入代码:x7=[ones(30,1)x1'x2'(x2.^2)'(x1.*x2)'];[b,bint,r,rint,stats]=regress(y',x7,0.05);b,bint,stats结果见图(1-4)图(1-4)计算结果即为表1-3参数参数估计值参数置信区间029.1133[13.7013,44.5252]111.1342[1.9778,20.2906]2-7.6080[-12.6932,-2.5228]30.6712[0.2538,1.0887]4-1.4777[-2.8518,-0.1037]-5-2R=0.9209F=72.7771P0.00012S=0.0426表1-3模型(5)计算结果表3与表2的结果相比,2R有所提高,说明模型(5)比模型(3)有所进步。并且,所有参数的置信区间,特别是X1,X2的交互作用项X1X2的系数4的置信区间不包含零点,所以有理由相信模型(5)比模型(3)更符合实际。在保持广告费用x2=6.5百万元不变的条件下,分别对模型(3)和(5)中牙膏销售量的均值与价格差x1的关系作图,见图1-5和图1-6,代码为:yy3=17.3244+1.307*x1+(-3.6956)*6.5+0.3486*6.5*6.5;plot(x1,yy3);gridonfigure(2)yy4=29.1133+11.1342*x1+(-7.608*6.5)+0.6712*6.5*6.5+(-1.4777)*6.5*x1;plot(x1,yy4);gridon图1-5-6-图1-6在保持价格差x1=0.2元不变的条件下,分别对模型(3)和(5)中牙膏销售量的均值y与广告费用x2的关系作图,见图1-7和图1-8,代码如下:figure(3)yy5=17.3244+1.307*0.2+(-3.6956)*x2+0.3486*x2.*x2;bb=polyfit(x2,yy5,2);xx5=5.25:0.05:7.25;yy51=polyval(bb,xx5);plot(xx5,yy51);gridon;figure(4)yy6=29.1133+11.1342*0.2+(-7.608*x2)+0.6712*x2.*x2+(-1.4777)*x2*0.2;bb=polyfit(x2,yy6,2);xx6=5.25:0.05:7.25;yy61=polyval(bb,xx6);plot(xx6,yy61);gridon;-7-图1-7图1-8-8-6.模型的进一步改进完全二次多项式模型:与1x和2x的完全二次多项式模型02211223124152yxxxxxx(6)相比,模型(5)只少21x项,我们不妨增加这一项,建立模型(10)。这样做的好处之一是MATLAB统计工具箱有直接的命令rstool求解,并且以交互式画面给出y的估计值y和预测空间。代码为:x=[x1'x2'];rstool(x,y','quadratic')结果为图1-9图1-9点击Export,可以得到模型(6)的回归系数估计值为=(012345,,,,,)=(32.0984,14.7436,-8.6367,-2.1038,1.1074,0.7594)所以回归模型为:Y=32.0984+14.7436*x1-8.6367*x2-2.1038*x1*x2+1.107421x+0.759422x10.2软件开发人员的薪金一家技术公司人事部门欲建立模型研究薪金与资历、管理责任、教育程度的关系,分析人事策略的合理性,作为新聘用人员薪金的参考。为此,研究人员收集了46名软件开发人员的档案资料,如表2-1,其中资历一列指从事专业工作的年数,管理一列中1表示管理人员,0表示非管理人员,教育一列中1表示中学程度,2表示大学程度,3表示更高程度(研究生)表2-1软件开发人员的薪金与资历、管理责任、教育程度的关系编号薪金资历管理教育01138761110211608103