回归分析方法与统计回归模型数学建模的基本方法:机理分析(由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型)测试分析引入1、现实世界中变量之间的关系可以分成两大类。一类:确定性的关系:如U=IR,S=∏R2等二类:非确定性的关系:如血压与年龄(不能用一个确定的函数关系式表达出来)通过对数据的统计分析,找出与数据拟合最好的模型。回归模型是用统计分析方法建立的最常用的一类模型一、回归分析:1、寻找这类不确定的变量间的数学关系式,并进行统计推断的一种方法。(最简单的关系式是线性回归)2、设x是可以精确测量或控制的非随机变量,y是s随机变量。当X取x时,Y的概率分析与x有关,则称Y与X之间有相关关系。3、线性回归分析:即试验结果y的一部分由x的线性函数引起,另一部分有由随机因素引起进行若干次独立试验,得到的结果为由xy1022100,0~,~:NxNyHnixyii2,1,.,1010估计iiixy210,,,pxxxp,,21回归分析要解决的问题:1、根据样本估计未知参数2、对此数量关系式的可信度进行统计检验。3、检验各变量分别考察对指标是否有显著性影响。例1测16名成年女子的身高与腿长所得数据如下:身高143145146147149150153154155156157158159160162164腿长8885889192939395969897969899100102以身高x为横坐标,以腿长y为纵坐标将这些数据点(xI,yi)在平面直角坐标系上标出.1401451501551601658486889092949698100102散点图xy10一般地,称由xy10确定的模型为一元线性回归模型,记为210,0DExy固定的未知参数0、1称为回归系数,自变量x也称为回归变量.一元线性回归分析的主要任务是:1、用试验值(样本值)对0、1和作点估计;2、对回归系数0、1作假设检验;3、在x=0x处对y作预测,对y作区间估计.xY10,称为y对x的回归直线方程.二、回归系数的最小二乘估计有n组独立观测值,(x1,y1),(x2,y2),…,(xn,yn)设相互独立且,niiiiDEnixy...,,0,...,2,1,21210记niiiniixyQQ12101210),(最小二乘法就是选择0和1的估计0ˆ,1ˆ使得),(min)ˆ,ˆ(10,1010QQniiiijNIiixxyxyQQ11011000)(20)(2ˆˆˆˆ正规方程组niiniiynyxnx111,1解得xxxyllxy110ˆˆˆ211)(,))((xxlyyxxlniixxniiixy(经验)回归方程为:)(ˆˆˆˆ110xxyxy三、回归方程的显著性检验对回归方程xY10的显著性检验,归结为对假设0:;0:1110HH进行检验.假设0:10H被拒绝,则回归显著,认为y与x存在线性关系,所求的线性回归方程有意义;否则回归不显著,y与x的关系不能用一元线性回归模型来描述,所得的回归方程也无意义.(Ⅰ)F检验法当0H成立时,)2/(nSSSSFER~F(1,n-2)其中niiRyySS12ˆ(回归平方和)niiEyySS12(残差平方和)故F)2,1(1nF,拒绝0H,否则就接受0H.(Ⅱ)t检验法niiniixxxnxxxL12212)(其中当0H成立时,exxLTˆˆ1~t(n-2)故)2(21ntT,拒绝0H,否则就接受0H.多元线性回归b=regress(Y,X)npnnppxxxxxxxxxX...1..................1...1212222111211nYYYY...21pbˆ...ˆˆ101、确定回归系数的点估计值:ppxxy...110对一元线性回归,取p=1即可3、画出残差及其置信区间:rcoplot(r,rint)2、求回归系数的点估计和区间估计、并检验回归模型:[b,bint,r,rint,stats]=regress(Y,X,alpha)回归系数的区间估计残差用于检验回归模型的统计量,有三个数值:相关系数r2、F值、与F对应的概率p置信区间显著性水平(缺省时为0.05)相关系数r2越接近1,说明回归方程越显著;FF1-α(k,n-k-1)时拒绝H0,F越大,说明回归方程越显著;与F对应的概率p时拒绝H0,回归模型成立.例1解:1、输入数据:x=[143145146147149150153154155156157158159160162164]';X=[ones(16,1)x];Y=[8885889192939395969897969899100102]';2、回归分析及检验:[b,bint,r,rint,stats]=regress(Y,X)b,bint,stats得结果:b=bint=-16.0730-33.70711.56120.71940.60470.8340stats=0.9282180.95310.0000即7194.0ˆ,073.16ˆ10;0ˆ的置信区间为[-33.7017,1.5612],1ˆ的置信区间为[0.6047,0.834];r2=0.9282,F=180.9531,p=0.0000p0.05,可知回归模型y=-16.073+0.7194x成立.3、残差分析,作残差图:rcoplot(r,rint)从残差图可以看出,除第二个数据外,其余数据的残差离零点均较近,且残差的置信区间均包含零点,这说明回归模型y=-16.073+0.7194x能较好的符合原始数据,而第二个数据可视为异常点.4、预测及作图:z=b(1)+b(2)*xplot(x,Y,'k+',x,z,'r')246810121416-5-4-3-2-101234ResidualCaseOrderPlotResidualsCaseNumber牙膏的销售量问题建立牙膏销售量与价格、广告投入之间的模型预测在不同价格和广告费用下的牙膏销售量收集了30个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价9.260.556.804.253.70307.930.055.803.853.80298.510.256.754.003.7527.38-0.055.503.803.851销售量(百万支)价格差(元)广告费用(百万元)其它厂家价格(元)本公司价格(元)销售周期基本模型y~公司牙膏销售量x1~其它厂家与本公司价格差x2~公司广告费用110xy222210xxy55.566.577.577.588.599.510x2y-0.200.20.40.677.588.599.510x1y22322110xxxyx1,x2~解释变量(回归变量,自变量)y~被解释变量(因变量)0,1,2,3~回归系数~随机误差(均值为零的正态分布随机变量)MATLAB统计工具箱模型求解[b,bint,r,rint,stats]=regress(y,x,alpha)输入x=~n4数据矩阵,第1列为全1向量]1[2221xxxalpha(置信水平,0.05)22322110xxxyb~的估计值bint~b的置信区间r~残差向量y-xbrint~r的置信区间Stats~检验统计量R2,F,py~n维数据向量输出由数据y,x1,x2估计参数参数估计值置信区间17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p=0.00000123结果分析y的90.54%可由模型确定参数参数估计值置信区间17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p=0.0000012322322110xxxyF远超过F检验的临界值p远小于=0.052的置信区间包含零点(右端点距零点很近)x2对因变量y的影响不太显著x22项显著可将x2保留在模型中模型从整体上看成立22322110ˆˆˆˆˆxxxy销售量预测价格差x1=其它厂家价格x3-本公司价格x4估计x3调整x4控制价格差x1=0.2元,投入广告费x2=650万元销售量预测区间为[7.8230,8.7636](置信度95%)上限用作库存管理的目标值下限用来把握公司的现金流若估计x3=3.9,设定x4=3.7,则可以95%的把握知道销售额在7.83203.729(百万元)以上控制x1通过x1,x2预测y2933.8ˆˆˆˆˆ22322110xxxy(百万支)模型改进x1和x2对y的影响独立22322110xxxy21422322110xxxxxy参数参数估计值置信区间17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p=0.00000123参数参数估计值置信区间29.1133[13.701344.5252]11.1342[1.977820.2906]-7.6080[-12.6932-2.5228]0.6712[0.25381.0887]-1.4777[-2.8518-0.1037]R2=0.9209F=72.7771p=0.000030124x1和x2对y的影响有交互作用两模型销售量预测比较21422322110ˆˆˆˆˆxxxxxy22322110ˆˆˆˆˆxxxy2933.8ˆy(百万支)区间[7.8230,8.7636]区间[7.8953,8.7592]3272.8ˆy(百万支)控制价格差x1=0.2元,投入广告费x2=6.5百万元预测区间长度更短略有增加yˆx2=6.5x1=0.2-0.200.20.40.67.588.59x1yˆ-0.200.20.40.67.588.59x1yˆ56787.588.599.510x2yˆ567888.599.51010.5x2yˆ22322110ˆˆˆˆˆxxxy21422322110ˆˆˆˆˆxxxxxy两模型与x1,x2关系的比较yˆ交互作用影响的讨论2221.06712.07558.72267.30ˆ1xxyx价格差x1=0.1价格差x1=0.32223.06712.00513.84535.32ˆ1xxyx21422322110ˆˆˆˆˆxxxxxy5357.72x加大广告投入使销售量增加(x2大于6百万元)价格差较小时增加的速率更大56787.588.599.51010.5x1=0.1x1=0.3x2yˆ1.03.011ˆˆxxyy价格优势会使销售量增加价格差较小时更需要靠广告来吸引顾客的眼球完全二次多项式模型225214213221