数学建模MathematicalModeling西安科技大学张守刚回归分析SPSS软件之回归分析西安科技大学理学院张守刚2013年7月数学建模MathematicalModeling西安科技大学张守刚回归分析一、什么是回归分析?•在数量分析中,我们经常会看到变量与变量之间存在着一定的联系,而不只是前面所讨论的单个变量的某些孤立的特性,如均值、方差的特性等。我们要了解的是变量之间是如何发生相互影响的,这就是所谓的相关分析(CorrelationAnalysis)和回归分析(RegressionAnalysis)。数学建模MathematicalModeling西安科技大学张守刚回归分析•相关分析与回归分析有密切的关系。它们都是研究事物之间的相互关系,测定它们联系的紧密程度,揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。但是二者是又有区别。•相关是一种定性,回归是定量与定性的结合;如身高与体重有很强的相关关系;但同样的身高,体重却有差别;那么身高与体重之间有什么具体关系呢?数学建模MathematicalModeling西安科技大学张守刚回归分析•可以求出自变量与因变量之间的经验公式;数据挖掘技术就是所谓的回归分析;•预测和控制;通过对已知训练数据进行回归分析,预测未来演变情况;•尤其在生物统计和医学统计领域中,被广泛应用。数学建模MathematicalModeling西安科技大学张守刚回归分析二、主要内容•从一组样本数据出发,确定这些变量间的定量关系式;•对这些关系式的可信度进行各种统计检验;•从影响某一变量的诸多变量中,判断哪些变量的影响显著,哪些不显著;•利用求得的关系式进行预测和控制。数学建模MathematicalModeling西安科技大学张守刚回归分析三、回归模型分析及步骤•按是否线性分:线性回归模型和非线性回归模型;•按自变量个数分:简单的一元回归,多元回归。数学建模MathematicalModeling西安科技大学张守刚回归分析•Liner:线性回归•CurveEstimation:曲线估计•BinaryLogistic:二分变量逻辑回归•MultinomialLogistic:多分变量逻辑回归•Ordinal序回归•Probit:概率单位回归•Nonlinear:非线性回归•WeightEstimation:加权估计•2-StageLeastsquares:二段最小平方•OptimalScaling最优编码回归数学建模MathematicalModeling西安科技大学张守刚回归分析•基本的步骤:利用SPSS得到模型关系式,是否是我们所要的,要看回归方程的显著性检验(F检验)和回归系数b的显著性检验(T检验),还要看拟合程度R2(相关系数的平方,一元回归用RSquare,多元回归用AdjustedRSquare)数学建模MathematicalModeling西安科技大学张守刚回归分析•回归分析前,需要对所掌握的样本资料是否满足要求进行判断。可以先使用相关分析的方法确定自变量与因变量之间的相关系数,相关系数越接近于1,则说明变量之间存在较为显著的线性相关关系;或者运用SPSS13.0软件,绘制散点图,直观的观测因变量随自变量变动的情况。数学建模MathematicalModeling西安科技大学张守刚回归分析四、线性回归模型01122iiipipiyxxx1,2,,in,假定对一组变量12,,,,pxxxy作了n次观测,得到观测值为:12,,,,iiipixxxy,1,2,,in其中,12,,,iiipxxx分别为第i次观测时自变量12,,,pxxx的取值;iy为因变量y的观测值,线性回归的一般数学模型是:2~0,iN数学建模MathematicalModeling西安科技大学张守刚回归分析回归模型模型名称回归方程相应的线性回归方程Linear(线性)Y=b0+b1tQuadratic(二次)Y=b0+b1t+b2t2Compound(复合)Y=b0(b1t)Ln(Y)=ln(b0)+ln(b1)tGrowth(生长)Y=eb0+b1tLn(Y)=b0+b1tLogarithmic(对数)Y=b0+b1ln(t)五、其它回归模型数学建模MathematicalModeling西安科技大学张守刚回归分析回归模型Cubic(三次)Y=b0+b1t+b2t2+b3t3SY=eb0+b1/tLn(Y)=b0+b1/tExponential(指数)Y=b0*eb1*tLn(Y)=ln(b0)+b1tInverse(逆)Y=b0+b1/tPower(幂)Y=b0(tb1)Ln(Y)=ln(b0)+b1ln(t)Logistic(逻辑)Y=1/(1/u+b0b1t)Ln(1/Y-1/u)=ln(b0+ln(b1)t)数学建模MathematicalModeling西安科技大学张守刚回归分析六、线性回归模型检验•变量相关性检验:——R,R2;•回归方程显著性:——F检验•回归系数显著性:——T检验•残差独立性检验:——DW检验•残差正态性检验:——残差图•自变量共线性检验(多变量拟合)数学建模MathematicalModeling西安科技大学张守刚回归分析指标名称检验标准(存在共线性)容忍度(Tolerance)0.1方差膨胀率(VIF)容忍度倒数,越大特征根(Eigenvalue)=0条件指数(ConditionIndex)30自变量共线性检验数学建模MathematicalModeling西安科技大学张守刚回归分析案例1•在19实际四五十年代,苏格兰物理学家JamesD.Forbes,试图功过水的沸点来估计海拔高度。由于可以通过气压来估计海拔,他在阿尔卑斯山及苏格兰收集了沸点及海拔数据(Forbes)。现在通过线性回归拟合气压与沸点的关系。数学建模MathematicalModeling西安科技大学张守刚回归分析案例2•某大型金融机构中做了一项关于雇员对其主管满意度的调查,其中一个问题设计为对主管的工作业绩的综合评价,另外若干个问题设计为主管与其雇员间相互关系的具体方面。该研究试图解释主管性格与雇员对其整体满意度之间的关系。起初选取了6个调查项目作为可能的解释变量。如下表所示。•试通过多元线性回归的方法来研究这个问题。数学建模MathematicalModeling西安科技大学张守刚回归分析变量定义Y对主管工作情况的总体评价X1处理雇员的抱怨X2不允许特权X3学习新知识的机会X4根据工作业绩升职X5对不良表现、对于吹毛求疵X6提升到更好工作的速度数学建模MathematicalModeling西安科技大学张守刚回归分析•首先分析各个待选变量的特征。在这6个变量中,有两个主要类型:变量X1、X2和X5反映的是雇员与主管人员之间直接的人际关系,X3和X4主要和工作有关;变量X6不是对主管的直接评价,而是雇员对自己把握晋升机会的一种评价。因此,在进行多元线性回归的时候将X1、X2、X5直接纳入模型,X3和X4通过逐步法进入模型,而X6直接不予以考虑。数学建模MathematicalModeling西安科技大学张守刚回归分析曲线拟合•研究变量之间非线性关系的一种方法。数学建模MathematicalModeling西安科技大学张守刚回归分析案例3•已知某阵泥石流的各次观测数据,试拟合各阵泥石流泥面宽与泥深之间的关系。•采用曲线拟合。数学建模MathematicalModeling西安科技大学张守刚回归分析非线性回归•也是研究变量之间非线性关系的一种方法。只不过SPSS中提供的曲线拟合能够处理简单的非线性模型。数学建模MathematicalModeling西安科技大学张守刚回归分析案例4•棉花单株在不同时期的成铃数(Y)与初花后天数(X)存在非线性关系,假设这一非线性关系可用Gompertz模型表示:某一棉花品种7月5日至9月3日每隔5天的单株成铃数观测值如表所示,试根据观测值拟合模型中的参数。321XieiiYee321XieiiYee数学建模MathematicalModeling西安科技大学张守刚回归分析•非线性回归可以自定义模型,因此,合理的恰当的模型是解决问题的关键。当然,我们也可以使用充分的数据,结合问题的实际背景,去寻找修改得到合适的模型。