数学与生物数学教研室蔡昌启回归分析在许多科研问题中,经常遇到一些同处于一个统一体中的变量,这些变量之间往往是相互依赖和相互制约的,根据实际问题的要求,我们往往需要找出描述这些变量之间依存关系的数学表达式(数学模型).(regressionanalysis)一、什么是回归分析变量之间的相互关系大致可分为两类:(1)确定关系-----函数关系.(2)不确定关系-----相关关系.在许多实际问题中,由于生产或试验过程不可避免存在着误差的影响,使得变量之间的关系具有某种程度的不确定性,并且不能用函数表示,这些变量其实是随机变量或至少其中有一个是随机变量.为确定随机变量与随机变量(或非随机变量)之间的相依关系,需采用统计分析方法总结出隐藏在随机性后面的统计规律性(统计模型).这类统计规律称为回归关系.有关回归关系的计算方法和理论统称回归分析(regeressionanalysis).回归分析的目的是寻求一个随机变量Y(因变量)对一组随机变量X1,X2,…,Xp(自变量)的统计依赖关系.二、回归分析的目的一般来说,可通过直观的方法(如散点图)进行粗略判断.如只有一个自变量,则称为一元回归分析;如自变量个数多于一个,则称为多元回归分析.三、变量的确定及要求将一个需要预测的变量作为因变量,它的取值是可观测的但不可控制的;将被认为对因变量的取值具有显著影响的哪些变量作为自变量.通常情况下,自变量的取值能得以控制,称为可控变量.例如,我们希望通过一些易测的指标去预测正常儿童的心象面积,由于心象面积是一个不易检测的指标,是一个需要预测的变量,根据专业知识,认为性别、年龄、身高、体重、胸围可能对心象面积都有影响。因变量(Y)------心象面积;自变量-----性别(X1)、年龄(X2)、身高(X3)、体重(X4)、胸围(X5)。四、回归分析的基本原理回归分析的实质是根据隐含统计规律性的观测值,求出因变量对自变量的具体表达式y=f(x1,x2,…,xp).一般,自变量X1,X2,…,Xp是可控变量,控制它们取特殊值x1,x2,…,xp时,对不同个体,Y的取值依然不同(随机性),Y依然是随机变量,记为Y(x1,x2,…,xp).Y虽然不能完全确定(随机变量),但却有一个确定的条件分布p(Y│x1,x2,…,xp),从而有一个确定条件均值E(Y│x1,x2,…,xp),它是x1,x2,…,xp的函数.是否可用y=E(Y│x1,x2,…,xp)作为Y对X1,X2,…,Xp的回归方程?定义1(均方误差)设(Y,X1,X2,…,Xp)具有联合分布且二阶矩存在,f(X1,X2,…,Xp)是随机变量X1,X2,…,Xp的函数,则称E[Y-f(X1,X2,…,Xp)]2为f(X1,X2,…,Xp)对Y的均方误差(meansquareerror).均方误差从平均意义上反映了函数f(X1,X2,…,Xp)与随机变量Y之间差别的大小,它可作为回归函数好坏的判断标准.如果某个函数与Y的均方误差最小,我们有理由认为在均方误差最小标准下将它作为回归函数进行预报是最好的.E[Y-f(X1,X2,…,Xp)]2定义2在定义1的条件下,函数E(Y│X1,X2,…,Xp)是所有X1,X2,…,Xp的函数中均方误差最小的函数,即对任意给定的函数f(X1,X2,…,Xp),总有E[Y-E(Y│X1,X2,…,Xp)]2≤成立.定义2揭示用E(Y│x1,x2,…,xp)去预报Y在均方误差最小标准下是最好的,因此,y=E(Y│x1,x2,…,xp)就是我们寻找的回归函数.在(Y,X1,X2,…,Xp)的联合分布为多元正态分布时,E(Y│x1,x2,…,xp)为x1,x2,…,xp的线性函数,此时的回归函数为y=a0+a1x1+a2x2+…+apxp我们称它为多元线性回归方程.五、多元线性回归模型设p个自变量X1,X2,…,Xp的取值为x1,x2,…,xp时,随机Y变量满足其中a0,a1,a2,…,ap,σ2均为未知常数,a0,a1,a2,…,ap,称为“偏回归系数”;σ2称为随机误差的方差。称上式为p元正态线性回归模型.),0(~222110NexaxaxaaYpp对p元线性回归模型我们要解决如下问题:1.根据样本观测值去估计未知参数a0,a1,a2,…,ap,σ2,从而建立Y与X1,X2,…,Xp间的关系式(回归方程);2.对回归方程的回归效果进行统计检验;3.检验各变量X1,X2,…,Xp分别对指标(Y)是否有显著影响.按最小二乘估计的原理估计未知参数.实际问题:已知29例儿童的血红蛋白(hemoglo,g)与钙(Ca,μg)、镁(Mg,μg)、铁(Fe,μg)、锰(Mn,μg)、铜(Cu,μg)的含量如表,试建立一个钙、镁、铁、锰、铜预测血红蛋白的数学模型。154.8930.86448.70.0121.01013.50272.4942.61467.30.0081.64013.00353.8152.86425.61.0041.22013.75…………………………编号钙镁铁锰铜血红蛋白2947.3128.55294.70.005.8387.00多元线性回归数学模型1.单击“开始”→“程序”→SPSSforwindows→SPSS10.0forwindows→typeindata→OK→单击“VariableView”(在第一列输入钙、镁、铁、锰、铜、血红蛋白;单击“DataView”。SPSS软件的实现与结果分析2.SPSS输入数据格式:29行6列2.程序选项Analyze→Regression→Linear…引入回归分析的因变量:引入回归分析的自变量:血红蛋白.钙、镁、铁、锰、铜.在多元回归方法(Method)中选:强迫引入法(Enter)单击Statistics…;选项如下图…;单击Continue→Plots…点击Plots…获得分析资料的正态性检验图形。单击Continue→OK。2.方差分析表1.模型摘要主要结果ModelSummaryb.900a.810.768Model1RRSquareAdjustedRSquarePredictors:(Constant),铜(CU),铁(FE),锰(MN),钙(CA),镁(MG)a.DependentVariable:血红蛋白b.ANOVAb107.721521.54419.552.000a25.343231.102133.06428RegressionResidualTotalModel1SumofSquaresdfMeanSquareFSig.Predictors:(Constant),铜(CU),铁(FE),锰(MN),钙(CA),镁(MG)a.DependentVariable:血红蛋白b.Coefficientsa1.3801.550.890.383-6.93E-02.028-.304-2.500.0202.823E-02.053.079.533.5992.794E-02.004.8216.730.000-16.57216.415-.106-1.010.3231.7151.143.2051.501.147(Constant)钙(CA)镁(MG)铁(FE)锰(MN)铜(CU)Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:血红蛋白a.3.回归系数表结论:回归效果检验对应的统计量F=19.552,P≈.000,认为利用钙、镁、铁、锰、铜预测血红蛋白有实际意义。预测血红蛋白的数学模型:54321715.1578.16028.0028.0069.038.1XXXXXYR2=0.810,较大,认为回归方程有意义.VariablesEntered/Removedb铜,铁,锰,钙,镁a.EnterModel1VariablesEnteredVariablesRemovedMethodAllrequestedvariablesentered.a.DependentVariable:血红蛋白b.从偏回归(回归系数)效果检验来看,镁、锰、铜对应的概率值大于0.10,说明偏回归效果不显著,故需作进一步分析讨论(逐步回归)。RegressionStandardizedResidual1.751.501.251.00.75.50.250.00-.25-.50-.75-1.00-1.25-1.50-1.75HistogramDependentVariable:血红蛋白Frequency6543210Std.Dev=.91Mean=0.00N=29.00