多元统计分析方法TheMethodsofMultivariateStatisticalAnalysis第五章多元线性回归分析什么是多元线性回归分析?多元线性回归分析的数学模型多元线性回归分析的方法步骤多元线性回归分析的逐步回归法多元相关分析多元线性回归分析在医学中的应用回归分析的分类连续型因变量(y)---线性或非线性回归分析多个因变量(y1,y2…yk)分类型因变量(y)---Logistic回归分析时间序列因变量(t)---时间序列分析生存时间因变量(t)---生存风险回归分析路径分析结构方程模型分析一个因变量y例如:各种回归分析的比较第一节多元线性回归分析的基本思想多元线性回归分析:研究一个因变量与一组自变量的依存关系,即,研究一组自变量是如何直接影响一个因变量的。第二节多元线性回归分析的数学模型idx1…xj…xky------------------------------------------------------1x11…x1j…x1ky1…………………ixi1…xij…xikyi…………………nxn1…xnj…xnkyn数据:数学模型:其中:{yi}和{xij}是因变量y和自变量xj的观察值;β0,β1…βk是待估计的偏回归系数;ei是yi的随机误差,且{ei}~N(0,σ)。一元线性回归分析的数学模型模型:yi=α+βxi+εi(i=1,2…n)idxy------------------------1x1y12x2y2……ixiyi……nxnyn。。。。。。。。。。。。xy0。。。一元线性回归模型(xi,yi)εi1.因变量是连续随机变量;2.自变量是固定数值型变量,且相互独立;3.每一个自变量与因变量呈线性关系;4.每一个自变量与随机误差相互独立;5.观察个体的随机误差之间相互独立;6.随机误差{ei}~N(0,σ)。数据的假设条件:第三节多元线性回归分析的方法步骤1.估计偏回归系数b0,b1…bk;2.检验回归系数b0,b1…bk的统计意义;3.检验模型y=b0+b1x1+…+bkxk的统计意义;4.诊断模型;5.解释模型参数的实际意义。1、估计偏回归系数最小二乘法:使得残差的平方和达到最小。2、检验参数t-检验法:H0:βj=0vsH1:βj≠0(j=1,2,…,k)3、检验模型F-检验法:H0:β1=…=βk=0vsH1:βj≠0模型显著性检验的方差分析表:复确定系数(multipledeterminentcoefficient)--------------它表示了因变量y的总体变异中被所有自变量所解释的比例。校正复确定系数(adjustedmultipledeterminentcoefficient)判断模型的另一个指标:4、模型的诊断(diagnosis)•数据应满足的假设条件(assumption):a)自变量之间不存在多重共线性;b)自变量与残差独立;c)残差的均值为零,方差为常数;d)残差之间相互独立;e)残差服从正态分布。•不满足条件导致的后果:a)结论不唯一;b)模型中缺少重要自变量;c)参数估计出现偏倚;d)结果失真;e)统计检验结果出现偏倚。诊断自变量多重共线性的必要性举例说明多重共线性multicollinearity分析结果不稳定显著性消失符号错误自变量共线性引起的问题之一:显著性消失例1:儿童心象面积的研究Y:心象面积(平方厘米)X1:性别(男=1,女=2)X2:年龄(月)X3:身高(厘米)X4:体重(公斤)X5:胸围(厘米)例1的相关系数表心象性别年龄身高体重胸围yx1x2x3x4x5性别-0.081.00年龄0.87-0.061.00身高0.930.000.861.00体重0.91-0.020.890.951.00胸围0.89-0.080.860.910.971.00Multicollinearity!!例1的回归分析结果:模型总体检验:p=0.0002,R-sq=0.95参数估计和检验VarDFEstSETProb|T|Int154.58124.30.4390.6737X11-7.768.07-0.9620.3679X210.120.180.6720.5231X310.290.420.6930.5104X411.122.260.4970.6343X51-0.942.33-0.4040.6985Non-significant!!自变量共线性引起的问题之二:符号错误例2:吸氧效率的研究Y:吸氧效率X1:年龄X2:跑1.5公里所需的时间(分钟)X3:跑步时的心跳率X4:最高心跳率例2的相关系数表吸氧年龄跑步跑步最高效率时间心跳率心跳率yX1X2X3X4X1-0.201.00X2-0.80-0.151.00X3-0.49-0.320.361.00X4-0.37-0.420.280.931.00NegativecorrelatedHighcorrelated例2的分析结果:模型总体检验:p=0.0001,R-sq=0.85参数估计和检验VarDFEstSETProb|T|int196.6112.27.910.0001X11-0.190.09-1.990.0574X21-2.880.35-8.140.0001X31-0.340.12-2.950.0068X410.280.132.060.0493ErrorSign5、模型参数的意义解释其中,b0,b1,…,bk是偏回归系数β0,β1,….,βk的估计值。bj表示了当其它自变量不变时,xj改变一个单位所引起的y的改变量。例如,b1=0.25表示当其它自变量不变时,自变量x1每增加一个单位,因变量y将增加0.25个单位。标准偏回归系数估计值及其作用:标准偏回归系数消除了量纲的影响,可以相互比较,用来判断自变量对因变量的影响强弱。同一模型中对参数估计值进行大小比较,绝对值大的b'j对应的自变量xj对因变量y的影响大,或者说,与因变量y的关联性强。多元线性回归分析的用SAS程序datad;inputidx1-x3y;cards;11.02.33.41022.12.53.81533.23.33.82044.23.94.22254.84.25.028run;多元线性回归分析procregdata=d;modely=x1-x3/stb;run;建立SAS数据集其中,stb指令系统输出标准偏回归系数。DependentVariable:YAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValueProbFModel3184.74361.58118.9120.1671Error13.2563.256CTotal4188.000RootMSE1.80452R-square0.9827DepMean19.00000AdjR-sq0.9307C.V.9.49746ParameterEstimatesParameterStandardTforH0:ProbStdVariableDFEstimateErrorParamet=0|T|EstimateINTERCEP1-1.7437114.76037-0.1180.9250.0000X113.869343.687011.0490.4840.8703X21-1.105526.34159-0.1740.890-0.1347X313.090453.416220.9050.5310.2734输出结果•判断一个模型是否是一个最优模型,既要考虑总体模型的检验结果,还要考虑每一个参数的检验结果,并且要将两者结合起来。•统计意义上的最优模型应当满足两点:–统计上有显著性意义(p≤0.05)的xj都含在模型中;–统计上无显著性意义(p0.05)的xj都不含在模型中。•当自变量较多时,获得最优模型的方法一般采用逐步回归的方法,即依次分析所有可能的模型,逐步地达到最优模型的条件。•常用的有三种逐步回归法:第四节多元线性回归分析的逐步回归法1、向前选择法(forwardselection)•从仅含有常数项的最小模型开始,逐步在模型中添加x变量,直到没有满足要求的自变量为止。•向模型中添加变量的方法是:对模型外的每一个自变量xj,计算出当它进入模型后引起的回归平方和的增加量以及对应的F-值和p-值,然后将具有最大F-值,且p-值不超过进入允许水平(entrylevel)的自变量xj添加到模型中去。•进入允许水平可以任意设定,一般小于0.50。•这里所说的F-值指的是检验自变量xj对模型的贡献是否有统计意义的统计量:2、向后消去法(backwardelimination)•从含有常数项和所有k个自变量的最大模型开始,逐步从模型中消去x变量,直到没有满足要求的自变量为止。•从模型中消去变量的方法是:对模型里的每一个自变量xj,计算出当它退出模型后引起的回归平方和的减少量以及对应的F-值和p-值,然后将具有最小F-值,且p-值超过停留允许水平(staylevel)的自变量xj从模型中消去。•停留允许水平也可以任意定义,一般小于0.10。•这里所说的F-值和上面的一致。3、逐步过程法(stepwiseprocedure)•从仅含有常数项的最小模型开始,逐步在模型中添加或消去x变量,直到模型外的所有x变量都不满足进入允许水平的要求,而且模型内的所有x变量都满足停留允许水平的要求为止。•在模型中添加x变量的方法和向前选择法相同,从模型中消去x变量的方法和向后消去法相同。•添加和消去x变量的顺序原则是,在每添加一个新的x变量之前,首先用向后消去法原则消去模型内所有超出停留允许水平的x变量,然后用向前选择法原则在模型中添加一个新的x变量。•逐步过程法和向前选择法的不同之处是,已经进入模型的x变量还可以再次从模型中退出;逐步过程法和向后消去法的不同之处是,已经从模型中消去的x变量还可以再次进入模型中。•决定模型好坏的常用指标有三个:检验总体模型的p-值,确定系数R2值和检验每一个回归系数bj的p-值。•这三个指标都是样本数n、模型中参数的个数k的函数。样本量增大或参数的个数增多,都可以引起p-值和R2值的变化。但由于受到自由度的影响,这些变化是复杂的。•判断一个模型是否是一个最优模型,除了评估各种统计检验指标外,还要结合专业知识全面权衡各个指标变量系数的实际意义,如符号,数值大小等。•对于比较重要的自变量,它的留舍和进入模型的顺序要倍加小心。决定模型好坏的常用指标和注意事项:第六节多元线性回归分析应用实例例:为了了解和预测人体吸入氧气的效率,收集了30名中年男性的健康状况调查资料。共调查了7个指标,它们是:吸氧的效率(y),年龄(x1),体重(x2),跑1.5公里所需的时间(x3)---以分钟计算,休息时的心跳次数(x4),跑步时的心跳率(x5),和最高心跳率(x6)。该问题中吸氧的效率(y)是因变量,其余6个变量是自变量。试用多元回归分析建立预测人体吸氧效率的模型。1)建立SAS数据集dataeg5_1;inputyx1-x6;cards;44.6094489.4711.3762178182……47.4675282.7810.5053170172run;2)检验自变量的共线性procregdata=eg5_1;modely=x1-x6/collin;run;CollinearityDiagnosticsEigenConditionVarPropVarPropVarPropVarPropVarPropVarPropVarPropNovalueIndexintercpX1X2X3X4X5X616.9491.000000.00000.00020.00020.00020.00030.00000.000020.01919.01590.00190.17500.00520.02190.35160.00000.000030.01521.44840.00080.13720.24250.13180.04980.00120.001340.00927.54870.00590.03020