运用SPSS做多元回归分析吴慧若概念多元线性回归分析也称复线性回归分析,它研究一组自变量如何直接影响一个因变量。自变量(independentvariable)是指独立自由变量的变量,用向量X表示;因变量(dependentvariable)是指非独立的、受其它变量影响的变量,用向量Y表示;由于模型仅涉及一个因变量,所以多元线性回归分析也称单变量线性回归分析(univariatelinearregressionanalysis)FOREXAMPLE一个变量的变化直接与另一组变量的变化有关:人的体重与身高、胸围血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂多元回归分析数据格式编号1X2X┅jX┅mXY111X12X┅jX1┅mX11Y221X22X┅jX2┅mX22Y┇┇┇┇┇┇┇┇i1iX2iX┅ijX┅imXiY┇┇┇┇┇┇┇┇n1nX2nX┅jnX┅mnXnY注:患者编号为i),,2,1(ni;变量个数为j),,2,1(mj在现实生活中,客观事物常受多种因素影响,我们记录下相应数据并加以分析,目的是为了找出对我们所关心的指标(因变量)Y有影响的因素(也称自变量或回归变量)x1、x2、…、xm,并建立用x1、x2、…、xm预报Y的经验公式:mmXXXY22110从而用以进行预测或控制,达到指导生产活动的目的。多元线性回归方程模型假定因变量Y与自变量间存在如下关系:mX,X,X21mmXXXY22110上式中,是常数项,称为偏回归系数(partialregressioncoefficient)。的含义为在其它自变量保持不变的条件下,自变量改变一个单位时因变量Y的平均改变量。为随机误差,又称残差(residual),它表示的变化中不能由自变量解释的部分。0m,,21m,,ii21iXYm,,iXi21多元回归模型必须满足的假定条件1.因变量是连续随机变量;2.自变量是固定数值型变量,且相互独立;3.每一个自变量与因变量呈线性关系;4.每一个自变量与随机误差相互独立;5.观察个体的随机误差之间相互独立;6.残差是随机变量,均值为零。不良贷款(亿元)各项贷款余额(亿元)本年累计应收贷款(亿元)贷款项目个数(个)本年固定资产投资额(亿元)0.967.36.8551.91.1111.319.81690.94.81737.71773.73.280.87.21014.57.8199.716.51963.212.5185.427.11843.8196.11.71055.92.672.89.11464.30.364.22.11142.74132.211.22376.70.858.661422.83.5174.612.726117.110.2263.515.634146.70.214.80.6242.10.473.55.91125.3124.75413.46.8139.47.22864.311.6368.216.832163.91.695.73.81044.51.2109.610.31467.97.2196.215.81639.7将不良贷款、各项贷款余额、本年累计应收贷款和贷款项目个数作为自变量,通过多元线性回归,分析其对本年固定资产投资额的影响。FOREXAMPLE•R方表示了因变量y的总体变异中被所有自变量所解释的比例。•表中的R平方=0.727,表示整个方程能够解释本年固定资产投资额的72.7%。结果一告诉我们什么?结果二:方差分析表•表中显著度(Sig)0.001,表明整个方程是显著的,也就是说自变量与因变量之间具有显著的线性关系。•但这并不意味着每个自变量与因变量都具有显著的线性关系,具体的结论还需要看后面对每个自变量的回归系数的检验结果。结果三:回归系数表•表中B栏的非标准化回归系数表明:•第一,在控制了其他变量之后,本年固定资产投资额高约1.491亿元;•第二,不良贷款低约5.41亿元,贷款项目个数高约1.294个,各项贷款余额和本年累计应收贷款分别高约0.467亿元和0.208亿元;•由此我们可以得到回归方程式:y=1.491-5.41×不良贷款+1.294×贷款项目个数+0.467×各项贷款余额+0.208×本年累计应收贷款•表中Beta栏的标准化回归系数的绝对值可以用于比较各个自变量之间对因变量的贡献大小:各项贷款余额(0.933)不良贷款(-0.486)贷款项目个数(0.276)本年累计应收贷款(0.033)同一模型中对参数估计值进行大小比较,绝对值大的对因变量y的影响大,或者说,与因变量y的关联性强。•Sig栏中每个回归系数的显著度水平,表明各自所对应的那个自变量与因变量之间是否存在显著的线性相关关系。由此,我们可以认为不良贷款、各项贷款余额、本年累计应收贷款和贷款项目个数都会影响本年固定资产投资额。结果四:多重共线性1.特征值,存在维度为4的值约等于0,说明存在比较严重的共线性;2.条件索引列,第五列大于10,可以说存在比较严重的共线性;3.方差比例内存在接近于1的数(0.91),存在比较严重的共线性。结果五:残差统计表•用SAS的检查得知,残差的均值为零(p=1.000),且服从正态分布。不良贷款(亿元)各项贷款余额(亿元)本年累计应收贷款(亿元)贷款项目个数(个)本年固定资产投资额(亿元)1.695.73.81044.51.2109.610.31467.9y=1.491-5.41×不良贷款+0.467×各项贷款余额+0.208×本年累计应收贷款+1.294×贷款项目个数y=1.491-5.41×1.6+0.467×95.7+0.208×3.8+1.294×10=51.25•由此我们可以得到回归方程式:y=2.249-5.42×不良贷款+0.473×各项贷款余额+0.142×本年累计应收贷款+1.253×贷款项目个数y=1.491-5.41×不良贷款+0.467×各项贷款余额+0.208×本年累计应收贷款+1.294×贷款项目个数y=2.249-5.42×不良贷款+0.473×各项贷款余额+0.142×本年累计应收贷款+1.253×贷款项目个数y=1.87-5.415×不良贷款+0.47×各项贷款余额+0.175×本年累计应收贷款+1.2935×贷款项目个数y=1.87-5.415×不良贷款+0.47×各项贷款余额+0.175×本年累计应收贷款+1.2935×贷款项目个数不良贷款(亿元)各项贷款余额(亿元)本年累计应收贷款(亿元)贷款项目个数(个)本年固定资产投资额(亿元)1.695.73.81044.51.2109.610.31467.9y=1.87-5.415×1.2+0.47×109.6+0.175×10.3+1.2935×14=66.83THANKS!